بڑے اعصابی نیٹ ورکس جنہیں زبان کی پہچان اور نسل کے لیے تربیت دی گئی ہے، حالیہ برسوں میں مختلف کاموں میں شاندار نتائج کا مظاہرہ کیا ہے۔ GPT-3 نے ثابت کیا کہ بڑے لینگویج ماڈلز (LLMs) کو چند شاٹ لرننگ کے لیے استعمال کیا جا سکتا ہے اور وسیع ٹاسک مخصوص ڈیٹا یا ماڈل کے پیرامیٹرز کو تبدیل کیے بغیر بہترین نتائج حاصل کیے جا سکتے ہیں۔
گوگل، سیلیکون ویلی ٹیک بیہیمتھ، نے PaLM، یا Pathways Language Model، کو دنیا بھر کی ٹیک انڈسٹری میں اگلی نسل کے AI-Language ماڈل کے طور پر متعارف کرایا ہے۔ گوگل نے ایک نیا شامل کیا ہے۔ مصنوعی ذہانت AI-Language ماڈل کے معیار کو بہتر بنانے کے اسٹریٹجک مقاصد کے ساتھ PaLM میں فن تعمیر۔
اس پوسٹ میں، ہم پام الگورتھم کا تفصیل سے جائزہ لیں گے، بشمول اس کی تربیت کے لیے استعمال ہونے والے پیرامیٹرز، اس سے حل ہونے والا مسئلہ، اور بہت کچھ۔
کیا ہے گوگل کا PaLM الگورتھم?
پاتھ ویز لینگویج ماڈل کیا ہے۔ کھجور سے مراد. یہ ایک نیا الگورتھم ہے جسے گوگل نے Pathways AI فن تعمیر کو مضبوط بنانے کے لیے تیار کیا ہے۔ ڈھانچے کا بنیادی ہدف ایک بار میں دس لاکھ مختلف سرگرمیاں کرنا ہے۔
ان میں پیچیدہ ڈیٹا کو سمجھنے سے لے کر کٹوتی استدلال تک سب کچھ شامل ہے۔ PaLM زبان اور استدلال کے کاموں میں موجودہ AI جدید ترین اور ساتھ ہی انسانوں کو پیچھے چھوڑنے کی صلاحیت رکھتا ہے۔
اس میں فیو شاٹ لرننگ شامل ہے، جو اس بات کی نقل کرتا ہے کہ انسان کیسے نئی چیزیں سیکھتا ہے اور علم کے متنوع ٹکڑوں کو یکجا کر کے نئے چیلنجوں سے نمٹنے کے لیے جو پہلے کبھی نہیں دیکھے گئے تھے، ایک مشین کے فائدے کے ساتھ جو اپنے تمام علم کو نئے چیلنجز کو حل کرنے کے لیے استعمال کر سکتی ہے۔ PaLM میں اس مہارت کی ایک مثال یہ ہے کہ اس میں ایک لطیفہ بیان کرنے کی صلاحیت ہے جو اس نے پہلے کبھی نہیں سنی۔
PaLM نے متعدد چیلنجنگ کاموں پر بہت سی پیش رفت کی مہارت کا مظاہرہ کیا، جن میں زبان کی سمجھ اور تخلیق، کثیر مرحلہ ریاضی کے کوڈ سے متعلق سرگرمیاں، عام فہم استدلال، ترجمہ، اور بہت کچھ شامل ہے۔
اس نے کثیر لسانی NLP سیٹوں کا استعمال کرتے ہوئے پیچیدہ مسائل کو حل کرنے کی اپنی صلاحیت کا مظاہرہ کیا ہے۔ PaLM کو دنیا بھر کی ٹیک مارکیٹ وجہ اور اثر، تصوراتی امتزاج، الگ گیمز، اور بہت سی دوسری چیزوں میں فرق کرنے کے لیے استعمال کر سکتی ہے۔
یہ ملٹی اسٹپ لاجیکل انفرنس، گہری زبان، عالمی علم اور دیگر تکنیکوں کا استعمال کرتے ہوئے بہت سے سیاق و سباق کے لیے گہرائی سے وضاحتیں بھی پیدا کر سکتا ہے۔
گوگل نے PaLM الگورتھم کیسے تیار کیا؟
PaLM میں گوگل کی شاندار کارکردگی کے لیے، پاتھ ویز کو 540 بلین پیرامیٹرز تک پیمانہ کرنے کے لیے مقرر کیا گیا ہے۔ یہ ایک ایسے ماڈل کے طور پر پہچانا جاتا ہے جو متعدد ڈومینز میں موثر اور مؤثر طریقے سے عام کر سکتا ہے۔ گوگل پر پاتھ ویز ایکسلریٹر کے لیے تقسیم شدہ کمپیوٹنگ تیار کرنے کے لیے وقف ہے۔
PaLM ایک ڈیکوڈر صرف ٹرانسفارمر ماڈل ہے جسے پاتھ ویز سسٹم کا استعمال کرتے ہوئے تربیت دی گئی ہے۔ گوگل کے مطابق، PaLM نے کام کے کئی بوجھوں میں جدید ترین چند شاٹ کارکردگی کامیابی سے حاصل کی ہے۔ PaLM نے سب سے بڑے TPU پر مبنی سسٹم کنفیگریشن تک تربیت کو بڑھانے کے لیے Pathways سسٹم کا استعمال کیا ہے، جسے پہلی بار 6144 چپس کے نام سے جانا جاتا ہے۔
AI-زبان کے ماڈل کے لیے ایک تربیتی ڈیٹاسیٹ انگریزی اور دیگر کثیر لسانی ڈیٹاسیٹس کے مرکب سے بنا ہے۔ "نقصان کے بغیر" الفاظ کے ساتھ، اس میں اعلیٰ معیار کا ویب مواد، مباحثے، کتابیں، GitHub کوڈ، Wikipedia، اور بہت کچھ شامل ہے۔ خالی جگہ کو برقرار رکھنے اور یونیکوڈ حروف کو جو کہ ذخیرہ الفاظ میں نہیں ہیں بائٹس میں توڑنے کے لیے بے نقصان الفاظ کو تسلیم کیا جاتا ہے۔
PaLM کو گوگل اور پاتھ ویز نے ایک معیاری ٹرانسفارمر ماڈل آرکیٹیکچر اور ایک ڈیکوڈر کنفیگریشن کا استعمال کرتے ہوئے تیار کیا تھا جس میں SwiGLU ایکٹیویشن، متوازی پرتیں، RoPE ایمبیڈنگز، مشترکہ ان پٹ آؤٹ پٹ ایمبیڈنگز، ملٹی سوال توجہ، اور کوئی تعصب یا الفاظ شامل نہیں تھے۔ دوسری طرف، PaLM گوگل اور پاتھ ویز کے اے آئی لینگویج ماڈل کے لیے ٹھوس بنیاد فراہم کرنے کے لیے تیار ہے۔
PaLM کو تربیت دینے کے لیے استعمال ہونے والے پیرامیٹرز
پچھلے سال، گوگل نے پاتھ ویز کا آغاز کیا، ایک واحد ماڈل جسے ہزاروں نہیں تو لاکھوں چیزوں کو کرنے کی تربیت دی جا سکتی ہے — جسے "اگلی نسل کے AI فن تعمیر" کا نام دیا گیا ہے کیونکہ یہ صرف ایک کام کرنے کے لیے تربیت یافتہ ہونے کی موجودہ ماڈلز کی حدود کو دور کر سکتا ہے۔ . موجودہ ماڈلز کی صلاحیتوں کو بڑھانے کے بجائے، نئے ماڈل اکثر ایک کام کو پورا کرنے کے لیے نیچے سے اوپر بنائے جاتے ہیں۔
نتیجے کے طور پر، انہوں نے دسیوں ہزار مختلف سرگرمیوں کے لیے دسیوں ہزار ماڈلز بنائے ہیں۔ یہ ایک وقت طلب اور وسائل سے بھرپور کام ہے۔
گوگل نے پاتھ ویز کے ذریعے ثابت کیا کہ ایک ماڈل مختلف قسم کی سرگرمیوں کو سنبھال سکتا ہے اور نئے کاموں کو زیادہ تیزی اور موثر طریقے سے سیکھنے کے لیے موجودہ صلاحیتوں کو اپنی طرف متوجہ اور یکجا کر سکتا ہے۔
ملٹی موڈل ماڈلز جن میں بصارت، لسانی فہم، اور سمعی پروسیسنگ شامل ہیں ایک ہی وقت میں راستے کے ذریعے فعال کیے جا سکتے ہیں۔ پاتھ ویز لینگویج ماڈل (PaLM) اپنے 4 بلین پیرامیٹر ماڈل کی بدولت متعدد TPU v540 Pods میں ایک ہی ماڈل کی تربیت کی اجازت دیتا ہے۔
PaLM، ایک گھنے ڈیکوڈر صرف ٹرانسفارمر ماڈل، کام کے بوجھ کی ایک وسیع رینج میں جدید ترین چند شاٹ پرفارمنس کو بہتر بناتا ہے۔ PaLM کو دو TPU v4 Pods پر تربیت دی جا رہی ہے جو ڈیٹا سینٹر نیٹ ورک (DCN) کے ذریعے منسلک ہیں۔
یہ ماڈل اور ڈیٹا کی ہم آہنگی دونوں کا فائدہ اٹھاتا ہے۔ محققین نے PaLM کے لیے ہر Pod میں 3072 TPU v4 پروسیسرز لگائے، جو 768 میزبانوں سے منسلک تھے۔ محققین کے مطابق، یہ ابھی تک انکشاف کردہ سب سے بڑی TPU ترتیب ہے، جس سے وہ پائپ لائن کے متوازی کو استعمال کیے بغیر تربیت کو پیمانہ بنا سکتے ہیں۔
پائپ لائننگ عام طور پر پائپ لائن کے ذریعے CPU سے ہدایات جمع کرنے کا عمل ہے۔ ماڈل کی تہوں کو ان مرحلوں میں تقسیم کیا گیا ہے جن پر پائپ لائن ماڈل متوازی (یا پائپ لائن متوازی) کے ذریعے متوازی عمل کیا جا سکتا ہے۔
ایکٹیویشن میموری اگلے مرحلے پر بھیجی جاتی ہے جب ایک مرحلہ مائیکرو بیچ کے لیے فارورڈ پاس مکمل کرتا ہے۔ گریڈیئنٹس پھر پیچھے کی طرف بھیجے جاتے ہیں جب مندرجہ ذیل مرحلہ اپنا پسماندہ پھیلاؤ مکمل کر لیتا ہے۔
PaLM بریک تھرو صلاحیتیں۔
PaLM مشکل کاموں کی ایک حد میں زمینی صلاحیتوں کو ظاہر کرتا ہے۔ یہاں کئی مثالیں ہیں:
1. زبان کی تخلیق اور تفہیم
PaLM کو انگریزی میں 29 مختلف NLP کاموں پر آزمائش میں ڈالا گیا۔
چند شاٹ کی بنیاد پر، PaLM 540B نے پچھلے بڑے ماڈلز جیسے GLaM، GPT-3، Megatron-Turing NLG، Gopher، Chinchilla، اور LaMDA کو 28 میں سے 29 کاموں پر پیچھے چھوڑ دیا، بشمول اوپن ڈومین بند کتاب کے مختلف سوالوں کے جواب دینے والے کام۔ ، بند اور جملے کی تکمیل کے کام، ونوگراڈ طرز کے کام، سیاق و سباق میں پڑھنے کے فہم کے کام، کامن سینس استدلال کے کام، SuperGLUE کام، اور قدرتی اندازہ۔
BIG-بنچ کے کئی کاموں پر، PaLM بہترین فطری زبان کی تشریح اور نسل کی مہارت کا مظاہرہ کرتا ہے۔ مثال کے طور پر، ماڈل وجہ اور اثر کے درمیان فرق کر سکتا ہے، بعض حالات میں تصوراتی امتزاج کو سمجھ سکتا ہے، اور یہاں تک کہ ایموجی سے فلم کا اندازہ لگا سکتا ہے۔ اگرچہ تربیتی کارپس کا صرف 22% غیر انگریزی ہے، PaLM انگریزی NLP کاموں کے علاوہ، ترجمہ سمیت کثیر لسانی NLP بینچ مارکس پر اچھی کارکردگی کا مظاہرہ کرتا ہے۔
2. استدلال کرنا
PaLM ماڈل کے سائز کو چین آف تھیٹ کے ساتھ ملاتا ہے جس سے استدلال کے چیلنجوں پر کامیابی کی مہارت کا مظاہرہ کرنے کا اشارہ ملتا ہے جس میں کثیر الجہتی ریاضی یا کامن سینس استدلال کی ضرورت ہوتی ہے۔
پچھلے ایل ایل ایم، جیسے گوفر، نے کارکردگی کو بڑھانے کے لحاظ سے ماڈل سائز سے کم فائدہ اٹھایا۔ PaLM 540B چین آف تھیٹ پرمپٹنگ کے ساتھ تین ریاضی اور دو کامن سینس سوچ والے ڈیٹاسیٹس پر اچھی کارکردگی کا مظاہرہ کیا۔
PaLM نے 55% کے پچھلے بہترین اسکور کو پیچھے چھوڑ دیا، جو GPT-3 175B ماڈل کو 7500 مسائل کے تربیتی سیٹ کے ساتھ ٹھیک کرکے اور اسے ایک بیرونی کیلکولیٹر اور تصدیق کنندہ کے ساتھ ملا کر GSM58K میں 8 فیصد مسائل کو حل کرنے سے حاصل کیا گیا تھا۔ 8 شاٹ پرامپٹنگ کا استعمال کرتے ہوئے گریڈ اسکول لیول کے ہزاروں مشکل ریاضی کے سوالات کا بینچ مارک۔
یہ نیا سکور خاص طور پر قابل ذکر ہے کیونکہ یہ 60-9 سال کی عمر کے بچوں کی طرف سے درپیش رکاوٹوں کے 12% اوسط تک پہنچتا ہے۔ یہ ان اصلی لطیفوں کا بھی جواب دے سکتا ہے جو انٹرنیٹ پر دستیاب نہیں ہیں۔
3. کوڈ جنریشن
LLMs کو کوڈنگ کے کاموں میں بھی اچھی کارکردگی کا مظاہرہ کرتے ہوئے دکھایا گیا ہے، بشمول قدرتی زبان کی تفصیل (ٹیکسٹ ٹو کوڈ) سے کوڈ بنانا، زبانوں کے درمیان کوڈ کا ترجمہ کرنا، اور تالیف کی غلطیوں کو حل کرنا۔ پری ٹریننگ ڈیٹاسیٹ میں صرف 5% کوڈ ہونے کے باوجود، PaLM 540B ایک ہی ماڈل میں کوڈنگ اور قدرتی زبان دونوں کاموں پر اچھی کارکردگی کا مظاہرہ کرتا ہے۔
اس کی چند شاٹ کی کارکردگی ناقابل یقین ہے، کیونکہ یہ 12 گنا کم Python کوڈ کے ساتھ تربیت کے دوران ٹھیک ٹیونڈ کوڈیکس 50B سے میل کھاتا ہے۔ یہ تلاش سابقہ نتائج کی پشت پناہی کرتی ہے کہ بڑے ماڈلز چھوٹے ماڈلز کے مقابلے زیادہ نمونہ کارآمد ہو سکتے ہیں کیونکہ وہ متعدد سے سیکھنے کو زیادہ مؤثر طریقے سے منتقل کر سکتے ہیں۔ پروگرامنگ زبانوں اور سادہ زبان کا ڈیٹا۔
نتیجہ
PaLM ایک 4-بلین پیرامیٹر ماڈل کو مؤثر طریقے سے تربیت دے کر دو TPU v540 پوڈز پر ہزاروں ایکسلریٹر پروسیسرز تک پیمانہ کرنے کی پاتھ ویز سسٹم کی صلاحیت کو دکھاتا ہے جس میں صرف ایک گھنے ڈیکوڈر-صرف ٹرانسفارمر ماڈل کی اچھی طرح سے مطالعہ شدہ، اچھی طرح سے قائم شدہ نسخہ ہے۔
یہ ماڈل پیمانے کی حدود کو آگے بڑھاتے ہوئے قدرتی زبان کی پروسیسنگ، استدلال، اور کوڈنگ چیلنجوں کی ایک حد میں چند شاٹ پرفارمنس حاصل کرتا ہے۔
جواب دیجئے