وڏيون نيورل نيٽ ورڪ جيڪي ٻولي جي سڃاڻپ ۽ نسل جي لاءِ تربيت ڏنيون ويون آهن انهن ڪيترن ئي ڪمن ۾ تازن سالن ۾ شاندار نتيجا ڏيکاريا آهن. GPT-3 ثابت ڪيو ته وڏي ٻولي جا ماڊل (LLMs) استعمال ڪري سگھجن ٿا ڪجھ شاٽ لرننگ لاءِ ۽ شاندار نتيجا حاصل ڪري سگھن ٿا بغير وسيع ڪم جي مخصوص ڊيٽا جي ضرورت يا ماڊل پيٽرولر کي تبديل ڪرڻ جي.
گوگل، سلڪون وادي ٽيڪ بيهمٿ، متعارف ڪرايو آهي PaLM، يا Pathways Language Model، دنيا جي ٽيڪ انڊسٽري کي ايندڙ نسل جي AI-ٻولي جي ماڊل طور. گوگل هڪ نئون شامل ڪيو آهي مصنوعي انٽيلي جنس PaLM ۾ فن تعمير جو اسٽريٽجڪ مقصد AI-ٻولي جي ماڊل جي معيار کي بهتر ڪرڻ آهي.
هن پوسٽ ۾، اسين پام الورورٿم کي تفصيل سان جانچينداسين، جنهن ۾ ان کي تربيت ڏيڻ لاءِ استعمال ڪيل پيرا ميٽرز، اهو مسئلو حل ڪري ٿو، ۽ گهڻو ڪجهه.
ڇا آھي گوگل جو PaLM الگورتھم?
Pathways Language Model ڇا آھي پي ايل ايم لاءِ بيٺل آهي. ھي ھڪڙو نئون الورورٿم آھي جيڪو گوگل پاران ٺاھيو ويو آھي Pathways AI آرڪيٽيڪچر کي مضبوط ڪرڻ لاءِ. ساخت جو بنيادي مقصد هڪ ئي وقت ۾ هڪ لک مختلف سرگرميون ڪرڻ آهي.
انهن ۾ پيچيده ڊيٽا کي سمجهڻ کان وٺي ڪٽائي واري دليل تائين هر شي شامل آهي. PaLM وٽ موجوده AI اسٽيٽ آف دي آرٽ سان گڏوگڏ ٻولي ۽ استدلال جي ڪمن ۾ انسانن کي به اڳتي وڌڻ جي صلاحيت آهي.
ھن ۾ شامل آھي Few-Shot Learning، جيڪا نقل ڪري ٿي ته ڪيئن ماڻھو نيون شيون سکن ٿا ۽ علم جي مختلف حصن کي گڏ ڪن ٿا نوان چئلينجز کي منهن ڏيڻ لاءِ جيڪي اڳي ڪڏھن به نه ڏٺا ويا آھن، ھڪڙي مشين جي فائدي سان جيڪا پنھنجي سموري ڄاڻ استعمال ڪري سگھي ٿي نوان چئلينجز کي حل ڪرڻ لاءِ؛ PaLM ۾ هن مهارت جو هڪ مثال ان جي هڪ مذاق بيان ڪرڻ جي صلاحيت آهي جيڪا هن اڳ ڪڏهن به نه ٻڌي آهي.
PaLM ڪيترن ئي مشڪل ڪمن تي ڪيترن ئي ڪاميابين جي صلاحيتن جو مظاهرو ڪيو، جنهن ۾ ٻوليءَ جي فهم ۽ تخليق، ملٽي اسٽيپ رياضياتي ڪوڊ سان لاڳاپيل سرگرميون، عام فهم استدلال، ترجمو، ۽ ٻيا ڪيترائي شامل آهن.
ھن پنھنجي قابليت جو مظاهرو ڪيو آھي پيچيده مسئلن کي حل ڪرڻ لاءِ گھڻ لساني NLP سيٽ استعمال ڪندي. PaLM دنيا جي ٽيڪ مارڪيٽ طرفان استعمال ڪري سگھجي ٿو سبب ۽ اثر، تصوراتي مجموعن، مختلف رانديون، ۽ ٻيون ڪيتريون ئي شيون.
اهو پڻ ڪيترن ئي مقصدن لاءِ گهڻيون وضاحتون ٺاهي سگھي ٿو ملٽي اسٽيپ منطقي انفرنس، گہرے ٻولي، عالمي علم، ۽ ٻين ٽيڪنالاجي استعمال ڪندي.
گوگل ڪيئن ٺاهيو PaLM الگورتھم؟
PaLM ۾ گوگل جي ڪاميابيءَ واري ڪارڪردگيءَ لاءِ، 540 بلين پيرا ميٽرز تائين رستا طئي ٿيل آھن. اهو هڪ ماڊل طور سڃاتو وڃي ٿو جيڪو ڪيترن ئي ڊومينز ۾ موثر ۽ مؤثر طور تي عام ڪري سگهي ٿو. گوگل تي پاٿ ويز تيز ڪندڙ لاءِ ورهايل ڪمپيوٽنگ کي ترقي ڪرڻ لاءِ وقف آهي.
PaLM ھڪڙو ڊيڪوڊر-صرف ٽرانسفارمر ماڊل آھي جنھن کي Pathways سسٽم استعمال ڪندي تربيت ڏني وئي آھي. گوگل جي مطابق، PaLM ڪاميابيءَ سان ڪيترن ئي ڪم لوڊن ۾ اسٽيٽ آف دي آرٽ ڪجھ شاٽ ڪارڪردگي حاصل ڪئي. PaLM استعمال ڪيو آهي Pathways سسٽم کي ٽريننگ کي وڌائڻ لاءِ سڀ کان وڏي TPU تي ٻڌل سسٽم جي ترتيب، جنهن کي پهريون ڀيرو 6144 چپس طور سڃاتو وڃي ٿو.
AI-ٻوليءَ جي ماڊل لاءِ هڪ تربيتي ڊيٽا سيٽ انگريزي ۽ ٻين گهڻ لساني ڊيٽا سيٽن جي ميلاپ مان ٺهيل آهي. ”نقصان کان خالي“ لفظ سان، ان ۾ اعليٰ معيار جو ويب مواد، بحث، ڪتاب، GitHub ڪوڊ، وڪيپيڊيا ۽ ٻيا گھڻا شامل آھن. لامحدود لفظ کي وائيٽ اسپيس برقرار رکڻ ۽ يونيڪوڊ اکرن کي ٽوڙڻ لاءِ سڃاتو وڃي ٿو جيڪي لفظ ۾ نه آهن بائيٽ ۾.
PaLM گوگل ۽ پاٿ ويز پاران ترقي ڪئي وئي استعمال ڪندي هڪ معياري ٽرانسفارمر ماڊل آرڪيٽيڪچر ۽ هڪ ڊيڪوڊر ڪنفيگريشن جنهن ۾ شامل آهي SwiGLU ايڪٽيويشن، متوازي پرت، RoPE ايمبيڊنگس، شيئر ان پٽ-آئوٽ پُٽ ايمبيڊنگس، ملٽي-ڪوئري توجه، ۽ ڪو به تعصب يا لفظ ناهي. ٻئي طرف PaLM، گوگل ۽ پاٿ ويز جي AI-ٻوليءَ جي ماڊل لاءِ هڪ مضبوط بنياد مهيا ڪرڻ لاءِ تيار آهي.
PaLM کي تربيت ڏيڻ لاءِ استعمال ٿيل پيراميٽر
گذريل سال، گوگل شروع ڪيو Pathways، ھڪڙو ھڪڙو ماڊل جيڪو ھزارين ڪرڻ جي تربيت ڏئي سگھي ٿو، جيڪڏھن لکين نه، شين جي - "ايئن نسل جي AI آرڪيٽيڪچر" کي ڊب ڪيو ويو آھي، ڇاڪاڻتہ اھو صرف ھڪڙي ڪم ڪرڻ لاء تربيت حاصل ڪرڻ جي موجوده ماڊل جي حدن کي ختم ڪري سگھي ٿو. . موجوده ماڊلز جي صلاحيتن کي وڌائڻ بجاءِ، نون ماڊل اڪثر ڪري ھڪڙي نوڪري کي پورو ڪرڻ لاءِ ھيٺئين پاسي کان ٺاھيا ويندا آھن.
نتيجي طور، انهن هزارين ماڊل ٺاهيا آهن هزارين مختلف سرگرمين جي لاءِ. اهو هڪ وقت-ڀسم ۽ وسيلن-گھڻي ڪم آهي.
Google Pathways ذريعي ثابت ڪيو ته ھڪڙو ماڊل مختلف سرگرمين کي سنڀالي سگھي ٿو ۽ موجوده صلاحيتن کي گڏ ڪري سگھي ٿو ۽ نئين ڪمن کي وڌيڪ جلدي ۽ موثر طريقي سان سکڻ لاء.
ملٽي موڊل ماڊلز جن ۾ بصري، لساني فهم، ۽ آڊٽوري پروسيسنگ شامل آهن سڀ هڪ ئي وقت رستن ذريعي فعال ٿي سگهن ٿا. Pathways Language Model (PaLM) ان جي 4 بلين پيراميٽر ماڊل جي مهرباني سان ڪيترن ئي TPU v540 Pods تي هڪ واحد ماڊل جي تربيت جي اجازت ڏئي ٿو.
PaLM، ھڪڙو گھڻ ڊيڪوڊر-صرف ٽرانسفارمر ماڊل، ڪم جي لوڊ جي وسيع رينج ۾ اسٽيٽ آف دي آرٽ ڪجھ شاٽ ڪارڪردگي کي ختم ڪري ٿو. PaLM ٻن TPU v4 پوڊس تي تربيت ڪئي پئي وڃي جيڪي ڊيٽا سينٽر نيٽ ورڪ (DCN) ذريعي ڳنڍيل آهن.
اهو ٻنهي ماڊل ۽ ڊيٽا جي برابري جو فائدو وٺندو آهي. محققن هر پوڊ ۾ 3072 TPU v4 پروسيسرز کي ملازم ڪيو PaLM لاءِ، جيڪي 768 ميزبانن سان ڳنڍيل هئا. محققن جي مطابق، اهو سڀ کان وڏو TPU ترتيب آهي جيڪو اڃا تائين ظاهر ڪيو ويو آهي، انهن کي پائيپ لائين متوازي کي ملازمت ڏيڻ کان سواء ٽريننگ کي ماپڻ جي اجازت ڏئي ٿو.
پائپ لائننگ عام طور تي پائپ لائن ذريعي سي پي يو کان هدايتون گڏ ڪرڻ جو عمل آهي. ماڊل جي تہن کي مرحلن ۾ ورهايو ويو آھي جيڪي پائپ لائن ماڊل متوازي (يا پائپ لائن متوازي) ذريعي متوازي ۾ پروسيس ڪري سگھجن ٿيون.
چالو ڪرڻ واري ياداشت کي ايندڙ قدم ڏانهن موڪليو ويو آهي جڏهن هڪ اسٽيج هڪ مائڪرو بيچ لاء فارورڊ پاس مڪمل ڪري ٿو. گريڊينٽ وري پوئتي موڪليا ويندا آهن جڏهن هيٺين اسٽيج ان جي پٺتي پروپيگنڊا مڪمل ڪري ٿي.
PaLM بريڪ تھرو صلاحيتون
PaLM مشڪل ڪمن جي هڪ حد ۾ زمين کي ٽوڙڻ واري صلاحيتن کي ڏيکاري ٿو. هتي ڪيترائي مثال آهن:
1. ٻولي ٺاھڻ ۽ سمجھڻ
PaLM کي انگريزيءَ ۾ 29 مختلف NLP ڪمن تي آزمايو ويو.
ڪجھ شاٽ جي بنياد تي، PaLM 540B اڳئين وڏن ماڊلز جهڙوڪ GLaM، GPT-3، Megatron-Turing NLG، Gopher، Chinchilla، ۽ LaMDA کي 28 مان 29 ڪمن تي، جن ۾ اوپن-ڊومين بند ٿيل ڪتاب مختلف سوالن جا جواب ڏيڻ وارا ڪم شامل آھن. بند ڪرڻ ۽ جملي جي مڪمل ٿيڻ جا ڪم، ونگراڊ طرز جا ڪم، ان حوالي سان پڙهڻ وارا سمجھڻ جا ڪم، عام عقلي دليلن جا ڪم، SuperGLUE جا ڪم، ۽ قدرتي انداز.
ڪيترن ئي BIG-بينچ جي ڪمن تي، PaLM شاندار قدرتي ٻولي جي تشريح ۽ نسل جي صلاحيتن جو مظاهرو ڪري ٿو. مثال طور، ماڊل سبب ۽ اثر جي وچ ۾ فرق ڪري سگهي ٿو، ڪجهه حالتن ۾ تصوراتي مجموعن کي سمجهي سگهي ٿو، ۽ حتي فلم جو اندازو لڳائي سگھي ٿو ايموجي مان. جيتوڻيڪ ٽريننگ ڪارپس جو صرف 22٪ غير انگريزي آهي، PaLM انگريزي NLP ڪمن کان علاوه، ترجمي سميت، گھڻ لساني NLP معيارن تي سٺي ڪارڪردگي ڏيکاري ٿي.
2. دليل ڏيڻ
PaLM ماڊل سائيز کي چين-آف-ٿٽ سان گڏ ڪري ٿو، استدلال جي چئلينجن تي پيش رفت جي صلاحيتن کي ظاهر ڪرڻ لاءِ، جنهن لاءِ ملٽي اسٽيپ رياضي يا ڪامن سينس استدلال جي ضرورت آهي.
اڳوڻو LLMs، جهڙوڪ گوفر، ڪارڪردگي کي وڌائڻ جي لحاظ کان ماڊل سائيز کان گھٽ فائدو ورتو. PaLM 540B چين-آف-ٿٿ پرمپٽنگ سان گڏ ٽن رياضي ۽ ٻن ڪمن سينس سوچڻ واري ڊيٽا سيٽن تي سٺو ڪم ڪيو.
PaLM 55٪ جي اڳوڻي بهترين اسڪور کي ختم ڪري ٿو، جيڪو GPT-3 175B ماڊل کي 7500 مسئلن جي تربيتي سيٽ سان گڏ ڪرڻ سان حاصل ڪيو ويو آهي ۽ ان کي هڪ خارجي حساب ڪتاب ۽ تصديق ڪندڙ سان گڏ ڪرڻ سان GSM58K ۾ 8 سيڪڙو مسئلن کي حل ڪرڻ لاء، هڪ 8-شاٽ پرامپٽنگ استعمال ڪندي ھزارين ڏکيو گريڊ اسڪول سطح جي رياضي سوالن جو معيار.
هي نئون سکور خاص طور تي قابل ذڪر آهي ڇو ته اهو 60-9 سالن جي عمر جي 12 سيڪڙو رڪاوٽن جي اوسط تائين پهچي ٿو. اهو پڻ اصل مذاق جو جواب ڏئي سگهي ٿو جيڪي انٽرنيٽ تي موجود نه آهن.
3. ڪوڊ جي پيدائش
LLMs کي ڪوڊنگ جي ڪمن ۾ بھترين ڪارڪردگي ڏيکاريو ويو آھي، بشمول ھڪڙي قدرتي ٻولي جي وضاحت (ٽيڪسٽ کان ڪوڊ)، ٻولين جي وچ ۾ ڪوڊ ترجمو ڪرڻ، ۽ تاليف جي غلطين کي حل ڪرڻ سميت. پري ٽريننگ ڊيٽا سيٽ ۾ صرف 5% ڪوڊ هجڻ جي باوجود، PaLM 540B هڪ ئي ماڊل ۾ ڪوڊنگ ۽ قدرتي ٻولي ٻنهي ڪمن تي سٺي نموني ڪم ڪري ٿو.
ان جي ڪجھ شاٽ ڪارڪردگي ناقابل يقين آھي، ڇاڪاڻ ته اھو ٺيڪ ٺھيل ڪوڊڪس 12B سان ملندو آھي جڏھن ته 50 ڀيرا گھٽ پٿون ڪوڊ سان ٽريننگ. هي ڳولهڻ اڳين نتيجن سان پٺڀرائي ڪري ٿو ته وڏا ماڊل ننڍڙن ماڊلز جي ڀيٽ ۾ وڌيڪ نموني ڪارگر ٿي سگهن ٿا ڇاڪاڻ ته اهي وڌيڪ موثر طريقي سان ڪيترن ئي کان سکيا منتقل ڪري سگهن ٿا. پروگرامنگ ٻوليون ۽ سادي ٻولي ڊيٽا.
ٿڪل
PaLM ڏيکاري ٿو Pathways سسٽم جي گنجائش هزارين ايڪسيليٽر پروسيسرز کي ٻن TPU v4 پوڊز تي ماپڻ لاءِ مؤثر طريقي سان 540-بلين پيراميٽر ماڊل کي تربيت ڏيندي، هڪ سٺي مطالعي سان، چڱيءَ طرح قائم ڪيل ترڪيب سان هڪ گھڻ ڊيڪوڊر-صرف ٽرانسفارمر ماڊل.
اهو ماڊل اسڪيل جي حدن کي زور ڏيندي قدرتي ٻوليءَ جي پروسيسنگ، استدلال، ۽ ڪوڊنگ جي چيلنجز جي هڪ حد تائين ڪامياب چند شاٽ ڪارڪردگي حاصل ڪري ٿو.
جواب ڇڏي وڃو