لوی عصبي شبکې چې د ژبې پیژندنې او نسل لپاره روزل شوي په وروستیو کلونو کې په مختلفو کارونو کې د پام وړ پایلې ښودلې. GPT-3 ثابته کړه چې د ژبې لوی ماډلونه (LLMs) د څو شاټ زده کړې لپاره کارول کیدی شي او پرته له دې چې پراخه کاري ځانګړي ډیټا ته اړتیا ولري یا د ماډل پیرامیټونو بدلولو ته اړتیا ولري عالي پایلې ترلاسه کړي.
ګوګل، د سیلیکون ویلی ټیک بیهیموت، PaLM، یا Pathways Language Model، د نړۍ ټیک صنعت ته د راتلونکي نسل AI-ژبې ماډل په توګه معرفي کړی. ګوګل یو نوی شامل کړی مصنوعي هوښیارتیا په PaLM کې د ستراتیژیکو موخو سره د AI ژبې ماډل کیفیت ښه کول.
پدې پوسټ کې ، موږ به د پام الګوریتم په تفصیل سره وګورو ، پشمول د دې روزلو لپاره کارول شوي پیرامیټونه ، هغه مسله چې دا حل کوي ، او نور ډیر څه.
څه دي د ګوګل د PaLM الګوریتم?
د لارې ژبې ماډل څه شی دی PaLM لپاره ولاړ دی. دا یو نوی الګوریتم دی چې د ګوګل لخوا رامینځته شوی ترڅو د Pathways AI جوړښت پیاوړی کړي. د جوړښت اصلي هدف دا دی چې په یوځل کې یو ملیون بیلابیل فعالیتونه ترسره کړي.
پدې کې د پیچلي ډیټا له معلومولو څخه نیولې تر مجرايي استدلال پورې هرڅه شامل دي. PaLM د دې وړتیا لري چې د ژبې او استدلال په دندو کې د اوسني AI عصري او همدارنګه انسانانو څخه تیر شي.
پدې کې د شاټ شاټ زده کړه شامله ده، کوم چې څنګه انسانان نوي شیان زده کوي او د پوهې متنوع برخې سره یوځای کوي ترڅو د نوي ننګونو سره مبارزه وکړي چې مخکې هیڅکله نه لیدل شوي، د ماشین په ګټه چې کولی شي د نوي ننګونو د حل لپاره خپله ټوله پوهه وکاروي؛ په PaLM کې د دې مهارت یوه بیلګه د هغه ټوکې تشریح کولو وړتیا ده چې مخکې یې هیڅکله ندي اوریدلي.
PaLM په مختلفو ننګونو کې د بریالیتوب ډیری مهارتونه ښودلي، پشمول د ژبې پوهه او رامینځته کول، د څو مرحلو ریاضیاتي کوډ پورې اړوند فعالیتونه، د عام احساس استدلال، ژباړه، او نور ډیر څه.
دې د څو ژبو NLP سیټونو په کارولو سره د پیچلو مسلو حل کولو وړتیا ښودلې. PaLM د نړۍ د تخنیکي بازار لخوا کارول کیدی شي د لامل او تاثیر توپیر لپاره ، مفکورې ترکیبونه ، مختلفې لوبې ، او ډیری نور شیان.
دا کولی شي د څو مرحلو منطقي تحلیل، ژورې ژبې، نړیواله پوهه، او نورو تخنیکونو په کارولو سره د ډیری شرایطو لپاره ژور توضیحات هم رامینځته کړي.
ګوګل څنګه د PaLM الګوریتم ته وده ورکړه؟
په PaLM کې د ګوګل د بریالیتوب فعالیت لپاره، لارې ټاکل شوي چې تر 540 ملیارد پیرامیټونو پورې اندازه کړي. دا د یو ماډل په توګه پیژندل شوی چې کولی شي په ډیری ډومینونو کې په مؤثره او مؤثره توګه عمومي کړي. په ګوګل کې لارې د سرعت کونکو لپاره د توزیع شوي کمپیوټري رامینځته کولو لپاره وقف شوي.
PaLM د کوډ کولو یوازینۍ ټرانسفارمر ماډل دی چې د Pathways سیسټم په کارولو سره روزل شوی. د ګوګل په وینا، PaLM په بریالیتوب سره د ډیری کاري بارونو په اوږدو کې د عصري څو شاټ فعالیت ترلاسه کړی. PaLM د لاری سیسټم څخه کار اخیستی ترڅو د لومړي ځل لپاره د 6144 چپس په نوم پیژندل شوي ترټولو لوی TPU-اساس سیسټم ترتیب ته روزنه پراخه کړي.
د AI-ژبې ماډل لپاره د روزنې ډیټاسیټ د انګلیسي او نورو څو ژبو ډیټاسیټونو ترکیب څخه جوړ شوی. د "بې ضرر" لغتونو سره، دا د لوړ کیفیت ویب منځپانګې، بحثونه، کتابونه، GitHub کوډ، ویکیپیډیا، او نور ډیر څه لري. بې ګټې لغتونه د سپینې ځای ساتلو او د یونیکوډ حروفونو ماتولو لپاره پیژندل شوي چې په لغتونو کې نه دي په بایټ کې.
PaLM د ګوګل او Pathways لخوا د معیاري ټرانسفارمر ماډل جوړښت او د کوډ کونکي ترتیب په کارولو سره رامینځته شوی چې پکې د SwiGLU فعالول ، موازي پرتونه ، د RoPE امبیډینګونه ، د شریک ان پټ آوټ پوټ ایمبیډینګونه ، د څو پوښتنو پاملرنه ، او هیڅ تعصب یا لغت شتون نلري. PaLM، له بلې خوا، د ګوګل او Pathways د AI-ژبې ماډل لپاره قوي اساس چمتو کولو ته چمتو دی.
پیرامیټرونه د PaLM روزنې لپاره کارول کیږي
تیر کال، ګوګل Pathways په لاره واچاوه، یو واحد ماډل چې د زرګونو، که میلیونونو نه، د شیانو د ترسره کولو لپاره روزل کیدی شي - د "راتلونکي نسل AI جوړښت" په نوم یادیږي ځکه چې دا کولی شي د موجوده ماډلونو محدودیتونه له منځه یوسي چې یوازې د یو کار کولو لپاره روزل کیږي. . د اوسني موډلونو د وړتیاوو د پراخولو پر ځای، نوي ماډلونه اکثرا د یوې دندې د سرته رسولو لپاره له لاندې څخه جوړیږي.
د پایلې په توګه، دوی د لسګونو زرو بیلابیلو فعالیتونو لپاره لسګونه زره ماډلونه رامینځته کړي. دا د وخت مصرف او د سرچینو ژور کار دی.
ګوګل د Pathways له لارې ثابته کړه چې یو واحد ماډل کولی شي مختلف فعالیتونه اداره کړي او اوسني استعدادونه راوباسي او یوځای کړي ترڅو نوي دندې په چټکۍ او اغیزمنه توګه زده کړي.
ملټي موډل ماډلونه چې لید، ژبني پوهه، او د اوریدنې پروسس کول په ورته وخت کې شامل دي ممکن د لارو له لارې فعال شي. د لارې ژبې ماډل (PaLM) د دې 4 ملیارد پیرامیټر ماډل څخه مننه په ډیری TPU v540 پوډونو کې د واحد ماډل روزنې ته اجازه ورکوي.
PaLM، د ډیکوډر یوازې ټرانسفارمر ماډل، د کاري بارونو په پراخه لړۍ کې د عصري څو شاټ فعالیت ښه کوي. PaLM په دوه TPU v4 پوډونو کې روزل کیږي چې د ډیټا سنټر شبکې (DCN) له لارې تړل شوي.
دا د ماډل او ډیټا موازي دواړه څخه ګټه پورته کوي. څیړونکو د PaLM لپاره په هر پوډ کې 3072 TPU v4 پروسیسرونه ګمارلي، کوم چې د 768 کوربه سره وصل شوي. د څیړونکو په وینا، دا د TPU ترټولو لوی ترتیب دی چې تر اوسه افشا شوی، دوی ته اجازه ورکوي چې د پایپ لاین موازي ګمارلو پرته د روزنې اندازه کړي.
پایپ لاین په عمومي ډول د پایپ لاین له لارې د CPU څخه د لارښوونو راټولولو پروسه ده. د ماډل پرتونه په مرحلو ویشل شوي چې د پایپ لاین ماډل موازي (یا پایپ لاین موازي) له لارې په موازي ډول پروسس کیدی شي.
د فعالولو حافظه بل مرحلې ته لیږل کیږي کله چې یو مرحله د مایکرو بیچ لپاره فارورډ پاس بشپړ کړي. ګریډینټونه بیا شاته لیږل کیږي کله چې لاندې مرحله خپل شاته تکثیر بشپړ کړي.
د PaLM بریالیتوب وړتیاوې
PaLM په یو لړ سختو دندو کې د ځمکې ماتولو وړتیاوې ښیې. دلته څو مثالونه دي:
1. د ژبې جوړول او درک کول
PaLM په انګلیسي کې د 29 مختلف NLP دندو په اړه ازموینې ته اچول شوی و.
په یو څو شاټ اساس، PaLM 540B پخوانی لوی ماډلونه لکه GLaM، GPT-3، Megatron-Turing NLG، Gopher، Chinchilla، او LaMDA د 28 دندو څخه په 29 کې، په شمول د خلاص ډومین تړل شوي کتاب ډول ډول پوښتنې ځواب ورکونې دندې ترسره کړې. د بندولو او جملې بشپړولو دندې، د وینوګراډ سټایل دندې، په شرایطو کې د لوستلو درک دندې، د عام احساس استدلال دندې، د SuperGLUE دندې، او طبیعي اټکل.
په څو BIG-بنچ دندو کې، PaLM د طبیعي ژبې غوره تفسیر او د نسل مهارتونه څرګندوي. د مثال په توګه، ماډل کولی شي د علت او اغیز تر مینځ توپیر وکړي، په ځینو حاالتو کې د مفکورې ترکیبونه درک کړي، او حتی د ایموجي څخه فلم اټکل کړي. که څه هم د روزنې یوازې 22٪ غیر انګلیسي دي، PaLM د انګلیسي NLP دندو سربیره د ژباړې په شمول په څو ژبو NLP بنچمارکونو کې ښه فعالیت کوي.
2. استدلال کول
PaLM د موډل اندازه د فکر کولو سلسله سره ترکیب کوي ترڅو د استدلال ننګونو په اړه د بریالیتوب مهارتونه وښیې چې د څو مرحلو ریاضي یا عام احساس استدلال ته اړتیا لري.
مخکینی LLMs، لکه ګوفر، د فعالیت لوړولو په برخه کې د ماډل اندازې څخه لږ ګټه پورته کړه. PaLM 540B د فکر کولو سلسله سره په دریو ریاضیاتو او دوه عام احساس فکر ډیټاسیټونو کې ښه کار وکړ.
PaLM پخوانۍ غوره نمرې د 55٪ څخه پورته کوي، کوم چې د GPT-3 175B ماډل د 7500 ستونزو د روزنې سیټ سره ښه کولو او د بهرني کیلکولیټر او تصدیق کونکي سره یوځای کولو سره ترلاسه شوی ترڅو په GSM58K کې د 8 سلنه مسلو حل کړي. د 8 شاټ پرامپټینګ په کارولو سره د ښوونځي په کچه د زرګونو ستونزمن ټولګي ریاضی پوښتنو بنچمارک.
دا نوې نمرې په ځانګړې توګه د پام وړ دي ځکه چې دا د 60-9 کلنو ماشومانو لخوا تجربه شوي 12٪ اوسط خنډونو ته نږدې کیږي. دا کولی شي اصلي ټوکو ته هم ځواب ووایی چې په انټرنیټ کې شتون نلري.
3. د کوډ تولید
LLMs هم ښودل شوي چې د کوډ کولو کارونو کې ښه فعالیت کوي ، پشمول د طبیعي ژبې توضیحاتو (متن څخه کوډ) څخه کوډ رامینځته کول ، د ژبو ترمینځ کوډ ژباړل ، او د تالیف غلطیو حل کول. سره له دې چې د روزنې دمخه ډیټا سیټ کې یوازې 5٪ کوډ لري، PaLM 540B په یوه ماډل کې د کوډ کولو او طبیعي ژبې دواړو کارونو کې ښه ترسره کوي.
د دې څو شاټ فعالیت د نه منلو وړ دی ، ځکه چې دا د 12 ځله لږ Python کوډ سره د روزنې پرمهال د ښه ټون شوي کوډیکس 50B سره سمون لري. دا موندنه د مخکینیو موندنو سره ملاتړ کوي چې لوی ماډلونه د وړو ماډلونو په پرتله ډیر نمونه اغیزمن کیدی شي ځکه چې دوی کولی شي په اغیزمنه توګه د څو څخه زده کړې لیږدوي. پروګرامونې ژبې او د ساده ژبې ډاټا.
پایله
PaLM د پاټ ویز سیسټم ظرفیت ښیې چې د دوه TPU v4 پوډونو په اوږدو کې د زرګونو سرعت کونکي پروسیسرونو اندازه کولو لپاره د 540 ملیارد پیرامیټر ماډل په مؤثره توګه روزنې سره د یو واحد ډیکوډر-یوازې ټرانسفارمر ماډل ښه مطالعه شوي ، ښه رامینځته شوي ترکیب سره.
دا د طبیعي ژبې پروسس کولو ، استدلال ، او کوډ کولو ننګونو په اوږدو کې د ماډل پیمانه حدونو ته د فشار ورکولو سره د څو شاټ فعالیت لاسته راوړنه کوي.
یو ځواب ورکړئ ووځي