شبکههای عصبی بزرگی که برای تشخیص و تولید زبان آموزش دیدهاند، در سالهای اخیر نتایج برجستهای را در کارهای مختلف نشان دادهاند. GPT-3 ثابت کرد که مدلهای زبان بزرگ (LLM) را میتوان برای یادگیری چند مرحلهای و به دست آوردن نتایج عالی بدون نیاز به دادههای گسترده کار خاص یا تغییر پارامترهای مدل استفاده کرد.
گوگل، غول فناوری دره سیلیکون، مدل زبانی PaLM یا Pathways Language را به عنوان نسل بعدی مدل زبان هوش مصنوعی به صنعت فناوری در سراسر جهان معرفی کرده است. گوگل یک محصول جدید را گنجانده است هوش مصنوعی معماری به PalM با اهداف استراتژیک برای بهبود کیفیت مدل زبان AI.
در این پست، الگوریتم Palm را با جزئیات بررسی خواهیم کرد، از جمله پارامترهای مورد استفاده برای آموزش آن، مشکلی که آن را حل می کند و موارد دیگر.
چه شده است الگوریتم پالم گوگل?
مدل زبان مسیرها چیست نخل مخفف این یک الگوریتم جدید است که توسط گوگل به منظور تقویت معماری هوش مصنوعی Pathways توسعه یافته است. هدف اصلی این سازه انجام یک میلیون فعالیت مجزا در آن واحد است.
اینها شامل همه چیز از رمزگشایی داده های پیچیده گرفته تا استدلال قیاسی است. PALM توانایی پیشی گرفتن از پیشرفته ترین هوش مصنوعی فعلی و همچنین انسان ها را در وظایف زبانی و استدلالی دارد.
این شامل Few-Shot Learning میشود، که تقلید میکند که چگونه انسانها چیزهای جدید یاد میگیرند و بخشهای مختلف دانش را برای مقابله با چالشهای جدیدی که قبلاً هرگز دیده نشدهاند، ترکیب میکند، با مزایای ماشینی که میتواند از تمام دانش خود برای حل چالشهای جدید استفاده کند. یکی از نمونه های این مهارت در PalM توانایی آن در توضیح جوکی است که قبلاً نشنیده بود.
PALM مهارت های دستیابی به موفقیت بسیاری را در انواع وظایف چالش برانگیز، از جمله درک زبان و ایجاد، فعالیت های مربوط به کدهای حسابی چند مرحله ای، استدلال عقل سلیم، ترجمه و بسیاری دیگر نشان داد.
توانایی خود را در حل مسائل پیچیده با استفاده از مجموعه های چند زبانه NLP نشان داده است. PaLM میتواند توسط بازار جهانی فناوری برای تمایز علت و معلول، ترکیبهای مفهومی، بازیهای متمایز و بسیاری موارد دیگر مورد استفاده قرار گیرد.
همچنین میتواند با استفاده از استنتاج منطقی چند مرحلهای، زبان عمیق، دانش جهانی و سایر تکنیکها، توضیحات عمیقی را برای بسیاری از زمینهها ایجاد کند.
گوگل چگونه الگوریتم Palm را توسعه داد؟
برای موفقیت گوگل در PaLM، مسیرها تا 540 میلیارد پارامتر برنامه ریزی شده است. این مدل به عنوان تنها مدلی شناخته می شود که می تواند به طور مؤثر و مؤثر در دامنه های متعدد تعمیم یابد. Pathways در Google به توسعه محاسبات توزیعشده برای شتابدهندهها اختصاص دارد.
PaLM یک مدل ترانسفورماتور فقط رمزگشا است که با استفاده از سیستم Pathways آموزش داده شده است. به گفته گوگل، PALM با موفقیت به عملکرد چند شات در چندین بار کاری دست یافته است. PaLM از سیستم Pathways برای گسترش آموزش به بزرگترین پیکربندی سیستم مبتنی بر TPU استفاده کرده است که برای اولین بار با نام تراشه های 6144 شناخته می شود.
مجموعه داده های آموزشی برای مدل زبان هوش مصنوعی از ترکیبی از مجموعه داده های انگلیسی و سایر مجموعه های چند زبانه تشکیل شده است. با واژگان "بی ضرر"، حاوی محتوای وب با کیفیت بالا، بحث ها، کتاب ها، کد GitHub، ویکی پدیا و بسیاری موارد دیگر است. واژگان بدون از دست دادن برای حفظ فضای خالی و شکستن کاراکترهای یونیکد که در واژگان نیستند به بایت شناخته می شوند.
PaLM توسط Google و Pathways با استفاده از یک معماری مدل ترانسفورماتور استاندارد و یک پیکربندی رمزگشا که شامل فعالسازی SwiGLU، لایههای موازی، تعبیههای RoPE، تعبیههای ورودی-خروجی مشترک، توجه چند پرس و جو و بدون تعصب یا واژگان است، توسعه داده شد. از سوی دیگر، PaLM آماده است تا پایه ای محکم برای مدل زبان هوش مصنوعی گوگل و Pathways ارائه دهد.
پارامترهای مورد استفاده برای آموزش PalM
سال گذشته، گوگل Pathways را راهاندازی کرد، یک مدل واحد که میتوان آن را برای انجام هزاران کار، اگر نه میلیونها کار، آموزش داد. . به جای گسترش قابلیتهای مدلهای فعلی، مدلهای جدید اغلب از پایین به بالا برای انجام یک کار واحد ساخته میشوند.
در نتیجه ده ها هزار مدل برای ده ها هزار فعالیت مختلف ایجاد کرده اند. این یک کار وقت گیر و منابع فشرده است.
گوگل از طریق Pathways ثابت کرد که یک مدل واحد میتواند فعالیتهای مختلفی را انجام دهد و استعدادهای فعلی را برای یادگیری سریعتر و کارآمدتر وظایف جدید به کار گرفته و ترکیب کند.
مدلهای چندوجهی که شامل بینایی، درک زبانی، و پردازش شنوایی میشوند، همگی ممکن است از طریق مسیرها فعال شوند. مدل زبان مسیرها (PaLM) به لطف مدل پارامتری 4 میلیاردی خود، امکان آموزش یک مدل واحد را در بین تعداد زیادی پادهای TPU v540 فراهم میکند.
PALM، یک مدل ترانسفورماتور تنها با رمزگشای متراکم، عملکرد چند شات را در طیف گستردهای از کارها بهتر از خود نشان میدهد. PalM در حال آموزش روی دو TPU v4 Pod است که از طریق یک شبکه مرکز داده (DCN) به هم متصل شده اند.
از موازی بودن مدل و داده استفاده می کند. محققان از 3072 پردازنده TPU v4 در هر Pod برای PaLM استفاده کردند که به 768 میزبان متصل بود. به گفته محققان، این بزرگترین پیکربندی TPU است که تاکنون فاش شده است و به آنها اجازه می دهد تا آموزش را بدون استفاده از موازی خطوط لوله انجام دهند.
خط لوله فرآیند جمع آوری دستورالعمل ها از CPU از طریق خط لوله به طور کلی است. لایه های مدل به فازهایی تقسیم می شوند که می توانند به صورت موازی از طریق موازی سازی مدل خط لوله (یا موازی خط لوله) پردازش شوند.
حافظه فعال سازی زمانی به مرحله بعدی ارسال می شود که یک مرحله پاس رو به جلو را برای یک میکرو بچ کامل کند. سپس هنگامی که مرحله بعدی انتشار به عقب خود را کامل کرد، گرادیان ها به عقب فرستاده می شوند.
قابلیت های دستیابی به موفقیت پالم
PALM توانایی های پیشگامانه را در طیف وسیعی از کارهای دشوار نشان می دهد. در اینجا چند نمونه آورده شده است:
1. ایجاد و درک زبان
PaLM روی 29 کار مختلف NLP به زبان انگلیسی مورد آزمایش قرار گرفت.
بر اساس چند شات، PaLM 540B از مدلهای بزرگ قبلی مانند GLaM، GPT-3، Megatron-Turing NLG، Gopher، Chinchilla و LaMDA در 28 کار از 29 کار، از جمله وظایف پاسخگویی به سؤالات با دامنه باز، عملکرد بهتری داشت. ، وظایف cloze و تکمیل جمله، وظایف به سبک Winograd، وظایف درک مطلب در متن، وظایف استدلال عامیانه، وظایف SuperGLUE، و استنتاج طبیعی.
در چندین کار BIG-bench، PalM مهارت های ترجمه و تولید زبان طبیعی عالی را نشان می دهد. به عنوان مثال، مدل می تواند بین علت و معلول تمایز قائل شود، ترکیبات مفهومی را در موقعیت های خاص درک کند و حتی فیلم را از روی یک ایموجی حدس بزند. حتی اگر فقط 22 درصد از مجموعه آموزشی غیر انگلیسی است، PalM در معیارهای چند زبانه NLP، از جمله ترجمه، علاوه بر وظایف NLP انگلیسی، عملکرد خوبی دارد.
2. استدلال
PALM اندازه مدل را با انگیزههای زنجیرهای از فکر ترکیب میکند تا مهارتهای موفقیتآمیز را در چالشهای استدلالی که نیاز به استدلال چند مرحلهای حسابی یا عقل سلیم دارند نشان دهد.
LLM های قبلی، مانند Gopher، از نظر افزایش عملکرد کمتر از اندازه مدل سود می بردند. PaLM 540B با انگیزههای زنجیرهای فکری در سه مجموعه دادههای حسابی و دو مجموعه داده تفکر عامیانه به خوبی عمل کرد.
PALM از بهترین امتیاز قبلی یعنی 55% که با تنظیم دقیق مدل GPT-3 175B با مجموعه آموزشی از 7500 مشکل و ترکیب آن با یک ماشین حساب خارجی و تأیید کننده برای حل 58 درصد از مشکلات در GSM8K به دست آمده بود، بهتر عمل می کند. معیار هزاران سوال دشوار ریاضی سطح کلاس با استفاده از اعلان 8 شات.
این امتیاز جدید به ویژه قابل توجه است زیرا به میانگین 60٪ موانع تجربه شده توسط کودکان 9-12 ساله نزدیک می شود. همچنین می تواند به جوک های اصلی که در اینترنت در دسترس نیستند پاسخ دهد.
3. تولید کد
همچنین نشان داده شده است که LLM ها در وظایف کدنویسی، از جمله تولید کد از یک توصیف زبان طبیعی (متن به کد)، ترجمه کد بین زبان ها، و رفع خطاهای کامپایل، عملکرد خوبی دارند. علیرغم داشتن تنها 5 درصد کد در مجموعه داده های قبل از آموزش، PaLM 540B هم در کدنویسی و هم در وظایف زبان طبیعی در یک مدل به خوبی عمل می کند.
عملکرد چند شات آن باورنکردنی است، زیرا با کدکس 12B بهخوبی تنظیم شده مطابقت دارد و در حین تمرین با کد پایتون 50 برابر کمتر است. این یافته با یافتههای قبلی نشان میدهد که مدلهای بزرگتر میتوانند نمونه کارآمدتر از مدلهای کوچکتر باشند، زیرا میتوانند به طور مؤثرتری یادگیری را از چندین مورد انتقال دهند. زبانهای برنامه نویسی و داده های زبان ساده
نتیجه
PaLM ظرفیت سیستم Pathways را برای مقیاسپذیری به هزاران پردازنده شتابدهنده بر روی دو TPU v4 Pod با آموزش مؤثر مدل پارامتری 540 میلیاردی با دستور العمل کاملاً مطالعهشده و تثبیتشده یک مدل ترانسفورماتور فقط رمزگشای متراکم نشان میدهد.
با فشار دادن مرزهای مقیاس مدل، عملکرد چند شات را در طیف وسیعی از چالشهای پردازش، استدلال و کدگذاری زبان طبیعی به دست میآورد.
پاسخ دهید