مقدمه ای بر مدل زبان مسیرها (PaLM)

فهرست مندرجات[پنهان شدن][نمایش]

الگوریتم پالم گوگل چیست؟
گوگل چگونه الگوریتم Palm را توسعه داد؟
پارامترهای مورد استفاده برای آموزش PalM
قابلیت های دستیابی به موفقیت پالم+-
نتیجه

شبکه‌های عصبی بزرگی که برای تشخیص و تولید زبان آموزش دیده‌اند، در سال‌های اخیر نتایج برجسته‌ای را در کارهای مختلف نشان داده‌اند. GPT-3 ثابت کرد که مدل‌های زبان بزرگ (LLM) را می‌توان برای یادگیری چند مرحله‌ای و به دست آوردن نتایج عالی بدون نیاز به داده‌های گسترده کار خاص یا تغییر پارامترهای مدل استفاده کرد.

گوگل، غول فناوری دره سیلیکون، مدل زبانی PaLM یا Pathways Language را به عنوان نسل بعدی مدل زبان هوش مصنوعی به صنعت فناوری در سراسر جهان معرفی کرده است. گوگل یک محصول جدید را گنجانده است هوش مصنوعی معماری به PalM با اهداف استراتژیک برای بهبود کیفیت مدل زبان AI.

در این پست، الگوریتم Palm را با جزئیات بررسی خواهیم کرد، از جمله پارامترهای مورد استفاده برای آموزش آن، مشکلی که آن را حل می کند و موارد دیگر.

چه شده است الگوریتم پالم گوگل?

مدل زبان مسیرها چیست نخل مخفف این یک الگوریتم جدید است که توسط گوگل به منظور تقویت معماری هوش مصنوعی Pathways توسعه یافته است. هدف اصلی این سازه انجام یک میلیون فعالیت مجزا در آن واحد است.

اینها شامل همه چیز از رمزگشایی داده های پیچیده گرفته تا استدلال قیاسی است. PALM توانایی پیشی گرفتن از پیشرفته ترین هوش مصنوعی فعلی و همچنین انسان ها را در وظایف زبانی و استدلالی دارد.

این شامل Few-Shot Learning می‌شود، که تقلید می‌کند که چگونه انسان‌ها چیزهای جدید یاد می‌گیرند و بخش‌های مختلف دانش را برای مقابله با چالش‌های جدیدی که قبلاً هرگز دیده نشده‌اند، ترکیب می‌کند، با مزایای ماشینی که می‌تواند از تمام دانش خود برای حل چالش‌های جدید استفاده کند. یکی از نمونه های این مهارت در PalM توانایی آن در توضیح جوکی است که قبلاً نشنیده بود.

نخل

PALM مهارت های دستیابی به موفقیت بسیاری را در انواع وظایف چالش برانگیز، از جمله درک زبان و ایجاد، فعالیت های مربوط به کدهای حسابی چند مرحله ای، استدلال عقل سلیم، ترجمه و بسیاری دیگر نشان داد.

توانایی خود را در حل مسائل پیچیده با استفاده از مجموعه های چند زبانه NLP نشان داده است. PaLM می‌تواند توسط بازار جهانی فناوری برای تمایز علت و معلول، ترکیب‌های مفهومی، بازی‌های متمایز و بسیاری موارد دیگر مورد استفاده قرار گیرد.

همچنین می‌تواند با استفاده از استنتاج منطقی چند مرحله‌ای، زبان عمیق، دانش جهانی و سایر تکنیک‌ها، توضیحات عمیقی را برای بسیاری از زمینه‌ها ایجاد کند.

گوگل چگونه الگوریتم Palm را توسعه داد؟

برای موفقیت گوگل در PaLM، مسیرها تا 540 میلیارد پارامتر برنامه ریزی شده است. این مدل به عنوان تنها مدلی شناخته می شود که می تواند به طور مؤثر و مؤثر در دامنه های متعدد تعمیم یابد. Pathways در Google به توسعه محاسبات توزیع‌شده برای شتاب‌دهنده‌ها اختصاص دارد.

PaLM یک مدل ترانسفورماتور فقط رمزگشا است که با استفاده از سیستم Pathways آموزش داده شده است. به گفته گوگل، PALM با موفقیت به عملکرد چند شات در چندین بار کاری دست یافته است. PaLM از سیستم Pathways برای گسترش آموزش به بزرگترین پیکربندی سیستم مبتنی بر TPU استفاده کرده است که برای اولین بار با نام تراشه های 6144 شناخته می شود.

مجموعه داده های آموزشی برای مدل زبان هوش مصنوعی از ترکیبی از مجموعه داده های انگلیسی و سایر مجموعه های چند زبانه تشکیل شده است. با واژگان "بی ضرر"، حاوی محتوای وب با کیفیت بالا، بحث ها، کتاب ها، کد GitHub، ویکی پدیا و بسیاری موارد دیگر است. واژگان بدون از دست دادن برای حفظ فضای خالی و شکستن کاراکترهای یونیکد که در واژگان نیستند به بایت شناخته می شوند.

PaLM توسط Google و Pathways با استفاده از یک معماری مدل ترانسفورماتور استاندارد و یک پیکربندی رمزگشا که شامل فعال‌سازی SwiGLU، لایه‌های موازی، تعبیه‌های RoPE، تعبیه‌های ورودی-خروجی مشترک، توجه چند پرس و جو و بدون تعصب یا واژگان است، توسعه داده شد. از سوی دیگر، PaLM آماده است تا پایه ای محکم برای مدل زبان هوش مصنوعی گوگل و Pathways ارائه دهد.

پارامترهای مورد استفاده برای آموزش PalM

سال گذشته، گوگل Pathways را راه‌اندازی کرد، یک مدل واحد که می‌توان آن را برای انجام هزاران کار، اگر نه میلیون‌ها کار، آموزش داد. . به جای گسترش قابلیت‌های مدل‌های فعلی، مدل‌های جدید اغلب از پایین به بالا برای انجام یک کار واحد ساخته می‌شوند.

در نتیجه ده ها هزار مدل برای ده ها هزار فعالیت مختلف ایجاد کرده اند. این یک کار وقت گیر و منابع فشرده است.

گوگل از طریق Pathways ثابت کرد که یک مدل واحد می‌تواند فعالیت‌های مختلفی را انجام دهد و استعدادهای فعلی را برای یادگیری سریع‌تر و کارآمدتر وظایف جدید به کار گرفته و ترکیب کند.

مدل‌های چندوجهی که شامل بینایی، درک زبانی، و پردازش شنوایی می‌شوند، همگی ممکن است از طریق مسیرها فعال شوند. مدل زبان مسیرها (PaLM) به لطف مدل پارامتری 4 میلیاردی خود، امکان آموزش یک مدل واحد را در بین تعداد زیادی پادهای TPU v540 فراهم می‌کند.

زیرساخت های آموزشی

PALM، یک مدل ترانسفورماتور تنها با رمزگشای متراکم، عملکرد چند شات را در طیف گسترده‌ای از کارها بهتر از خود نشان می‌دهد. PalM در حال آموزش روی دو TPU v4 Pod است که از طریق یک شبکه مرکز داده (DCN) به هم متصل شده اند.

از موازی بودن مدل و داده استفاده می کند. محققان از 3072 پردازنده TPU v4 در هر Pod برای PaLM استفاده کردند که به 768 میزبان متصل بود. به گفته محققان، این بزرگترین پیکربندی TPU است که تاکنون فاش شده است و به آنها اجازه می دهد تا آموزش را بدون استفاده از موازی خطوط لوله انجام دهند.

خط لوله فرآیند جمع آوری دستورالعمل ها از CPU از طریق خط لوله به طور کلی است. لایه های مدل به فازهایی تقسیم می شوند که می توانند به صورت موازی از طریق موازی سازی مدل خط لوله (یا موازی خط لوله) پردازش شوند.

حافظه فعال سازی زمانی به مرحله بعدی ارسال می شود که یک مرحله پاس رو به جلو را برای یک میکرو بچ کامل کند. سپس هنگامی که مرحله بعدی انتشار به عقب خود را کامل کرد، گرادیان ها به عقب فرستاده می شوند.

قابلیت های دستیابی به موفقیت پالم

PALM توانایی های پیشگامانه را در طیف وسیعی از کارهای دشوار نشان می دهد. در اینجا چند نمونه آورده شده است:

1. ایجاد و درک زبان

PaLM روی 29 کار مختلف NLP به زبان انگلیسی مورد آزمایش قرار گرفت.

بر اساس چند شات، PaLM 540B از مدل‌های بزرگ قبلی مانند GLaM، GPT-3، Megatron-Turing NLG، Gopher، Chinchilla و LaMDA در 28 کار از 29 کار، از جمله وظایف پاسخ‌گویی به سؤالات با دامنه باز، عملکرد بهتری داشت. ، وظایف cloze و تکمیل جمله، وظایف به سبک Winograd، وظایف درک مطلب در متن، وظایف استدلال عامیانه، وظایف SuperGLUE، و استنتاج طبیعی.

درک تولید زبان

در چندین کار BIG-bench، PalM مهارت های ترجمه و تولید زبان طبیعی عالی را نشان می دهد. به عنوان مثال، مدل می تواند بین علت و معلول تمایز قائل شود، ترکیبات مفهومی را در موقعیت های خاص درک کند و حتی فیلم را از روی یک ایموجی حدس بزند. حتی اگر فقط 22 درصد از مجموعه آموزشی غیر انگلیسی است، PalM در معیارهای چند زبانه NLP، از جمله ترجمه، علاوه بر وظایف NLP انگلیسی، عملکرد خوبی دارد.

2. استدلال

PALM اندازه مدل را با انگیزه‌های زنجیره‌ای از فکر ترکیب می‌کند تا مهارت‌های موفقیت‌آمیز را در چالش‌های استدلالی که نیاز به استدلال چند مرحله‌ای حسابی یا عقل سلیم دارند نشان دهد.

LLM های قبلی، مانند Gopher، از نظر افزایش عملکرد کمتر از اندازه مدل سود می بردند. PaLM 540B با انگیزه‌های زنجیره‌ای فکری در سه مجموعه داده‌های حسابی و دو مجموعه داده تفکر عامیانه به خوبی عمل کرد. استدلال

PALM از بهترین امتیاز قبلی یعنی 55% که با تنظیم دقیق مدل GPT-3 175B با مجموعه آموزشی از 7500 مشکل و ترکیب آن با یک ماشین حساب خارجی و تأیید کننده برای حل 58 درصد از مشکلات در GSM8K به دست آمده بود، بهتر عمل می کند. معیار هزاران سوال دشوار ریاضی سطح کلاس با استفاده از اعلان 8 شات.

این امتیاز جدید به ویژه قابل توجه است زیرا به میانگین 60٪ موانع تجربه شده توسط کودکان 9-12 ساله نزدیک می شود. همچنین می تواند به جوک های اصلی که در اینترنت در دسترس نیستند پاسخ دهد.

توضیح یک جوک

3. تولید کد

همچنین نشان داده شده است که LLM ها در وظایف کدنویسی، از جمله تولید کد از یک توصیف زبان طبیعی (متن به کد)، ترجمه کد بین زبان ها، و رفع خطاهای کامپایل، عملکرد خوبی دارند. علیرغم داشتن تنها 5 درصد کد در مجموعه داده های قبل از آموزش، PaLM 540B هم در کدنویسی و هم در وظایف زبان طبیعی در یک مدل به خوبی عمل می کند.

تولید کد

عملکرد چند شات آن باورنکردنی است، زیرا با کدکس 12B به‌خوبی تنظیم شده مطابقت دارد و در حین تمرین با کد پایتون 50 برابر کمتر است. این یافته با یافته‌های قبلی نشان می‌دهد که مدل‌های بزرگ‌تر می‌توانند نمونه کارآمدتر از مدل‌های کوچکتر باشند، زیرا می‌توانند به طور مؤثرتری یادگیری را از چندین مورد انتقال دهند. زبانهای برنامه نویسی و داده های زبان ساده

مثال تولید کد

نتیجه

PaLM ظرفیت سیستم Pathways را برای مقیاس‌پذیری به هزاران پردازنده شتاب‌دهنده بر روی دو TPU v4 Pod با آموزش مؤثر مدل پارامتری 540 میلیاردی با دستور العمل کاملاً مطالعه‌شده و تثبیت‌شده یک مدل ترانسفورماتور فقط رمزگشای متراکم نشان می‌دهد.

با فشار دادن مرزهای مقیاس مدل، عملکرد چند شات را در طیف وسیعی از چالش‌های پردازش، استدلال و کدگذاری زبان طبیعی به دست می‌آورد.

مقدمه ای بر مدل زبان مسیرها (PaLM)

چه شده است الگوریتم پالم گوگل?

گوگل چگونه الگوریتم Palm را توسعه داد؟

پارامترهای مورد استفاده برای آموزش PalM