Великі нейронні мережі, які були навчені для розпізнавання та генерації мови, за останні роки продемонстрували видатні результати у різноманітних завданнях. GPT-3 довів, що великі мовні моделі (LLM) можна використовувати для вивчення кількох кадрів і отримати чудові результати, не вимагаючи великих даних для конкретних завдань або зміни параметрів моделі.
Google, технічний гігант Кремнієвої долини, представив PaLM, або Pathways Language Model, у світовій технологічній індустрії як модель наступного покоління AI-мови. Google включив новий штучний інтелект архітектури в PaLM зі стратегічними цілями покращення якості моделі мови AI.
У цій публікації ми детально розглянемо алгоритм Palm, включаючи параметри, які використовуються для його навчання, проблему, яку він вирішує, і багато іншого.
Що таке Алгоритм PaLM від Google?
Шляхи мовної моделі це що PaLM виступає за. Це новий алгоритм, розроблений Google для посилення архітектури Pathways AI. Основна мета структури — виконувати мільйон різних видів діяльності одночасно.
Сюди входить все, від дешифрування складних даних до дедуктивного міркування. PaLM має здатність перевершувати поточний стан штучного інтелекту, а також людей у мовних і міркових завданнях.
Сюди входить «Few-Shot Learning», яке імітує те, як люди вивчають нове та поєднують різноманітні знання для вирішення нових проблем, яких ніколи не бачили раніше, з перевагою машини, яка може використовувати всі свої знання для вирішення нових проблем; Одним із прикладів цієї навички в PaLM є його здатність пояснити жарт, якого він ніколи раніше не чув.
PaLM продемонстрував багато проривних навичок у виконанні різноманітних складних завдань, включаючи розуміння та створення мови, дії, пов’язані з багатокроковим арифметичним кодом, міркування здорового глузду, переклад та багато іншого.
Він продемонстрував свою здатність вирішувати складні проблеми, використовуючи багатомовні набори НЛП. PaLM може використовуватися на світовому ринку технологій для розрізнення причин і наслідків, концептуальних комбінацій, окремих ігор та багатьох інших речей.
Він також може генерувати глибокі пояснення для багатьох контекстів, використовуючи багатоетапний логічний висновок, глибоку мову, глобальні знання та інші методи.
Як Google розробив алгоритм PaLM?
Для досягнення проривної продуктивності Google у PaLM планується масштабувати шляхи до 540 мільярдів параметрів. Вона визнана єдиною моделлю, яка може ефективно та ефективно узагальнювати в багатьох областях. Pathways в Google займається розробкою розподілених обчислень для прискорювачів.
PaLM — це модель трансформатора лише для декодера, яка була навчена за допомогою системи Pathways. За даними Google, PaLM успішно досягла найсучаснішої продуктивності в кількох робочих навантаженнях. PaLM вперше використав систему Pathways для розширення навчання до найбільшої конфігурації системи на основі TPU, відомої як 6144 чіпи.
Набір навчальних даних для мовної моделі AI складається з поєднання англійської та інших багатомовних наборів даних. З «безвтратним» словником він містить високоякісний веб-контент, дискусії, книги, код GitHub, Вікіпедію та багато іншого. Словник без втрат розпізнається за збереження пробілів і розбиття символів Unicode, яких немає у словнику, на байти.
PaLM був розроблений Google і Pathways з використанням стандартної архітектури моделі трансформатора та конфігурації декодера, яка включала активацію SwiGLU, паралельні шари, вбудовування RoPE, спільне вбудовування введення-виведення, увагу до кількох запитів і відсутність упереджень чи словникового запасу. PaLM, з іншого боку, готовий забезпечити міцну основу для моделі мови AI від Google і Pathways.
Параметри, що використовуються для навчання PaLM
Минулого року Google запустив Pathways, єдину модель, яку можна навчити робити тисячі, якщо не мільйони речей, яку назвали «архітектурою штучного інтелекту наступного покоління», оскільки вона може подолати обмеження існуючих моделей, пов’язані з навчанням робити лише одну справу. . Замість того, щоб розширювати можливості поточних моделей, нові моделі часто створюються знизу вгору для виконання однієї роботи.
В результаті вони створили десятки тисяч моделей для десятків тисяч різних видів діяльності. Це трудомістке і ресурсомістке завдання.
Google довів за допомогою Pathways, що одна модель може впоратися з різними видами діяльності, а також використовувати й поєднувати поточні таланти, щоб швидше й ефективніше вивчати нові завдання.
Мультимодальні моделі, які одночасно включають зір, лінгвістичне розуміння та слухову обробку, можуть бути включені через шляхи. Модель Pathways Language (PaLM) дозволяє навчати одну модель для численних модулів TPU v4 завдяки моделі з 540 мільярдами параметрів.
PaLM, модель Transformer лише для щільного декодера, перевершує найсучаснішу продуктивність кількох кадрів у широкому діапазоні робочих навантажень. PaLM навчається на двох модулях TPU v4, які з’єднані через мережу центрів обробки даних (DCN).
Він використовує переваги як моделі, так і паралельності даних. Дослідники використовували 3072 процесора TPU v4 в кожному Pod для PaLM, які були підключені до 768 хостів. За словами дослідників, це найбільша конфігурація TPU, яка поки що розкривається, що дозволяє їм масштабувати навчання без використання паралельності конвеєрів.
Підкладка труб — це процес збору інструкцій від ЦП через конвеєр загалом. Шари моделі поділяються на фази, які можна обробляти паралельно за допомогою паралельності конвеєрної моделі (або паралельності конвеєра).
Пам’ять активації надсилається на наступний крок, коли один етап завершує прямий прохід для мікропакету. Потім градієнти надсилаються назад, коли наступний етап завершує зворотне поширення.
Проривні можливості PaLM
PaLM демонструє новаторські здібності в ряді складних завдань. Ось кілька прикладів:
1. Створення та розуміння мови
PaLM було випробувано на 29 різних завданнях НЛП англійською мовою.
На основі кількох пострілів PaLM 540B перевершив попередні великі моделі, такі як GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla та LaMDA, у 28 із 29 завдань, включаючи завдання з відповідями на запитання з відкритим доменом у закритій книзі. , завдання на зближення та завершення речень, завдання у стилі Winograd, завдання на розуміння читання в контексті, завдання на міркування здорового глузду, завдання SuperGLUE та природні умовиводи.
Під час виконання кількох завдань BIG-Bench PaLM демонструє чудову інтерпретацію природної мови та навички генерації. Наприклад, модель може розрізняти причину і наслідок, розуміти концептуальні комбінації в певних ситуаціях і навіть вгадати фільм за емодзі. Незважаючи на те, що лише 22% навчального корпусу не є англійською, PaLM добре працює на багатомовних тестах НЛП, включаючи переклад, на додаток до завдань НЛП англійською мовою.
2. Міркування
PaLM поєднує розмір моделі з ланцюгом думок, що спонукає продемонструвати проривні навички в міркуваннях, які вимагають багатокрокової арифметики або міркування здорового глузду.
Попередні LLM, такі як Gopher, мали менше переваг від розміру моделі з точки зору підвищення продуктивності. PaLM 540B із підказкою ланцюга думок показав хороші результати на трьох арифметичних і двох наборах даних для здорового глузду.
PaLM перевершує попередній найкращий результат у 55%, який був отриманий шляхом точного налаштування моделі GPT-3 175B з навчальним набором із 7500 задач і поєднання її із зовнішнім калькулятором і верифікатором для вирішення 58 відсотків проблем у GSM8K, еталон тисячі складних математичних питань на рівні початкової школи з підказками з 8-ми пострілами.
Цей новий показник особливо заслуговує на увагу, оскільки він наближається до 60% середніх перешкод, з якими стикаються діти 9-12 років. Він також може відповідати на оригінальні жарти, яких немає в Інтернеті.
3. Генерація коду
Також було показано, що LLM добре виконують завдання кодування, включаючи генерацію коду з опису природної мови (текст у код), переклад коду між мовами та вирішення помилок компіляції. Незважаючи на те, що в наборі даних для попереднього навчання міститься лише 5% коду, PaLM 540B добре працює як із кодуванням, так і з завданнями природної мови в одній моделі.
Його продуктивність у декілька пострілів неймовірна, оскільки він відповідає точно налаштованим Codex 12B, навчаючись із в 50 разів меншим кодом Python. Цей висновок підтверджує попередні висновки про те, що більші моделі можуть бути ефективнішими, ніж менші моделі, оскільки вони можуть ефективніше переносити навчання з кількох мови програмування і дані простою мовою.
Висновок
PaLM показує здатність системи Pathways масштабуватися до тисяч процесорів-прискорювачів за допомогою двох модулів TPU v4, ефективно навчаючи 540-мільярдну модель параметрів за добре вивченим, добре встановленим рецептом моделі Transformer для щільного декодування.
Він досягає проривної продуктивності кількох кадрів у ряді завдань обробки природної мови, міркування та кодування, розсуваючи межі масштабу моделі.
залишити коментар