Крупные нейронные сети, обученные распознаванию и генерации языка, за последние годы продемонстрировали выдающиеся результаты в самых разных задачах. GPT-3 доказал, что большие языковые модели (LLM) можно использовать для обучения за несколько шагов и получения отличных результатов, не требуя обширных данных для конкретной задачи или изменяя параметры модели.
Google, технологический гигант Кремниевой долины, представил мировой технологической индустрии PaLM, или языковую модель Pathways, в качестве модели языка искусственного интеллекта следующего поколения. Google внедрил новый искусственный интеллект архитектуру в PaLM со стратегическими целями по улучшению качества языковой модели ИИ.
В этом посте мы подробно рассмотрим алгоритм Palm, включая параметры, используемые для его обучения, проблему, которую он решает, и многое другое.
Что такое Алгоритм Google PaLM?
Языковая модель Pathways — это то, что Пальма означает. Это новый алгоритм, разработанный Google для усиления архитектуры искусственного интеллекта Pathways. Основная цель структуры - выполнять миллион различных действий одновременно.
К ним относятся все, от расшифровки сложных данных до дедуктивных рассуждений. PaLM может превзойти современное состояние искусственного интеллекта, а также людей в языковых и логических задачах.
Это включает в себя обучение в несколько приемов, которое имитирует то, как люди изучают новые вещи и комбинируют разнообразные знания для решения новых задач, которых раньше никогда не видели, с помощью машины, которая может использовать все свои знания для решения новых задач; Одним из примеров этого навыка в PaLM является его способность объяснить шутку, которую он никогда раньше не слышал.
PaLM продемонстрировал множество прорывных навыков в различных сложных задачах, включая понимание и создание языка, многоэтапные арифметические действия, связанные с кодом, рассуждения на основе здравого смысла, перевод и многое другое.
Он продемонстрировал свою способность решать сложные проблемы, используя многоязычные наборы НЛП. PaLM может использоваться мировым техническим рынком для различения причин и следствий, концептуальных комбинаций, различных игр и многого другого.
Он также может генерировать подробные объяснения для многих контекстов, используя многоэтапный логический вывод, глубокий язык, глобальные знания и другие методы.
Как Google разработал алгоритм PaLM?
Для прорывной производительности Google в PaLM запланировано масштабирование путей до 540 миллиардов параметров. Она признана единственной моделью, которая может эффективно и действенно обобщать множество областей. Pathways в Google занимается разработкой распределенных вычислений для ускорителей.
PaLM — это модель преобразователя, предназначенная только для декодера, которая была обучена с использованием системы Pathways. По данным Google, PaLM успешно достигла передовой производительности в нескольких рабочих нагрузках. PaLM использовала систему Pathways для расширения обучения до самой большой конфигурации системы на основе TPU, впервые известной как 6144 чипа.
Набор обучающих данных для языковой модели ИИ состоит из набора данных на английском и других многоязычных языках. Благодаря словарю «без потерь» он содержит высококачественный веб-контент, обсуждения, книги, код GitHub, Википедию и многое другое. Словарь без потерь распознается за сохранение пробелов и разбиение символов Unicode, которых нет в словаре, на байты.
PaLM был разработан Google и Pathways с использованием стандартной архитектуры модели преобразователя и конфигурации декодера, которая включала активацию SwiGLU, параллельные уровни, встраивания RoPE, встраивания с общим вводом-выводом, внимание к нескольким запросам и отсутствие предвзятости или словарного запаса. PaLM, с другой стороны, готов обеспечить прочную основу для языковой модели искусственного интеллекта Google и Pathways.
Параметры, используемые для обучения PaLM
В прошлом году Google запустил Pathways, единую модель, которую можно обучить делать тысячи, если не миллионы вещей, получившую название «архитектура искусственного интеллекта следующего поколения», поскольку она может преодолеть ограничения существующих моделей, связанные с обучением только одной вещи. . Вместо того, чтобы расширять возможности существующих моделей, новые модели часто строятся снизу вверх для выполнения одной задачи.
В результате они создали десятки тысяч моделей для десятков тысяч различных видов деятельности. Это трудоемкая и ресурсоемкая задача.
Google доказал с помощью Pathways, что одна модель может выполнять различные действия, а также использовать и объединять имеющиеся таланты для более быстрого и эффективного изучения новых задач.
Мультимодальные модели, которые включают зрение, лингвистическое понимание и слуховую обработку одновременно, могут быть включены через пути. Языковая модель Pathways (PaLM) позволяет обучать одну модель в нескольких модулях TPU v4 благодаря своей модели с 540 миллиардами параметров.
PaLM, плотная модель Transformer, состоящая только из декодера, превосходит современную производительность нескольких кадров в широком диапазоне рабочих нагрузок. PaLM обучается на двух модулях TPU v4, которые связаны через сеть центра обработки данных (DCN).
Он использует преимущества как модели, так и параллелизма данных. Исследователи использовали 3072 процессора TPU v4 в каждом Pod для PaLM, которые были подключены к 768 хостам. По словам исследователей, это самая большая из когда-либо раскрытых конфигураций TPU, позволяющая масштабировать обучение без использования конвейерного параллелизма.
Подкладка конвейера — это процесс сбора инструкций от ЦП через конвейер в целом. Уровни модели разделены на фазы, которые можно обрабатывать параллельно с помощью параллелизма конвейерной модели (или конвейерного параллелизма).
Память активации отправляется на следующий шаг, когда один этап завершает прямой проход для микропакета. Затем градиенты отправляются назад, когда следующий этап завершает свое обратное распространение.
Революционные возможности PaLM
PaLM демонстрирует новаторские возможности в ряде сложных задач. Вот несколько примеров:
1. Создание и понимание языка
PaLM был протестирован на 29 различных задачах НЛП на английском языке.
На основе нескольких выстрелов PaLM 540B превзошел предыдущие большие модели, такие как GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla и LaMDA, в 28 из 29 задач, включая открытые закрытые варианты вопросов-ответов. , задачи на закрытие и завершение предложений, задачи в стиле Винограда, задачи на понимание прочитанного в контексте, задачи на рассуждение на основе здравого смысла, задачи SuperGLUE и естественный вывод.
В нескольких задачах BIG-bench PaLM демонстрирует отличные навыки интерпретации и генерации естественного языка. Например, модель может различать причину и следствие, понимать концептуальные комбинации в определенных ситуациях и даже угадывать фильм по эмодзи. Несмотря на то, что только 22% учебных корпусов не на английском языке, PaLM хорошо справляется с многоязычными эталонными тестами НЛП, включая перевод, в дополнение к задачам НЛП на английском языке.
2. Рассуждения
PaLM сочетает в себе размер модели с цепочкой рассуждений, побуждая продемонстрировать прорывные навыки решения логических задач, требующих многоступенчатой арифметики или рассуждений на основе здравого смысла.
Предыдущие LLM, такие как Gopher, меньше выигрывали от размера модели с точки зрения повышения производительности. PaLM 540B с подсказками по цепочке мыслей хорошо показал себя на трех арифметических и двух наборах данных здравого смысла.
PaLM превосходит предыдущий лучший результат в 55%, который был получен путем тонкой настройки модели GPT-3 175B с обучающим набором из 7500 задач и объединения ее с внешним калькулятором и верификатором для решения 58% проблем в GSM8K, эталон тысячи сложных математических вопросов школьного уровня с использованием 8-кратной подсказки.
Этот новый показатель особенно примечателен, поскольку он приближается к среднему показателю 60% препятствий, с которыми сталкиваются дети в возрасте 9-12 лет. Он также может отвечать на оригинальные шутки, которых нет в Интернете.
3. Генерация кода
Также было показано, что LLM хорошо справляются с задачами кодирования, включая создание кода из описания на естественном языке (преобразование текста в код), перевод кода между языками и устранение ошибок компиляции. Несмотря на то, что в наборе данных перед обучением всего 5% кода, PaLM 540B хорошо справляется как с кодированием, так и с задачами на естественном языке в одной модели.
Его производительность за несколько выстрелов невероятна, поскольку он соответствует точно настроенному Codex 12B при обучении с использованием в 50 раз меньше кода Python. Этот вывод согласуется с предыдущими выводами о том, что более крупные модели могут быть более эффективными с точки зрения выборки, чем более мелкие модели, потому что они могут более эффективно передавать знания из нескольких языки программирования и данные на простом языке.
Заключение
PaLM демонстрирует способность системы Pathways масштабироваться до тысяч процессоров-акселераторов на двух модулях TPU v4 путем эффективного обучения модели с 540 миллиардами параметров с помощью хорошо изученного и хорошо зарекомендовавшего себя рецепта плотной модели Transformer, состоящей только из декодера.
Он обеспечивает непревзойденную производительность при выполнении ряда задач обработки естественного языка, рассуждений и кодирования, расширяя границы масштаба модели.
Оставьте комментарий