Големите невронски мрежи кои се обучени за препознавање и генерирање јазици покажаа извонредни резултати во различни задачи во последниве години. GPT-3 докажа дека големите јазични модели (LLM) може да се користат за учење со неколку снимки и да се добијат одлични резултати без да се бараат обемни податоци специфични за задачите или менување на параметрите на моделот.
Гугл, технолошкиот џин од Силиконската долина, го претстави PaLM, или јазичниот модел на Pathways, во светската технолошка индустрија како следната генерација на модел на јазик на вештачка интелигенција. Google вгради нов вештачка интелигенција архитектура во PaLM со стратешки цели да го подобри квалитетот на моделот на јазик на вештачка интелигенција.
Во овој пост, детално ќе го испитаме алгоритмот Palm, вклучувајќи ги параметрите што се користат за негово тренирање, проблемот што го решава и многу повеќе.
Што е ПаЛМ алгоритам на Google?
Патеки Јазичен модел е она што дланка се залага за. Ова е нов алгоритам развиен од Google со цел да се зајакне архитектурата на Pathways AI. Главната цел на структурата е да направи милион различни активности одеднаш.
Тие вклучуваат сè, од дешифрирање сложени податоци до дедуктивно расудување. PaLM има способност да ја надмине актуелната најсовремена вештачка интелигенција, како и луѓето во јазичните задачи и задачите за расудување.
Ова го вклучува учењето со неколку снимки, кое имитира како луѓето учат нови работи и комбинираат разновидни делови од знаење за да се справат со нови предизвици кои никогаш досега не биле видени, со придобивка од машина која може да го искористи целото свое знаење за решавање на нови предизвици; Еден пример за оваа вештина во PaLM е неговата способност да објасни шега што никогаш претходно не ја слушнал.
PaLM покажа многу пробивни вештини за различни предизвикувачки задачи, вклучувајќи разбирање и креирање јазик, активности поврзани со повеќестепени аритметички кодови, разумно расудување, превод и многу повеќе.
Ја покажа својата способност да решава комплицирани прашања користејќи повеќејазични НЛП комплети. PaLM може да се користи од светскиот технолошки пазар за да се разликува причината и последицата, концептуалните комбинации, различните игри и многу други работи.
Исто така, може да генерира длабински објаснувања за многу контексти користејќи повеќестепено логичко заклучување, длабок јазик, глобално знаење и други техники.
Како Google го разви алгоритмот PaLM?
За пробивот на Google во PaLM, патеките се планирани да се движат до 540 милијарди параметри. Тој е препознаен како единствен модел кој може ефикасно и ефективно да се генерализира низ бројни домени. Pathways во Google е посветен на развивање на дистрибуирани компјутери за акцелератори.
PaLM е трансформаторски модел само за декодер кој е обучен со користење на системот Pathways. Според Google, PaLM успешно постигна најсовремени перформанси за неколку снимки на неколку работни оптоварувања. PaLM го користеше системот Pathways за да ја прошири обуката до најголемата системска конфигурација базирана на TPU, за прв пат позната како чипови 6144.
Податокот за обука за моделот на јазик за вештачка интелигенција се состои од мешавина на англиски и други повеќејазични збирки на податоци. Со речник „без загуба“, содржи висококвалитетна веб-содржина, дискусии, книги, код на GitHub, Википедија и многу повеќе. Речник без загуби се препознава за задржување на празно место и кршење на знаците на Уникод што не се во речникот во бајти.
PaLM беше развиен од Google и Pathways користејќи стандардна архитектура на модел на трансформатор и конфигурација на декодер што вклучуваше активирање SwiGLU, паралелни слоеви, вградување RoPE, споделени вградувања на влезно-излез, внимание на повеќе прашања и без предрасуди или речник. ПаЛМ, од друга страна, е подготвен да обезбеди солидна основа за моделот на вештачка интелигенција на Google и Pathways.
Параметри кои се користат за обука на PaLM
Минатата година, Google лансираше Pathways, единствен модел кој може да се обучи да прави илјадници, ако не и милиони работи - наречена „архитектура на ВИ од следната генерација“ бидејќи може да ги надмине ограничувањата на постоечките модели да бидат обучени да прават само една работа . Наместо да ги прошируваат можностите на сегашните модели, новите модели често се градат од дното нагоре за да се постигне една работа.
Како резултат на тоа, тие создадоа десетици илјади модели за десетици илјади различни активности. Ова е задача која одзема многу време и бара ресурси.
Google преку Pathways докажа дека еден модел може да се справи со различни активности и да ги искористи и комбинира тековните таленти за побрзо и поефикасно да научи нови задачи.
Мултимодалните модели кои вклучуваат визија, лингвистичко разбирање и аудитивна обработка во исто време може да се овозможат преку патеки. Pathways Language Model (PaLM) овозможува обука на еден модел преку бројни TPU v4 Pods благодарение на неговиот модел од 540 милијарди параметри.
PaLM, густ модел на трансформатор само за декодер, ги надминува најсовремените перформанси за неколку снимки во широк опсег на работни оптоварувања. PaLM се тренира на два TPU v4 Pods кои се поврзани преку мрежа на центарот за податоци (DCN).
Ги користи предностите на паралелизмот и на моделот и на податоците. Истражувачите вработија 3072 TPU v4 процесори во секој Pod за PaLM, кои беа поврзани со 768 хостови. Според истражувачите, ова е најголемата конфигурација на TPU досега откриена, овозможувајќи им да ја размерат обуката без да користат паралелизам на гасоводот.
Поставата на цевките е процес на собирање инструкции од процесорот преку цевковод воопшто. Слоевите на моделот се поделени на фази кои можат да се обработуваат паралелно преку паралелизам на моделот на цевководи (или паралелизам на цевководи).
Меморијата за активирање се испраќа на следниот чекор кога една фаза го комплетира преминувањето напред за микро-серија. Градиентите потоа се испраќаат наназад кога следната фаза ќе го заврши нејзиното ширење наназад.
Способности за пробив на PaLM
PaLM прикажува револуционерни способности во низа тешки задачи. Еве неколку примери:
1. Создавање и разбирање јазик
ПаЛМ беше тестиран на 29 различни НЛП задачи на англиски јазик.
На основа на неколку снимки, PaLM 540B ги надмина претходните големи модели како што се GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla и LaMDA на 28 од 29 задачи, вклучително и задачи за одговарање прашања со варијанта на затворена книга со отворен домен. , задачи за затворање и завршување реченици, задачи во стилот на Виноград, задачи за читање со разбирање во контекст, задачи за разумно размислување, задачи SuperGLUE и природни заклучоци.
На неколку големи задачи, PaLM демонстрира одлични вештини за толкување на природен јазик и генерирање. На пример, моделот може да разликува причина и последица, да разбере концептуални комбинации во одредени ситуации, па дури и да го погоди филмот од емотикони. И покрај тоа што само 22% од корпусот за обука е неанглиски, PaLM има добри резултати на повеќејазичните одредници за НЛП, вклучувајќи го и преводот, покрај задачите на англискиот НЛП.
2. Расудување
PaLM ја комбинира големината на моделот со синџирот на мисли што поттикнува да демонстрира пробивни вештини за предизвиците за расудување кои бараат повеќестепено аритметичко или разумно расудување.
Претходните LLM, како што е Gopher, имаа помала корист од големината на моделот во смисла на подобрување на перформансите. На PaLM 540B со синџир на размислување поттикнување помина добро на три аритметички и две здраворазумски сетови на податоци.
PaLM го надминува претходниот најдобар резултат од 55%, кој беше добиен со дотерување на моделот GPT-3 175B со комплет за обука од 7500 проблеми и комбинирање со надворешен калкулатор и проверувач за да се решат 58 проценти од проблемите во GSM8K, репер за илјадници тешки математички прашања на ниво на одделенска настава со помош на поттикнување од 8 снимки.
Овој нов резултат е особено значаен бидејќи се приближува до просекот од 60% на пречки што ги доживуваат децата на возраст од 9-12 години. Може да одговори и на оригинални шеги што не се достапни на интернет.
3. Генерирање на кодови
Исто така, се покажа дека LLM добро функционираат во задачите за кодирање, вклучително и генерирање код од опис на природен јазик (текст-во-код), преведување на код помеѓу јазици и решавање на грешки при компилација. И покрај тоа што има само 5% код во базата на податоци пред обуката, PaLM 540B добро функционира и на задачите за кодирање и природен јазик во еден модел.
Неговите перформанси за неколку снимки се неверојатни, бидејќи се совпаѓаат со фино подесениот Codex 12B додека тренирате со 50 пати помалку Python код. Ова откритие поткрепува со претходните наоди дека поголемите модели можат да бидат поефикасни од помалите модели бидејќи можат поефикасно да го пренесат учењето од повеќе програмски јазици и податоци од обичен јазик.
Заклучок
PaLM го покажува капацитетот на системот Pathways да се размери на илјадници акцелераторски процесори преку два TPU v4 Pods со ефективно тренирање на модел со параметри од 540 милијарди со добро проучен, добро воспоставен рецепт на густ модел на трансформатор само за декодер.
Постигнува пробивни перформанси за неколку снимки низ низа предизвици за обработка, расудување и кодирање природен јазик со поместување на границите на скалата на моделот.
Оставете Одговор