Велике неуронске мреже које су обучене за препознавање и генерисање језика показале су изванредне резултате у различитим задацима последњих година. ГПТ-3 је доказао да велики језички модели (ЛЛМ) могу да се користе за учење у неколико хитаца и да добију одличне резултате без потребе за опсежним подацима специфичним за задатак или променом параметара модела.
Гоогле, технолошки бехемот из Силицијумске долине, представио је ПаЛМ, или Патхваис Лангуаге Модел, светској технолошкој индустрији као следећу генерацију модела АИ језика. Гоогле је уградио нову вештачка интелигенција архитектуру у ПаЛМ са стратешким циљевима да побољшају квалитет модела АИ језика.
У овом посту ћемо детаљно испитати Палм алгоритам, укључујући параметре који се користе за обуку, проблем који решава и још много тога.
Шта је Гоогле-ов ПаЛМ алгоритам?
Језички модел путева је шта Палма означава. Ово је нови алгоритам који је развио Гоогле у циљу јачања Патхваис АИ архитектуре. Основни циљ структуре је да уради милион различитих активности одједном.
То укључује све, од дешифровања сложених података до дедуктивног закључивања. ПаЛМ има способност да надмаши тренутну најсавременију вештачку интелигенцију, као и људе у задацима језика и расуђивања.
Ово укључује учење са неколико снимака, које опонаша како људи уче нове ствари и комбинују различите делове знања да би се ухватили у коштац са новим изазовима који никада раније нису виђени, уз корист машине која може да искористи сво своје знање за решавање нових изазова; један пример ове вештине у ПаЛМ-у је његова способност да објасни виц који никада раније није чуо.
ПаЛМ је показао многе продорне вештине на различитим изазовним задацима, укључујући разумевање и креирање језика, активности везане за аритметички код у више корака, здраворазумско резоновање, превођење и још много тога.
Показао је своју способност да решава компликоване проблеме користећи вишејезичне НЛП сетове. ПаЛМ може да користи светско тржиште технологије за разликовање узрока и последице, концептуалне комбинације, различите игре и многе друге ствари.
Такође може да генерише детаљна објашњења за многе контексте користећи вишестепено логичко закључивање, дубоки језик, глобално знање и друге технике.
Како је Гоогле развио ПаЛМ алгоритам?
За Гугл-ов продоран учинак у ПаЛМ-у, планирано је да се путеви повећају до 540 милијарди параметара. Препознат је као једини модел који може ефикасно и ефективно генерализовати у бројним доменима. Патхваис у Гоогле-у је посвећен развоју дистрибуираног рачунарства за акцелераторе.
ПаЛМ је модел трансформатора само за декодер који је обучен коришћењем Патхваис система. Према Гоогле-у, ПаЛМ је успешно постигао најсавременије перформансе у неколико радњи у неколико радних оптерећења. ПаЛМ је користио Патхваис систем да прошири обуку на највећу конфигурацију система засновану на ТПУ-у, познату као 6144 чипа по први пут.
Скуп података за обуку за модел АИ језика се састоји од мешавине енглеског и других вишејезичних скупова података. Са речником „без губитака“, садржи висококвалитетан веб садржај, дискусије, књиге, ГитХуб код, Википедију и још много тога. Речник без губитака препознаје се по задржавању размака и разбијању Уницоде знакова који нису у речнику у бајтове.
ПаЛМ су развили Гоогле и Патхваис користећи стандардну архитектуру модела трансформатора и конфигурацију декодера која је укључивала СвиГЛУ активацију, паралелне слојеве, РоПЕ уградње, дељене улазно-излазне уградње, пажњу на више упита и без предрасуда или речника. ПаЛМ је, с друге стране, спреман да обезбеди солидну основу за модел АИ језика компаније Гоогле и Патхваис.
Параметри који се користе за обуку ПаЛМ-а
Прошле године, Гугл је лансирао Патхваис, један модел који се може обучити да ради хиљаде, ако не и милионе ствари – назван „архитектура вештачке интелигенције следеће генерације“ пошто може да превазиђе ограничења постојећих модела обучених да раде само једну ствар . Уместо да проширују могућности тренутних модела, нови модели се често праве одоздо према горе да би се извршио један посао.
Као резултат тога, створили су десетине хиљада модела за десетине хиљада различитих активности. Ово је дуготрајан и ресурсно интензиван задатак.
Гоогле је доказао преко Патхваис-а да један модел може да се носи са различитим активностима и да користи и комбинује тренутне таленте како би брже и ефикасније научио нове задатке.
Мултимодални модели који укључују визију, лингвистичко разумевање и слушну обраду у исто време могу бити омогућени путем путева. Патхваис Лангуаге Модел (ПаЛМ) омогућава обуку једног модела у бројним ТПУ в4 Подовима захваљујући моделу од 540 милијарди параметара.
ПаЛМ, Трансформер модел са густим декодером, надмашује најсавременије перформансе неколико снимака у широком спектру радних оптерећења. ПаЛМ се обучава на два ТПУ в4 Пода која су повезана преко мреже центара података (ДЦН).
Користи предности и модела и паралелизма података. Истраживачи су користили 3072 ТПУ в4 процесора у сваком Поду за ПаЛМ, који су били повезани са 768 домаћина. Према истраживачима, ово је највећа ТПУ конфигурација до сада откривена, што им омогућава да скалирају обуку без употребе паралелизма цевовода.
Облагање цеви је процес прикупљања инструкција од ЦПУ-а кроз цевовод уопште. Слојеви модела су подељени на фазе које се могу обрадити паралелно путем паралелизма цевоводног модела (или паралелизма цевовода).
Активациона меморија се шаље на следећи корак када једна фаза заврши напредни пролаз за микро-серију. Градијент се затим шаље уназад када следећа фаза заврши своје пропагирање уназад.
ПаЛМ могућности продора
ПаЛМ показује револуционарне способности у низу тешких задатака. Ево неколико примера:
1. Стварање и разумевање језика
ПаЛМ је стављен на тест на 29 различитих НЛП задатака на енглеском.
На бази неколико снимака, ПаЛМ 540Б је надмашио претходне велике моделе као што су ГЛаМ, ГПТ-3, Мегатрон-Туринг НЛГ, Гопхер, Цхинцхилла и ЛаМДА на 28 од 29 задатака, укључујући и задатке одговора на питања у варијанти затворене књиге отвореног домена , задаци затварања и допуњавања реченица, задаци у стилу Винограда, задаци разумевања читања у контексту, задаци здравог разума, задаци СуперГЛУЕ и природно закључивање.
На неколико задатака на БИГ-клупи, ПаЛМ демонстрира одлично тумачење природног језика и вештине генерисања. На пример, модел може да разликује узрок и последицу, разуме концептуалне комбинације у одређеним ситуацијама, па чак и да погоди филм из емоџија. Иако само 22% корпуса обуке није на енглеском, ПаЛМ се добро понаша на вишејезичним НЛП мерилима, укључујући превод, поред задатака НЛП на енглеском.
2. Образложење
ПаЛМ комбинује величину модела са ланцем размишљања који подстиче да демонстрира продорне вештине у изазовима закључивања који захтевају вишестепено аритметичко или здраворазумско резоновање.
Претходни ЛЛМ, као што је Гопхер, имали су мање користи од величине модела у смислу побољшања перформанси. ПаЛМ 540Б са ланцем размишљања показао се добро на три аритметичка и два скупа података здравог разума.
ПаЛМ надмашује претходни најбољи резултат од 55%, који је добијен финим подешавањем ГПТ-3 175Б модела са скупом за обуку од 7500 проблема и комбиновањем са екстерним калкулатором и верификатором за решавање 58 процената проблема у ГСМ8К, а мерило за хиљаде тешких математичких питања на нивоу основне школе користећи подстицање од 8 снимака.
Овај нови резултат је посебно вредан пажње јер се приближава просеку од 60% препрека са којима се суочавају деца од 9-12 година. Такође може да одговори на оригиналне шале које нису доступне на интернету.
3. Генерисање кода
Такође се показало да ЛЛМ добро раде у задацима кодирања, укључујући генерисање кода из описа природног језика (текст у код), превођење кода између језика и решавање грешака при компилацији. Упркос томе што има само 5% кода у скупу података пре обуке, ПаЛМ 540Б ради добро и на задацима кодирања и на задацима природног језика у једном моделу.
Његове перформансе у неколико снимака су невероватне, јер се поклапа са фино подешеним Цодек-ом 12Б док тренира са 50 пута мање Питхон кода. Ово откриће поткрепљује претходне налазе да већи модели могу бити ефикаснији од мањих модела јер могу ефикасније пренети учење са више програмски језици и података на једноставном језику.
Zakljucak
ПаЛМ показује капацитет Патхваис система да скалира на хиљаде процесора акцелератора преко два ТПУ в4 Пода тако што ефективно обучава модел параметара од 540 милијарди са добро проученим, добро утврђеним рецептом густог модела Трансформера само за декодер.
Постиже револуционарне перформансе у неколико снимака у низу изазова обраде природног језика, закључивања и кодирања тако што помера границе размере модела.
Ostavite komentar