За апошнія гады буйныя нейронавыя сеткі, якія былі навучаны распазнаванню і генерацыі мовы, прадэманстравалі выдатныя вынікі ў розных задачах. GPT-3 даказаў, што вялікія моўныя мадэлі (LLM) могуць быць выкарыстаны для кароткачасовага навучання і атрымання выдатных вынікаў, не патрабуючы шырокіх даных для канкрэтнай задачы або змяняючы параметры мадэлі.
Google, тэхналагічны бегемот Сіліконавай даліны, прадставіў PaLM, або Pathways Language Model, у сусветнай індустрыі тэхналогій у якасці моўнай мадэлі наступнага пакалення AI. Google уключыў новы штучны інтэлект архітэктуры ў PaLM са стратэгічнымі мэтамі палепшыць якасць моўнай мадэлі AI.
У гэтай публікацыі мы дэталёва разгледзім алгарытм Palm, у тым ліку параметры, якія выкарыстоўваюцца для яго навучання, праблему, якую ён вырашае, і многае іншае.
Што такое Алгарытм Google PaLM?
Pathways Моўная мадэль - вось што ПаЛМ выступае за. Гэта новы алгарытм, распрацаваны Google для ўмацавання архітэктуры Pathways AI. Асноўная мэта структуры - адначасова займацца мільёнам розных відаў дзейнасці.
Яны ўключаюць усё: ад расшыфроўкі складаных даных да дэдуктыўных разваг. PaLM мае магчымасць перасягнуць сучаснае ІІ, а таксама людзей у моўных і разумовых задачах.
Сюды ўваходзіць некалькі метадаў навучання, якія імітуюць тое, як людзі вывучаюць новыя рэчы і аб'ядноўваюць разнастайныя веды для вырашэння новых задач, якія ніколі раней не сустракаліся, з перавагай машыны, якая можа выкарыстоўваць усе свае веды для вырашэння новых задач; адным з прыкладаў гэтага навыку ў PaLM з'яўляецца яго здольнасць растлумачыць жарт, якога ён ніколі раней не чуў.
PaLM прадэманстраваў шмат прарыўных навыкаў у розных складаных задачах, у тым ліку разуменне і стварэнне мовы, дзеянні, звязаныя з шматэтапным арыфметычным кодам, развагі здаровага сэнсу, пераклад і многія іншыя.
Ён прадэманстраваў сваю здольнасць вырашаць складаныя пытанні з дапамогай шматмоўных набораў NLP. PaLM можа выкарыстоўвацца сусветным тэхналагічным рынкам для адрознення прычын і следстваў, канцэптуальных камбінацый, розных гульняў і многіх іншых рэчаў.
Ён таксама можа ствараць глыбокія тлумачэнні для многіх кантэкстаў, выкарыстоўваючы шматэтапны лагічны вывад, глыбокую мову, глабальныя веды і іншыя метады.
Як Google распрацаваў алгарытм PaLM?
Для дасягнення прарыўнай прадукцыйнасці Google у PaLM шляхі плануецца маштабаваць да 540 мільярдаў параметраў. Ён прызнаны адзінай мадэллю, якая можа эфектыўна і дзейсна абагульняць розныя дамены. Pathways у Google займаецца распрацоўкай размеркаваных вылічэнняў для паскаральнікаў.
PaLM - гэта мадэль трансфарматара толькі з дэкодэрам, якая прайшла навучанне з выкарыстаннем сістэмы Pathways. Па дадзеных Google, PaLM паспяхова дасягнуў самай сучаснай прадукцыйнасці ў некалькі стрэлаў пры некалькіх працоўных нагрузках. PaLM выкарыстаў сістэму Pathways, каб пашырыць навучанне да самай вялікай канфігурацыі сістэмы на аснове TPU, упершыню вядомую як чыпы 6144.
Навучальны набор даных для моўнай мадэлі штучнага інтэлекту складаецца з набораў даных на англійскай і іншых шматмоўных мовах. З «безстратным» слоўнікам ён змяшчае высакаякасны вэб-кантэнт, дыскусіі, кнігі, код GitHub, Вікіпедыю і многае іншае. Слоўнік без страт прызнаецца за захаванне прабелаў і разбіванне сімвалаў Unicode, якіх няма ў слоўніку, на байты.
PaLM быў распрацаваны Google і Pathways з выкарыстаннем стандартнай архітэктуры мадэлі трансфарматара і канфігурацыі дэкодэра, якая ўключала актывацыю SwiGLU, паралельныя ўзроўні, убудовы RoPE, агульныя ўбудовы ўводу-вываду, увагу на некалькі запытаў і адсутнасць прадузятасцей і слоўнікавага запасу. PaLM, з іншага боку, гатовы забяспечыць трывалую аснову для моўнай мадэлі AI ад Google і Pathways.
Параметры, якія выкарыстоўваюцца для навучання PaLM
У мінулым годзе Google запусціў Pathways, адзіную мадэль, якую можна навучыць рабіць тысячы, калі не мільёны рэчаў, якая атрымала назву «архітэктура штучнага інтэлекту наступнага пакалення», паколькі яна можа пераадолець абмежаванні існуючых мадэляў, звязаныя з навучаннем рабіць толькі адну рэч. . Замест таго, каб пашыраць магчымасці сучасных мадэляў, новыя мадэлі часта ствараюцца знізу ўверх для выканання адной задачы.
У выніку яны стварылі дзясяткі тысяч мадэляў для дзясяткаў тысяч розных відаў дзейнасці. Гэта працаёмкая і рэсурсаёмістая задача.
З дапамогай Pathways Google даказаў, што адна мадэль можа апрацоўваць розныя віды дзейнасці, выкарыстоўваць і аб'ядноўваць сучасныя таленты, каб хутчэй і больш эфектыўна вывучаць новыя задачы.
Мультымадальныя мадэлі, якія адначасова ўключаюць зрок, лінгвістычнае разуменне і слыхавую апрацоўку, могуць быць уключаны праз шляхі. Моўная мадэль Pathways (PaLM) дазваляе навучаць адзіную мадэль на шматлікіх TPU v4 Pods дзякуючы сваёй мадэлі з 540 мільярдамі параметраў.
PaLM, мадэль Transformer толькі з шчыльным дэкодэрам, пераўзыходзіць прадукцыйнасць перадавых у некалькіх кадрах у шырокім дыяпазоне працоўных нагрузак. PaLM навучаецца на двух TPU v4 Pods, якія звязаны праз сетку цэнтра апрацоўкі дадзеных (DCN).
Ён выкарыстоўвае перавагі паралелізму мадэляў і даных. Даследчыкі задзейнічалі 3072 працэсара TPU v4 у кожным Pod для PaLM, якія былі падлучаныя да 768 хостаў. Па словах даследчыкаў, гэта самая вялікая канфігурацыя TPU, якая пакуль не раскрыта, што дазваляе ім маштабаваць навучанне без выкарыстання паралелізму канвеера.
Пракладка труб - гэта працэс збору інструкцый ад ЦП праз канвеер у цэлым. Слоі мадэлі падзелены на фазы, якія можна апрацоўваць паралельна праз паралелізм канвеернай мадэлі (або паралелізм канвеера).
Памяць актывацыі адпраўляецца да наступнага кроку, калі адна з стадый завяршае праход для мікрапартыі. Затым градыенты адпраўляюцца назад, калі наступны этап завяршае зваротнае распаўсюджванне.
Прарыўныя магчымасці PaLM
PaLM дэманструе наватарскія здольнасці ў шэрагу складаных задач. Вось некалькі прыкладаў:
1. Стварэнне і разуменне мовы
PaLM быў пастаўлены на тэст па 29 розных заданнях НЛП на англійскай мове.
На аснове некалькіх стрэлаў PaLM 540B перасягнуў папярэднія буйныя мадэлі, такія як GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla і LaMDA, у 28 з 29 задач, уключаючы задачы з адказамі на пытанні з адкрытым даменам і закрытую кнігу. , заданні на закрыццё і запаўненне прапаноў, заданні ў стылі Вінаграда, заданні на разуменне прачытанага ў кантэксце, заданні на разумныя развагі, заданні SuperGLUE і натуральны вывад.
У некалькіх задачах BIG-bench PaLM дэманструе выдатныя навыкі інтэрпрэтацыі і генерацыі натуральнай мовы. Напрыклад, мадэль можа адрозніваць прычыну і следства, разумець канцэптуальныя камбінацыі ў пэўных сітуацыях і нават адгадваць фільм па эмодзі. Нягледзячы на тое, што толькі 22% вучэбнага корпуса не па-ангельску, PaLM добра працуе на шматмоўных тэстах НЛП, уключаючы пераклад, у дадатак да ангельскіх задач НЛП.
2. Развагі
PaLM спалучае памер мадэлі з падказкамі па ланцужку думак, каб прадэманстраваць прарыўныя навыкі разважання па праблемах, якія патрабуюць шматэтапнай арыфметыкі або разумных разважанняў.
Папярэднія праграмы LLM, такія як Gopher, менш выйгравалі ад памеру мадэлі з пункту гледжання павышэння прадукцыйнасці. PaLM 540B з падказкамі па ланцужку думак добра паказаў сябе на трох арыфметычных і двух наборах даных разумнага мыслення.
PaLM пераўзыходзіць папярэдні лепшы бал у 55%, які быў атрыманы шляхам тонкай налады мадэлі GPT-3 175B з навучальным наборам з 7500 задач і аб'яднання яго са знешнім калькулятарам і праверкай для вырашэння 58 працэнтаў праблем у GSM8K, a эталон тысяч складаных пытанняў па матэматыцы пачатковай школы з выкарыстаннем падказкі з 8 кадраў.
Гэты новы бал асабліва варты ўвагі, паколькі ён набліжаецца да 60 % перашкод, з якімі сутыкаюцца 9-12-гадовыя дзеці. Ён таксама можа адказаць на арыгінальныя жарты, недаступныя ў Інтэрнэце.
3. Генерацыя кода
Таксама было паказана, што LLM добра выконваюць задачы кадавання, у тым ліку генерацыю кода з апісання натуральнай мовы (ператварэнне тэксту ў код), пераклад кода паміж мовамі і выпраўленне памылак кампіляцыі. Нягледзячы на толькі 5% кода ў наборы даных перад навучаннем, PaLM 540B добра спраўляецца з задачамі кадавання і натуральнай мовы ў адной мадэлі.
Яго прадукцыйнасць за некалькі стрэлаў неверагодная, бо ён адпавядае тонка наладжанаму Codex 12B, а пры навучанні ў 50 разоў менш кода Python. Гэтая выснова пацвярджае папярэднія высновы аб тым, што вялікія мадэлі могуць быць больш эфектыўнымі для выбаркі, чым меншыя мадэлі, таму што яны могуць больш эфектыўна перадаваць навучанне з некалькіх мовы праграмавання і дадзеныя на простай мове.
заключэнне
PaLM дэманструе здольнасць сістэмы Pathways маштабавацца да тысяч працэсараў-паскаральнікаў праз два TPU v4 Pod, эфектыўна навучаючы мадэль з 540 мільярдамі параметраў з добра вывучаным, устояным рэцэптам мадэлі Transformer з шчыльным дэкодэрам.
Ён дасягае прарыўнай прадукцыйнасці за некалькі стрэлаў у розных праблемах апрацоўкі натуральнай мовы, разважанняў і кадавання, пашыраючы межы маштабу мадэлі.
Пакінуць каментар