Veľké neurónové siete, ktoré boli vyškolené na rozpoznávanie a generovanie jazyka, preukázali v posledných rokoch vynikajúce výsledky v rôznych úlohách. GPT-3 dokázal, že veľké jazykové modely (LLM) je možné použiť na niekoľkonásobné učenie a získať vynikajúce výsledky bez toho, aby sa vyžadovali rozsiahle údaje špecifické pre danú úlohu alebo zmena parametrov modelu.
Google, technologický gigant zo Silicon Valley, predstavil PaLM, alebo Pathways Language Model, do celosvetového technologického priemyslu ako model novej generácie jazyka AI. Google začlenil nový umelá inteligencia architektúru do PaLM so strategickými cieľmi na zlepšenie kvality modelu jazyka AI.
V tomto príspevku podrobne preskúmame algoritmus Palm vrátane parametrov používaných na jeho trénovanie, problému, ktorý rieši, a oveľa viac.
Čo je Algoritmus PaLM spoločnosti Google?
Jazykový model Pathways je čo PaLM znamenať. Ide o nový algoritmus vyvinutý spoločnosťou Google s cieľom posilniť architektúru Pathways AI. Hlavným cieľom štruktúry je robiť milión rôznych činností naraz.
Patria sem všetko od dešifrovania zložitých údajov až po deduktívne uvažovanie. PaLM má schopnosť prekonať súčasnú najmodernejšiu AI, ako aj ľudí v jazykových a logických úlohách.
To zahŕňa učenie niekoľkých záberov, ktoré napodobňuje, ako sa ľudia učia nové veci a spájajú rôzne kúsky vedomostí, aby sa popasovali s novými výzvami, ktoré tu ešte neboli, s výhodou stroja, ktorý dokáže využiť všetky svoje znalosti na riešenie nových výziev; jedným príkladom tejto zručnosti v PaLM je jej schopnosť vysvetliť vtip, ktorý nikdy predtým nepočul.
PaLM preukázal mnoho prelomových zručností v rôznych náročných úlohách, vrátane porozumenia a tvorby jazyka, viackrokových činností súvisiacich s aritmetickým kódom, logického uvažovania, prekladu a mnohých ďalších.
Preukázala svoju schopnosť riešiť komplikované problémy pomocou viacjazyčných súborov NLP. PaLM môže byť použitý celosvetovým technologickým trhom na rozlíšenie príčiny a následku, koncepčných kombinácií, odlišných hier a mnohých ďalších vecí.
Môže tiež generovať hĺbkové vysvetlenia mnohých kontextov pomocou viackrokových logických záverov, hlbokého jazyka, globálnych znalostí a iných techník.
Ako Google vyvinul algoritmus PaLM?
Pre prelomový výkon spoločnosti Google v oblasti PaLM sú cesty naplánované na škálovanie až na 540 miliárd parametrov. Je uznávaný ako jeden model, ktorý dokáže efektívne a efektívne zovšeobecniť naprieč mnohými doménami. Pathways v spoločnosti Google sa venuje vývoju distribuovaných výpočtov pre akcelerátory.
PaLM je model transformátora len s dekodérom, ktorý bol trénovaný pomocou systému Pathways. PaLM podľa spoločnosti Google úspešne dosiahol špičkový výkon v niekoľkých pracovných zaťaženiach. PaLM použil systém Pathways na rozšírenie tréningu na najväčšiu konfiguráciu systému založenú na TPU, po prvýkrát známu ako čipy 6144.
Tréningový súbor údajov pre model jazyka AI pozostáva zo zmesi anglických a iných viacjazyčných súborov údajov. S „bezstratovým“ slovníkom obsahuje kvalitný webový obsah, diskusie, knihy, kód GitHub, Wikipédiu a mnoho ďalších. Bezstratový slovník je uznávaný pre zachovanie medzier a rozdelenie znakov Unicode, ktoré nie sú v slovníku, na bajty.
PaLM bol vyvinutý spoločnosťami Google a Pathways s využitím štandardnej architektúry modelu transformátora a konfigurácie dekodéra, ktorá zahŕňala aktiváciu SwiGLU, paralelné vrstvy, vloženie RoPE, zdieľané vloženie vstupu a výstupu, pozornosť pri viacerých dotazoch a žiadne predsudky alebo slovník. Na druhej strane je PaLM pripravený poskytnúť solídny základ pre jazykový model Google a Pathways AI.
Parametre používané na trénovanie PaLM
Minulý rok Google spustil Pathways, jediný model, ktorý možno vycvičiť tak, aby robil tisíce, ak nie milióny vecí – nazývaný „architektúra umelej inteligencie novej generácie“, pretože dokáže prekonať obmedzenia existujúcich modelov, ktoré spočívajú v tom, že sú vyškolení robiť iba jednu vec. . Namiesto rozširovania možností súčasných modelov sa nové modely často stavajú zdola nahor, aby splnili jednu úlohu.
Vďaka tomu vytvorili desaťtisíce modelov pre desaťtisíce rôznych činností. Ide o časovo a zdrojovo náročnú úlohu.
Google prostredníctvom Pathways dokázal, že jeden model dokáže zvládnuť rôzne aktivity a využiť a spojiť súčasné talenty, aby sa nové úlohy naučil rýchlejšie a efektívnejšie.
Multimodálne modely, ktoré zahŕňajú víziu, lingvistické porozumenie a sluchové spracovanie súčasne, môžu byť aktivované prostredníctvom ciest. Pathways Language Model (PaLM) umožňuje trénovať jeden model naprieč mnohými TPU v4 Pods vďaka svojmu modelu s 540 miliardami parametrov.
PaLM, model Transformer len s hustým dekodérom, prekonáva najmodernejší výkon niekoľkých záberov v širokom rozsahu pracovných zaťažení. PaLM sa trénuje na dvoch moduloch TPU v4, ktoré sú prepojené cez sieť dátového centra (DCN).
Využíva výhody modelového aj dátového paralelizmu. Výskumníci použili 3072 procesorov TPU v4 v každom Podu pre PaLM, ktoré boli pripojené k 768 hostiteľom. Podľa vedcov ide o najväčšiu doteraz zverejnenú konfiguráciu TPU, ktorá im umožňuje škálovať tréning bez použitia paralelizmu.
Obloženie potrubia je vo všeobecnosti proces zhromažďovania pokynov z CPU cez potrubie. Vrstvy modelu sú rozdelené do fáz, ktoré je možné spracovávať paralelne pomocou paralelného modelu potrubia (alebo paralelizmu potrubia).
Aktivačná pamäť sa odošle do ďalšieho kroku, keď jedna fáza dokončí dopredný prechod pre mikrodávku. Gradienty sa potom posielajú dozadu, keď nasledujúca fáza dokončí svoje spätné šírenie.
PaLM prelomové schopnosti
PaLM vykazuje prelomové schopnosti v rade náročných úloh. Tu je niekoľko príkladov:
1. Tvorba a porozumenie jazyka
PaLM bol testovaný na 29 rôznych úlohách NLP v angličtine.
PaLM 540B prekonal predchádzajúce veľké modely, ako sú GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla a LaMDA, na základe niekoľkých záberov v 28 z 29 úloh, vrátane úloh s odpovedaním na otázky s variantom uzavretej knihy v otvorenej doméne. , úlohy uzatvárania a dokončovania viet, úlohy v štýle Winograd, úlohy na čítanie s porozumením v kontexte, úlohy logického uvažovania, úlohy SuperGLUE a prirodzené vyvodzovanie.
Na niekoľkých BIG úlohách PaLM demonštruje vynikajúcu interpretáciu prirodzeného jazyka a generačné schopnosti. Model môže napríklad rozlišovať medzi príčinou a následkom, rozumie koncepčným kombináciám v určitých situáciách a dokonca uhádne film z emotikonu. Aj keď len 22 % tréningového korpusu nie je v angličtine, PaLM si okrem úloh v anglickom jazyku NLP vedie dobre aj vo viacjazyčných benchmarkoch NLP, vrátane prekladu.
2. Zdôvodnenie
PaLM spája veľkosť modelu s myšlienkovým nabádaním, aby preukázal prelomové zručnosti pri problémoch s uvažovaním, ktoré si vyžadujú viackrokové aritmetické alebo zdravé uvažovanie.
Predchádzajúce LLM, ako napríklad Gopher, mali menší prospech z veľkosti modelu, pokiaľ ide o zvýšenie výkonu. PaLM 540B s reťazovým nabádaním sa darilo dobre na troch aritmetických a dvoch súboroch údajov uvažovania so zdravým rozumom.
PaLM prekonáva doterajšie najlepšie skóre 55 %, ktoré bolo získané vyladením modelu GPT-3 175B s tréningovou sadou 7500 problémov a jeho kombináciou s externou kalkulačkou a overovačom, aby sa vyriešilo 58 percent problémov v GSM8K, a benchmark tisícok zložitých matematických otázok na úrovni základnej školy pomocou 8-násobného nabádania.
Toto nové skóre je obzvlášť pozoruhodné, pretože sa približuje k 60 % priemeru prekážok, ktoré zažívajú deti vo veku 9 – 12 rokov. Dokáže reagovať aj na originálne vtipy, ktoré nie sú dostupné na internete.
3. Generovanie kódu
Ukázalo sa tiež, že LLM fungujú dobre v úlohách kódovania, vrátane generovania kódu z popisu prirodzeného jazyka (text-to-code), prekladu kódu medzi jazykmi a riešenia chýb pri kompilácii. Napriek tomu, že v súbore údajov pred trénovaním má PaLM 5B iba 540 % kódu, funguje dobre pri úlohách kódovania aj prirodzeného jazyka v jedinom modeli.
Jeho niekoľkonásobný výkon je neuveriteľný, pretože sa zhoduje s jemne vyladeným Codexom 12B pri tréningu s 50-krát menším množstvom kódu Python. Toto zistenie sa opiera o predchádzajúce zistenia, že väčšie modely môžu byť efektívnejšie ako menšie modely, pretože dokážu efektívnejšie prenášať učenie z viacerých programovacie jazyky a údaje v jednoduchom jazyku.
záver
PaLM ukazuje schopnosť systému Pathways škálovať na tisícky akceleračných procesorov cez dva TPU v4 Pody efektívnym trénovaním modelu s 540 miliardami parametrov s dobre preštudovaným a osvedčeným receptom hustého modelu Transformer len s dekodérom.
Dosahuje prelomový výkon niekoľkých snímok v celom rade výziev na spracovanie prirodzeného jazyka, uvažovanie a kódovanie tým, že posúva hranice modelového rozsahu.
Nechaj odpoveď