Velike neuronske mreže koje su obučene za prepoznavanje i generisanje jezika pokazale su izvanredne rezultate u različitim zadacima posljednjih godina. GPT-3 je dokazao da se veliki jezički modeli (LLM) mogu koristiti za učenje u nekoliko hitaca i postići odlične rezultate bez potrebe za opsežnim podacima specifičnim za zadatak ili promjenom parametara modela.
Google, tehnološki gigant iz Silicijumske doline, predstavio je PaLM, ili Pathways Language Model, svjetskoj tehnološkoj industriji kao sljedeću generaciju modela AI jezika. Google je ugradio novu umjetne inteligencije arhitekturu u PaLM sa strateškim ciljevima poboljšanja kvaliteta modela AI jezika.
U ovom postu ćemo detaljno ispitati Palm algoritam, uključujući parametre koji se koriste za njegovu obuku, problem koji rješava i još mnogo toga.
Šta je Googleov PaLM algoritam?
Pathways Language Model je šta DLAN stoji za. Ovo je novi algoritam koji je razvio Google u cilju jačanja Pathways AI arhitekture. Osnovni cilj ove strukture je da izvrši milion različitih aktivnosti odjednom.
To uključuje sve, od dešifriranja složenih podataka do deduktivnog zaključivanja. PaLM ima sposobnost da nadmaši trenutnu AI stanje-of-the-art kao i ljude u zadacima jezika i rasuđivanja.
Ovo uključuje učenje u nekoliko hitaca, koje oponaša kako ljudi uče nove stvari i kombinuju različite dijelove znanja kako bi se uhvatili u koštac s novim izazovima koji nikada prije nisu viđeni, uz korist mašine koja može upotrijebiti svo svoje znanje za rješavanje novih izazova; jedan primjer ove vještine u PaLM-u je njegova sposobnost da objasni vic koji nikada prije nije čuo.
PaLM je demonstrirao mnoge revolucionarne vještine na raznim izazovnim zadacima, uključujući razumijevanje i kreiranje jezika, aktivnosti vezane za aritmetički kod u više koraka, zdravorazumsko razmišljanje, prevođenje i još mnogo toga.
Pokazao je svoju sposobnost rješavanja komplikovanih problema koristeći višejezične NLP setove. PaLM se može koristiti na svjetskom tehnološkom tržištu za razlikovanje uzroka i posljedica, konceptualnih kombinacija, različitih igara i mnogih drugih stvari.
Takođe može da generiše dubinska objašnjenja za mnoge kontekste koristeći višestepeno logičko zaključivanje, duboki jezik, globalno znanje i druge tehnike.
Kako je Google razvio PaLM algoritam?
Za Googleove revolucionarne performanse u PaLM-u, planirano je da se putevi povećaju do 540 milijardi parametara. Prepoznat je kao jedini model koji može efikasno i efektivno generalizovati u brojnim domenima. Pathways u Googleu je posvećen razvoju distribuiranog računarstva za akceleratore.
PaLM je model transformatora samo za dekoder koji je obučen korištenjem Pathways sistema. Prema Google-u, PaLM je uspješno postigao vrhunske performanse u nekoliko radnji u nekoliko radnih opterećenja. PaLM je koristio Pathways sistem da proširi obuku na najveću konfiguraciju sistema zasnovanu na TPU-u, poznatu kao 6144 čipa po prvi put.
Skup podataka za obuku za model AI jezika sastoji se od mješavine engleskog i drugih višejezičnih skupova podataka. Sa vokabularom „bez gubitaka“, sadrži visokokvalitetan web sadržaj, rasprave, knjige, GitHub kod, Wikipediju i još mnogo toga. Vokabular bez gubitaka prepoznaje se po zadržavanju razmaka i razbijanju Unicode znakova koji nisu u rječniku u bajtove.
PaLM su razvili Google i Pathways koristeći standardnu arhitekturu modela transformatora i konfiguraciju dekodera koja je uključivala SwiGLU aktivaciju, paralelne slojeve, RoPE embeddinge, zajedničke ulazno-izlazne ugradnje, pažnju na više upita i bez predrasuda ili rječnika. PaLM je, s druge strane, spreman da pruži solidnu osnovu za Google i Pathwaysov model AI jezika.
Parametri koji se koriste za treniranje PaLM-a
Prošle godine, Google je lansirao Pathways, jedan model koji se može obučiti da radi hiljade, ako ne i milione stvari – nazvan „arhitektura umjetne inteligencije sljedeće generacije“ jer može prevazići ograničenja postojećih modela obučavanja da rade samo jednu stvar. . Umjesto da se proširuju mogućnosti trenutnih modela, novi modeli se često grade odozdo prema gore kako bi se izvršio jedan posao.
Kao rezultat toga, stvorili su desetine hiljada modela za desetine hiljada različitih aktivnosti. Ovo je dugotrajan i resursno intenzivan zadatak.
Google je dokazao putem Pathways-a da jedan model može upravljati raznim aktivnostima te iskoristiti i kombinirati trenutne talente kako bi brže i efikasnije naučio nove zadatke.
Multimodalni modeli koji uključuju viziju, lingvističko razumijevanje i slušnu obradu u isto vrijeme mogu biti omogućeni putem puteva. Pathways Language Model (PaLM) omogućava obuku jednog modela u brojnim TPU v4 Podovima zahvaljujući modelu od 540 milijardi parametara.
PaLM, Transformer model gustog dekodera, nadmašuje vrhunske performanse nekoliko snimaka u širokom rasponu radnih opterećenja. PaLM se obučava na dva TPU v4 Poda koja su povezana preko mreže data centara (DCN).
Koristi prednosti i modela i paralelizma podataka. Istraživači su koristili 3072 TPU v4 procesora u svakom Podu za PaLM, koji su bili povezani sa 768 hostova. Prema istraživačima, ovo je najveća TPU konfiguracija do sada otkrivena, što im omogućava da skaliraju obuku bez upotrebe paralelizma cjevovoda.
Oblaganje cijevi je proces prikupljanja instrukcija od CPU-a kroz cjevovod općenito. Slojevi modela podijeljeni su u faze koje se mogu obraditi paralelno putem paralelizma cjevovodnog modela (ili paralelizma cjevovoda).
Aktivaciona memorija se šalje na sljedeći korak kada jedna faza završi naprijed prolaz za mikro-serija. Gradijent se zatim šalje unazad kada sljedeća faza završi svoje propagiranje unazad.
PaLM mogućnosti proboja
PaLM pokazuje revolucionarne sposobnosti u nizu teških zadataka. Evo nekoliko primjera:
1. Stvaranje i razumijevanje jezika
PaLM je stavljen na test na 29 različitih NLP zadataka na engleskom jeziku.
Na bazi nekoliko snimaka, PaLM 540B je nadmašio prethodne velike modele kao što su GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla i LaMDA u 28 od 29 zadataka, uključujući zadatke odgovora na pitanja u varijanti zatvorene knjige otvorenog domena , zadaci zatvaranja i dovršavanja rečenica, zadaci u stilu Winograda, zadaci razumijevanja čitanja u kontekstu, zadaci zdravog razuma, zadaci SuperGLUE i prirodno zaključivanje.
Na nekoliko BIG-bench zadataka, PaLM demonstrira odličnu interpretaciju prirodnog jezika i vještine generiranja. Na primjer, model može razlikovati uzrok i posljedicu, razumjeti konceptualne kombinacije u određenim situacijama, pa čak i pogoditi film iz emotikona. Iako samo 22% korpusa obuke nije na engleskom, PaLM se dobro ponaša na višejezičnim NLP standardima, uključujući prevođenje, pored zadataka NLP na engleskom.
2. Obrazloženje
PaLM spaja veličinu modela sa lancem razmišljanja koji podstiče da se demonstrira prodorne veštine na izazovima zaključivanja koji zahtevaju aritmetičko ili zdravorazumsko razmišljanje u više koraka.
Prethodni LLM, kao što je Gopher, imali su manje koristi od veličine modela u smislu poboljšanja performansi. PaLM 540B sa lancem razmišljanja pokazao se dobro na tri aritmetička i dva skupa podataka zdravog razuma.
PaLM nadmašuje prethodni najbolji rezultat od 55%, koji je dobijen finim podešavanjem GPT-3 175B modela sa skupom za obuku od 7500 problema i kombinovanjem sa eksternim kalkulatorom i verifikatorom za rešavanje 58 procenata problema u GSM8K, a mjerilo hiljada teških matematičkih pitanja na nivou osnovne škole koristeći podsticanje od 8 udaraca.
Ovaj novi rezultat je posebno vrijedan pažnje jer se približava prosjeku od 60% prepreka s kojima se suočavaju 9-12-godišnjaci. Također može odgovoriti na originalne šale koje nisu dostupne na internetu.
3. Generacija koda
Također se pokazalo da LLM-ovi dobro rade u zadacima kodiranja, uključujući generiranje koda iz opisa prirodnog jezika (tekst u kod), prevođenje koda između jezika i rješavanje grešaka pri kompilaciji. Unatoč tome što ima samo 5% koda u skupu podataka prije obuke, PaLM 540B dobro radi i kodiranje i zadatke prirodnog jezika u jednom modelu.
Njegove performanse u nekoliko hitaca su nevjerovatne, jer se poklapa sa fino podešenim Codexom 12B dok trenira sa 50 puta manje Python koda. Ovo otkriće potkrepljuje prethodne nalaze da veći modeli mogu biti efikasniji u uzorku od manjih modela jer mogu efikasnije prenijeti učenje iz višestrukih programski jezici i podaci na jednostavnom jeziku.
zaključak
PaLM pokazuje kapacitet Pathways sistema da se skalira na hiljade akceleratorskih procesora preko dva TPU v4 Poda tako što efektivno obučava model parametara od 540 milijardi sa dobro proučenim, dobro utvrđenim receptom gustog modela Transformera samo za dekoder.
Postiže revolucionarne performanse u nekoliko snimaka u nizu izazova obrade prirodnog jezika, zaključivanja i kodiranja tako što pomiče granice skale modela.
Ostavite odgovor