Lielie neironu tīkli, kas ir apmācīti valodas atpazīšanai un ģenerēšanai, pēdējos gados ir uzrādījuši izcilus rezultātus dažādos uzdevumos. GPT-3 pierādīja, ka lielos valodu modeļus (LLM) var izmantot dažu kadru apguvei un iegūt izcilus rezultātus, neprasot plašus uzdevumam raksturīgus datus vai nemainot modeļa parametrus.
Google, Silīcija ielejas tehnoloģiju lielvalsts, ir ieviesis PaLM jeb Pathways Language Model pasaules tehnoloģiju nozarē kā nākamās paaudzes AI valodas modeli. Google ir iekļāvusi jaunu mākslīgais intelekts arhitektūru PaLM ar stratēģiskiem mērķiem uzlabot AI valodas modeļa kvalitāti.
Šajā ziņā mēs detalizēti izpētīsim Palm algoritmu, tostarp tā apmācīšanai izmantotos parametrus, problēmu, ko tas atrisina, un daudz ko citu.
Kas ir Google PaLM algoritms?
Pathways Valodas modelis ir kas PaLM apzīmē. Šis ir jauns Google izstrādāts algoritms, lai stiprinātu Pathways AI arhitektūru. Struktūras galvenais mērķis ir vienlaikus veikt miljonu dažādu darbību.
Tie ietver visu, sākot no sarežģītu datu atšifrēšanas līdz deduktīvai spriešanai. PaLM spēj pārspēt pašreizējos AI jaunākos sasniegumus, kā arī cilvēkus valodas un argumentācijas uzdevumos.
Tas ietver Few-Shot Learning, kas atdarina to, kā cilvēki apgūst jaunas lietas un apvieno dažādas zināšanas, lai risinātu jaunas problēmas, kas vēl nekad nav redzētas, izmantojot mašīnu, kas var izmantot visas savas zināšanas jaunu izaicinājumu risināšanai; Viens no šīs prasmes PaLM piemēriem ir tās spēja izskaidrot joku, ko tas nekad iepriekš nav dzirdējis.
PaLM demonstrēja daudzas revolucionāras prasmes, veicot dažādus sarežģītus uzdevumus, tostarp valodas izpratni un izveidi, ar daudzpakāpju aritmētisko kodu saistītas darbības, veselā saprāta spriešanu, tulkošanu un daudz ko citu.
Tas ir pierādījis savu spēju atrisināt sarežģītas problēmas, izmantojot daudzvalodu NLP komplektus. Pasaules tehnoloģiju tirgus var izmantot PaLM, lai atšķirtu cēloņus un sekas, konceptuālas kombinācijas, atšķirīgas spēles un daudzas citas lietas.
Tas var arī ģenerēt padziļinātus skaidrojumus daudziem kontekstiem, izmantojot daudzpakāpju loģiskus secinājumus, dziļu valodu, globālās zināšanas un citas metodes.
Kā Google izstrādāja PaLM algoritmu?
Lai nodrošinātu Google revolucionāro veiktspēju PaLM, ir plānots, ka ceļi tiks mērogoti līdz 540 miljardiem parametru. Tas ir atzīts par vienu modeli, kas var efektīvi un efektīvi vispārināt daudzās jomās. Pathways at Google ir veltīta izplatītās skaitļošanas izstrādei paātrinātājiem.
PaLM ir tikai dekodera transformatora modelis, kas ir apmācīts, izmantojot Pathways sistēmu. Saskaņā ar Google datiem, PaLM ir veiksmīgi sasniedzis jaunāko dažu kadru veiktspēju vairākās darba slodzēs. PaLM ir izmantojis Pathways sistēmu, lai paplašinātu apmācību līdz lielākajai TPU bāzes sistēmas konfigurācijai, kas pirmo reizi pazīstama kā 6144 mikroshēmas.
AI valodas modeļa apmācības datu kopu veido angļu un citu daudzvalodu datu kopu kombinācija. Ar bezzudumu vārdu krājumu tajā ir augstas kvalitātes tīmekļa saturs, diskusijas, grāmatas, GitHub kods, Wikipedia un daudz kas cits. Bezzudumu vārdnīca tiek atpazīta, lai saglabātu atstarpes un sadalītu baitos unikoda rakstzīmes, kuras vārdnīcā nav.
PaLM izstrādāja Google un Pathways, izmantojot standarta transformatora modeļa arhitektūru un dekodētāja konfigurāciju, kas ietvēra SwiGLU aktivizāciju, paralēlus slāņus, RoPE iegulšanu, kopīgu ievades-izejas iegulšanu, vairāku vaicājumu uzmanību un bez novirzēm vai vārdu krājuma. No otras puses, PaLM ir gatavs nodrošināt stabilu pamatu Google un Pathways AI valodas modelim.
Parametri, ko izmanto, lai apmācītu PaLM
Pagājušajā gadā Google laida klajā Pathways — vienu modeli, ko var apmācīt, lai veiktu tūkstošiem, ja ne miljoniem lietu, un tas tika saukts par "nākamās paaudzes AI arhitektūru", jo tas var pārvarēt esošo modeļu ierobežojumus, kas ir apmācīti veikt tikai vienu lietu. . Tā vietā, lai paplašinātu pašreizējo modeļu iespējas, jauni modeļi bieži tiek veidoti no apakšas uz augšu, lai veiktu vienu darbu.
Rezultātā viņi ir radījuši desmitiem tūkstošu modeļu desmitiem tūkstošu dažādu darbību. Tas ir laikietilpīgs un resursietilpīgs uzdevums.
Google pierādīja, izmantojot Pathways, ka viens modelis spēj veikt dažādas darbības un izmantot un apvienot pašreizējos talantus, lai ātrāk un efektīvāk apgūtu jaunus uzdevumus.
Multimodālus modeļus, kas ietver redzi, lingvistisko izpratni un dzirdes apstrādi vienlaikus, var iespējot, izmantojot ceļus. Pathways Language Model (PaLM) ļauj apmācīt vienu modeli daudzos TPU v4 Pods, pateicoties tā 540 miljardu parametru modelim.
PaLM, blīvs tikai dekodētāja transformatora modelis, pārspēj jaunāko dažu kadru veiktspēju plašā darba slodžu diapazonā. PaLM tiek apmācīts uz diviem TPU v4 Pods, kas ir savienoti, izmantojot datu centra tīklu (DCN).
Tas izmanto gan modeļa, gan datu paralēlisma priekšrocības. Pētnieki izmantoja 3072 TPU v4 procesorus katrā Pod for PaLM, kas bija savienoti ar 768 saimniekiem. Pēc pētnieku domām, šī ir lielākā TPU konfigurācija, kas līdz šim atklāta, ļaujot viņiem palielināt apmācību, neizmantojot cauruļvada paralēlismu.
Caurules apšuvums ir process, kurā tiek apkopotas instrukcijas no CPU, izmantojot cauruļvadu kopumā. Modeļa slāņi ir sadalīti fāzēs, kuras var apstrādāt paralēli, izmantojot konveijera modeļa paralēlismu (vai konveijera paralēlismu).
Aktivizācijas atmiņa tiek nosūtīta uz nākamo darbību, kad viens posms pabeidz mikropartijas pārsūtīšanu uz priekšu. Pēc tam gradienti tiek nosūtīti atpakaļ, kad nākamais posms pabeidz savu izplatīšanos atpakaļ.
PaLM izrāviena iespējas
PaLM parāda revolucionāras spējas sarežģītu uzdevumu klāstā. Šeit ir vairāki piemēri:
1. Valodas veidošana un izpratne
PaLM tika pārbaudīts 29 dažādos NLP uzdevumos angļu valodā.
Dažos gadījumos PaLM 540B pārspēja iepriekšējos lielos modeļus, piemēram, GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla un LaMDA 28 no 29 uzdevumiem, tostarp atvērtā domēna slēgtās grāmatas variantu jautājumu atbilžu uzdevumos. , Cloze un teikuma pabeigšanas uzdevumi, Vinogradas stila uzdevumi, konteksta lasīšanas izpratnes uzdevumi, saprātīgas spriešanas uzdevumi, SuperGLUE uzdevumi un dabiskie secinājumi.
Veicot vairākus BIG-bench uzdevumus, PaLM demonstrē izcilas dabiskās valodas interpretācijas un ģenerēšanas prasmes. Piemēram, modelis var atšķirt cēloni un sekas, izprast konceptuālas kombinācijas noteiktās situācijās un pat uzminēt filmu no emocijzīmes. Lai gan tikai 22% mācību korpusa nav angļu valodā, PaLM labi darbojas daudzvalodu NLP etalonos, tostarp tulkošanā, papildus angļu valodas NLP uzdevumiem.
2. Pamatojums
PaLM apvieno modeļa lielumu ar domu ķēdes pamudinājumu, lai parādītu izrāviena prasmes spriešanas izaicinājumos, kuriem nepieciešama daudzpakāpju aritmētiska vai veselā saprāta spriešana.
Iepriekšējie LLM, piemēram, Gopher, guva mazāku labumu no modeļa lieluma veiktspējas uzlabošanas ziņā. PaLM 540B ar domu ķēdes pamudinājumu labi darbojās trīs aritmētiskās un divās saprātīgās domāšanas datu kopās.
PaLM pārspēj iepriekšējo labāko rezultātu — 55%, kas tika iegūts, precīzi noregulējot GPT-3 175B modeli ar 7500 problēmu apmācības komplektu un apvienojot to ar ārēju kalkulatoru un verificētāju, lai atrisinātu 58 procentus no GSM8K problēmām. tūkstošiem sarežģītu pamatskolas līmeņa matemātikas jautājumu etalons, izmantojot 8 uzvedumu uzvedni.
Šis jaunais rādītājs ir īpaši ievērības cienīgs, jo tas tuvojas 60% šķēršļu, ar ko saskaras 9–12 gadus veci bērni, vidējais rādītājs. Tas var arī reaģēt uz oriģināliem jokiem, kas nav pieejami internetā.
3. Kodu ģenerēšana
Ir pierādīts, ka LLM labi veic kodēšanas uzdevumus, tostarp koda ģenerēšanu no dabiskās valodas apraksta (teksts-kodā), koda tulkošanu starp valodām un kompilācijas kļūdu novēršanu. Neskatoties uz to, ka pirmsapmācības datu kopā ir tikai 5% koda, PaLM 540B labi darbojas gan kodēšanas, gan dabiskās valodas uzdevumos vienā modelī.
Tā veiktspēja dažos kadros ir neticama, jo tā atbilst precīzi noregulētajam Codex 12B, trenējoties ar 50 reizi mazāku Python kodu. Šis atklājums ir saistīts ar iepriekšējiem atklājumiem, ka lielāki modeļi var būt efektīvāki paraugiem nekā mazāki modeļi, jo tie var efektīvāk pārnest mācīšanos no vairākiem. programmēšanas valodas un vienkāršās valodas dati.
Secinājumi
PaLM parāda Pathways sistēmas spēju mērogot līdz tūkstošiem paātrinātāju procesoru, izmantojot divus TPU v4 Pods, efektīvi apmācot 540 miljardu parametru modeli ar labi izpētītu, labi izstrādātu blīva, tikai dekodētāja transformatora modeļa recepti.
Tas nodrošina revolucionāru veiktspēju dažos kadros dažādos dabiskās valodas apstrādes, argumentācijas un kodēšanas izaicinājumos, paplašinot modeļa mēroga robežas.
Atstāj atbildi