Suured närvivõrgud, mida on koolitatud keele tuvastamiseks ja genereerimiseks, on viimastel aastatel näidanud silmapaistvaid tulemusi mitmesugustes ülesannetes. GPT-3 tõestas, et suuri keelemudeleid (LLM) saab kasutada vähesel määral õppimiseks ja saada suurepäraseid tulemusi ilma ulatuslikke ülesandepõhiseid andmeid või mudeli parameetreid muutmata.
Google, Silicon Valley tech behemoth, on tutvustanud PaLM-i ehk Pathways Language Modeli ülemaailmses tehnoloogiatööstuses järgmise põlvkonna AI-keele mudelina. Google on lisanud uue tehisintellekti arhitektuur PalLM-iks, mille strateegilised eesmärgid on parandada AI-keele mudeli kvaliteeti.
Selles postituses uurime üksikasjalikult Palmi algoritmi, sealhulgas selle treenimiseks kasutatavaid parameetreid, lahendatavat probleemi ja palju muud.
Mis on Google'i PaLM-algoritm?
Pathways Language Model on mis PALM tähistab. See on Google'i uus algoritm, mille eesmärk on tugevdada Pathways AI arhitektuuri. Struktuuri põhieesmärk on teha korraga miljon erinevat tegevust.
Need hõlmavad kõike alates keerukate andmete dešifreerimisest kuni deduktiivse arutluskäiguni. PaLM-il on keele- ja arutlusülesannete osas võime ületada nii praegusi tehisintellekti tipptasemel tasemeid kui ka inimesi.
See hõlmab Few-Shot Learning, mis jäljendab seda, kuidas inimesed õpivad uusi asju ja kombineerivad erinevaid teadmisi, et tulla toime uute väljakutsetega, mida pole kunagi varem nähtud, kasutades masinat, mis suudab kasutada kõiki oma teadmisi uute väljakutsete lahendamiseks; Üks näide selle oskuse kohta PalMis on võime selgitada nalja, mida ta pole kunagi varem kuulnud.
PaLM demonstreeris palju läbimurdelisi oskusi mitmesuguste väljakutseid pakkuvate ülesannete puhul, sealhulgas keele mõistmine ja loomine, mitmeastmelise aritmeetilise koodiga seotud tegevused, terve mõistuslik arutluskäik, tõlkimine ja palju muud.
See on näidanud oma võimet lahendada keerulisi probleeme mitmekeelsete NLP-komplektide abil. Ülemaailmne tehnoloogiaturg saab PalLM-i kasutada põhjuste ja tagajärgede, kontseptuaalsete kombinatsioonide, erinevate mängude ja paljude muude asjade eristamiseks.
Samuti võib see luua põhjalikke selgitusi paljude kontekstide jaoks, kasutades mitmeastmelist loogilist järeldust, sügavat keelt, globaalseid teadmisi ja muid tehnikaid.
Kuidas Google töötas välja PaLM-i algoritmi?
Google'i läbimurdeliseks jõudluseks PaLM-is on kavade järgi skaleerida kuni 540 miljardit parameetrit. Seda peetakse üheks mudeliks, mida saab tõhusalt ja tulemuslikult üldistada paljudes valdkondades. Pathways at Google on pühendunud kiirendite jaoks hajutatud andmetöötluse arendamisele.
PaLM on ainult dekooderiga trafomudel, mida on koolitatud Pathwaysi süsteemi abil. Google'i andmetel on PaLM edukalt saavutanud tipptasemel mõne kaadri jõudluse mitmel töökoormusel. PaLM on kasutanud Pathwaysi süsteemi, et laiendada koolitust suurimale TPU-põhisele süsteemikonfiguratsioonile, mis on esmakordselt tuntud kui 6144 kiibid.
AI-keelse mudeli koolitusandmestik koosneb ingliskeelsetest ja muudest mitmekeelsetest andmekogumitest. Kadudeta sõnavaraga sisaldab see kvaliteetset veebisisu, arutelusid, raamatuid, GitHubi koodi, Wikipediat ja palju muud. Kadudeta sõnavara tunnustatakse tühikute säilitamise ja Unicode'i märkide, mida sõnavaras ei ole, baitideks jagamise eest.
Google ja Pathways töötasid välja Google ja Pathways, kasutades standardset trafomudeli arhitektuuri ja dekoodri konfiguratsiooni, mis hõlmas SwiGLU aktiveerimist, paralleelseid kihte, RoPE manustamist, jagatud sisend-väljund manustamist, tähelepanu mitmele päringule ning eelarvamusi ega sõnavara. Seevastu PaLM on valmis pakkuma Google'i ja Pathwaysi AI-keele mudelile kindlat alust.
PaLM-i treenimiseks kasutatavad parameetrid
Eelmisel aastal tõi Google turule Pathwaysi, ühe mudeli, mida saab õpetada tegema tuhandeid, kui mitte miljoneid asju – mida nimetatakse "järgmise põlvkonna AI arhitektuuriks", kuna see suudab ületada olemasolevate mudelite piirangud, mis on seotud ainult ühe asjaga koolitamisega. . Selle asemel, et laiendada praeguste mudelite võimalusi, ehitatakse uued mudelid sageli alt üles ühe töö tegemiseks.
Selle tulemusena on nad loonud kümneid tuhandeid mudeleid kümnete tuhandete erinevate tegevuste jaoks. See on aeganõudev ja ressursimahukas ülesanne.
Google tõestas Pathwaysi kaudu, et üks mudel suudab toime tulla mitmesuguste tegevustega ning toetuda ja kombineerida praeguseid andeid, et õppida uusi ülesandeid kiiremini ja tõhusamalt.
Mitmeliigilised mudelid, mis hõlmavad nägemist, keelelist mõistmist ja kuulmistöötlust korraga, võivad olla lubatud radade kaudu. Pathways Language Model (PaLM) võimaldab treenida ühte mudelit paljudes TPU v4 Podides tänu oma 540 miljardi parameetri mudelile.
PaLM, tihe, ainult dekooderiga varustatud transformermudel, ületab tipptasemel mõne kaadri jõudlust paljudes töökoormustes. PaLM-i koolitatakse kahel TPU v4 Podil, mis on ühendatud andmekeskuse võrgu (DCN) kaudu.
See kasutab ära nii mudeli kui ka andmete paralleelsust. Teadlased kasutasid igas PaLM-i Podis 3072 TPU v4 protsessorit, mis olid ühendatud 768 hostiga. Teadlaste sõnul on see seni avaldatud suurim TPU konfiguratsioon, mis võimaldab neil koolitust laiendada ilma torujuhtme paralleelsust kasutamata.
Toru vooderdamine on protsess, mille käigus kogutakse protsessorilt konveieri kaudu juhiseid. Mudeli kihid on jagatud faasideks, mida saab paralleelselt töödelda konveierimudeli paralleelsuse (või konveieri paralleelsuse) kaudu.
Aktiveerimismälu saadetakse järgmisele etapile, kui üks etapp lõpetab mikropartii edasipääsu. Gradiendid saadetakse seejärel tahapoole, kui järgmine etapp on oma tagurpidi levimise lõpetanud.
PaLM-i läbimurdevõimalused
PaLM näitab murrangulisi võimeid paljudes keerulistes ülesannetes. Siin on mitu näidet.
1. Keeleloome ja mõistmine
PaLM pandi proovile 29 erineva ingliskeelse NLP ülesandega.
Mõne võtte põhjal ületas PaLM 540B varasemaid suuri mudeleid nagu GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla ja LaMDA 28 ülesande puhul 29-st, sealhulgas avatud domeeni suletud raamatu variandi küsimustele vastamise ülesanded , sulgemis- ja lauselõpetamisülesanded, Winogradi stiilis ülesanded, kontekstisisesed lugemise mõistmise ülesanded, tavaarutlusülesanded, SuperGLUE ülesanded ja loomulikud järeldused.
Mitmete BIG-pingi ülesannete puhul demonstreerib PaLM suurepäraseid loomuliku keele tõlke- ja genereerimisoskusi. Näiteks suudab mudel eristada põhjust ja tagajärge, mõista teatud olukordades esinevaid kontseptuaalseid kombinatsioone ja isegi emotikonist filmi ära arvata. Kuigi ainult 22% õppekorpusest on muu kui inglise keel, toimib PaLM lisaks ingliskeelsetele NLP-ülesannetele hästi ka mitmekeelsete NLP etalonidega, sealhulgas tõlkimisega.
2. Arutlus
PaLM ühendab mudeli suuruse mõtteahela õhutusega, et näidata läbimurdeoskusi arutlusprobleemide lahendamisel, mis nõuavad mitmeastmelist aritmeetilist või tavapärast arutlust.
Varasemad LLM-id, nagu Gopher, said mudeli suurusest jõudluse parandamise osas vähem kasu. Mõtteahela õhutusega PaLM 540B läks hästi kolme aritmeetilise ja kahe tavamõtlemise andmekogumiga.
PaLM ületab varasemat parimat tulemust 55%, mis saadi mudeli GPT-3 175B peenhäälestamisel 7500 probleemist koosneva õppekomplektiga ning selle kombineerimisel välise kalkulaatori ja kontrollijaga, et lahendada 58 protsenti GSM8K probleemidest. tuhandete raskete kooliastmete matemaatikaküsimuste etalon, kasutades kaheksakordset viipa.
See uus skoor on eriti tähelepanuväärne, kuna see läheneb 60–9-aastaste takistuste keskmisele 12%-le. See võib vastata ka originaalsetele naljadele, mis pole Internetis saadaval.
3. Koodi genereerimine
On näidatud, et LLM-id toimivad hästi ka kodeerimisülesannetes, sealhulgas loomuliku keele kirjelduse põhjal koodi genereerimine (tekst-koodiks), koodi tõlkimine keelte vahel ja kompileerimisvigade lahendamine. Vaatamata sellele, et koolituseelses andmekogumis on ainult 5% koodi, toimib PaLM 540B ühes mudelis hästi nii kodeerimise kui ka loomuliku keele ülesannete puhul.
Selle mõne kaadri jõudlus on uskumatu, kuna see ühtib peenhäälestatud Codex 12B-ga, treenides 50 korda väiksema Pythoni koodiga. See järeldus toetab varasemaid leide, et suuremad mudelid võivad olla valimitõhusamad kui väiksemad mudelid, kuna need suudavad tõhusamalt üle kanda mitmetelt mudelitelt õppimist. programmeerimiskeeled ja lihtsas keeles andmed.
Järeldus
PaLM näitab Pathwaysi süsteemi suutlikkust skaleerida tuhandetele kiirendusprotsessoritele kahe TPU v4 Podi kaudu, treenides tõhusalt 540 miljardi parameetriga mudelit koos hästi uuritud ja väljakujunenud retseptiga ainult dekooderiga varustatud Transformer mudelile.
See saavutab läbimurdelise mõne kaadri jõudluse mitmesuguste loomuliku keele töötlemise, arutlemise ja kodeerimise väljakutsete puhul, nihutades mudeli skaala piire.
Jäta vastus