A nyelvfelismerésre és -generálásra kiképzett nagy neurális hálózatok az elmúlt években számos feladatban kiemelkedő eredményeket értek el. A GPT-3 bebizonyította, hogy a nagy nyelvi modellek (LLM-ek) használhatók néhány lépésben történő tanuláshoz, és kiváló eredményeket érhetnek el anélkül, hogy kiterjedt feladatspecifikus adatokra vagy modellparaméterek megváltoztatására lenne szükség.
A Google, a Szilícium-völgy technológiai behemótja bemutatta a PaLM-et, vagyis a Pathways Language Model-t a világ technológiai iparában, mint a mesterséges intelligencia következő generációs modelljét. A Google beépített egy újat mesterséges intelligencia architektúra a PaLM-be, azzal a stratégiai céllal, hogy javítsa az AI-nyelvi modell minőségét.
Ebben a bejegyzésben részletesen megvizsgáljuk a Palm algoritmust, beleértve a betanításhoz használt paramétereket, a megoldandó problémát és még sok mást.
Mi A Google PaLM algoritmusa?
Pathways Nyelvi Modell az, ami Tenyér jelentése. Ez egy új algoritmus, amelyet a Google fejlesztett ki a Pathways AI architektúra megerősítése érdekében. A struktúra fő célja milliónyi különböző tevékenység végrehajtása egyszerre.
Ezek közé tartozik az összetett adatok megfejtésétől a deduktív érvelésig minden. A PaLM képes felülmúlni a jelenlegi mesterséges intelligencia csúcstechnológiát, valamint az embereket a nyelvi és érvelési feladatok terén.
Ide tartozik a Few-Shot Learning, amely azt utánozza, hogy az emberek hogyan tanulnak meg új dolgokat, és kombinálják a különféle tudásrészeket, hogy megbirkózzanak a korábban soha nem látott új kihívásokkal, egy olyan gép előnyével, amely minden tudását felhasználja új kihívások megoldására; A PaLM e képességének egyik példája az, hogy képes megmagyarázni egy viccet, amit még soha nem hallott.
A PaLM számos áttörést jelentő képességet mutatott be számos kihívást jelentő feladatban, beleértve a nyelvi megértés és alkotás, a többlépcsős aritmetikai kóddal kapcsolatos tevékenységeket, a józan ész gondolkodását, a fordítást és még sok mást.
Bebizonyította, hogy képes bonyolult problémákat megoldani többnyelvű NLP-készletek használatával. A PaLM-et a világ technológiai piaca használhatja az ok és okozat, a fogalmi kombinációk, a különböző játékok és sok más dolog megkülönböztetésére.
Többlépcsős logikai következtetések, mély nyelvezet, globális tudás és egyéb technikák segítségével számos kontextushoz is képes mélyreható magyarázatokat generálni.
Hogyan fejlesztette ki a Google a PaLM algoritmust?
A Google áttörést jelentő teljesítménye érdekében a PaLM-ben a tervek szerint az útvonalak 540 milliárd paraméterig terjednek. Ez az egyetlen modell, amely hatékonyan és eredményesen általánosítható számos területen. A Pathways at Google célja az elosztott számítástechnika fejlesztése a gyorsítók számára.
A PaLM egy csak dekóderrel használható transzformátormodell, amelyet a Pathways rendszerrel képeztek ki. A Google szerint a PaLM sikeresen elérte a legkorszerűbb néhány felvételes teljesítményt számos munkaterhelésen. A PaLM a Pathways rendszert használta a képzés kiterjesztésére a legnagyobb TPU-alapú rendszerkonfigurációra, amely először 6144 chip néven ismert.
Az AI-nyelvi modell oktatási adatkészlete angol és más többnyelvű adatkészletek keverékéből áll. A „veszteségmentes” szókincsnek köszönhetően kiváló minőségű webes tartalmakat, vitákat, könyveket, GitHub-kódot, Wikipédiát és még sok mást tartalmaz. A veszteségmentes szókincs felismerhető a szóközök megtartásával és a szókincsben nem szereplő Unicode-karakterek bájtokra bontásával.
A PaLM-et a Google és a Pathways fejlesztette ki szabványos transzformátormodell-architektúrát és egy dekóderkonfigurációt használva, amely SwiGLU aktiválást, párhuzamos rétegeket, RoPE beágyazásokat, megosztott bemeneti-kimeneti beágyazásokat, többlekérdezés-figyelmet és torzítások vagy szókincs nélkül tartalmazott. A PaLM ezzel szemben szilárd alapot biztosít a Google és a Pathways mesterséges intelligencia nyelvi modelljéhez.
A PaLM képzéséhez használt paraméterek
Tavaly a Google piacra dobta a Pathways-t, egy olyan modellt, amely több ezer, ha nem millió dolog elvégzésére tanítható – a „következő generációs mesterségesintelligencia-architektúrának” nevezték el, mivel képes legyőzni a meglévő modellek azon korlátait, hogy csak egy dologra tanítják őket. . A jelenlegi modellek képességeinek bővítése helyett az új modelleket gyakran alulról építik fel egyetlen feladat elvégzésére.
Ennek eredményeként több tízezer modellt készítettek több tízezer különféle tevékenységhez. Ez idő- és erőforrás-igényes feladat.
A Google a Pathways segítségével bebizonyította, hogy egyetlen modell sokféle tevékenységet képes kezelni, és a jelenlegi tehetségekre támaszkodva és kombinálva gyorsabban és hatékonyabban tanulhat meg új feladatokat.
A látást, a nyelvi megértést és az auditív feldolgozást egyszerre magában foglaló multimodális modellek az útvonalakon keresztül engedélyezhetők. A Pathways Language Model (PaLM) 4 milliárd paraméteres modelljének köszönhetően egyetlen modell betanítását teszi lehetővé számos TPU v540 Pod-on.
A PaLM, egy sűrű, dekódoló csak Transformer modell, amely a legkorszerűbb néhány felvételes teljesítményt felülmúlja a munkaterhelések széles körében. A PaLM-et két TPU v4 Pod-ra oktatják, amelyek adatközponti hálózaton (DCN) keresztül vannak összekapcsolva.
Kihasználja a modell és az adatok párhuzamosságát is. A kutatók 3072 TPU v4 processzort alkalmaztak minden egyes Pod for PaLM-ben, amelyek 768 gazdagéphez csatlakoztak. A kutatók szerint ez a legnagyobb eddig nyilvánosságra hozott TPU-konfiguráció, amely lehetővé teszi számukra, hogy a csővezeték párhuzamosítása nélkül méretezzék a képzést.
A csőbélés általában az a folyamat, amely utasításokat gyűjt a CPU-tól egy csővezetéken keresztül. A modell rétegei fázisokra vannak osztva, amelyek párhuzamosan feldolgozhatók a pipeline modell párhuzamosságon (vagy pipeline parallelizmuson) keresztül.
Az aktiválási memória akkor kerül a következő lépésre, amikor az egyik szakasz befejezi a mikro-köteg előrehaladását. A gradienseket ezután visszafelé küldi, amikor a következő szakasz befejezi visszafelé terjedését.
A PaLM áttörési képességei
A PaLM úttörő képességeket mutat számos nehéz feladatban. Íme néhány példa:
1. Nyelvalkotás és -értés
A PaLM-et 29 különböző angol nyelvű NLP feladaton tették próbára.
Néhány felvétel alapján a PaLM 540B felülmúlta a korábbi nagy modelleket, mint például a GLaM, a GPT-3, a Megatron-Turing NLG, a Gopher, a Chinchilla és a LaMDA a 28 feladatból 29-ban, beleértve a nyílt tartományú, zárt könyvváltozatok kérdés-válaszolási feladatokat is. , zárási és mondatkiegészítő feladatok, Winograd-stílusú feladatok, szövegkörnyezeti szövegértési feladatok, közérthető érvelési feladatok, SuperGLUE feladatok és természetes következtetés.
Számos BIG-bench feladaton a PaLM kiváló természetes nyelvi tolmácsolási és generálási készségeket mutat be. Például a modell képes különbséget tenni ok és okozat között, megérti a fogalmi kombinációkat bizonyos helyzetekben, és akár egy hangulatjelből is kitalálja a filmet. Annak ellenére, hogy a képzési korpusznak mindössze 22%-a nem angol, a PaLM jól teljesít a többnyelvű NLP benchmarkokon, beleértve a fordítást is, az angol NLP-feladatok mellett.
2. Érvelés
A PaLM ötvözi a modell méretét a gondolati láncolatokkal, hogy áttörő készségeket mutasson be a többlépcsős aritmetikai vagy józan észszerű gondolkodást igénylő érvelési kihívásokban.
A korábbi LLM-ek, mint például a Gopher, kevésbé profitáltak a modellméretből a teljesítmény fokozása terén. A PaLM 540B a gondolati láncra vonatkozó felszólítással jól teljesített három aritmetikai és két józan gondolkodási adatkészleten.
A PaLM felülmúlja a korábbi legjobb, 55%-os pontszámot, amelyet a GPT-3 175B modell 7500 feladatból álló képzési készletével történő finomhangolásával, valamint egy külső számológéppel és ellenőrzővel kombinálva szereztek, hogy megoldja a GSM58K problémáinak 8 százalékát. benchmark több ezer nehéz általános iskolai szintű matematikai kérdés 8-lövéses felszólításával.
Ez az új pontszám különösen figyelemre méltó, mivel megközelíti a 60-9 évesek által tapasztalt akadályok 12%-os átlagát. Az interneten nem elérhető eredeti viccekre is reagálhat.
3. Kódgenerálás
Az LLM-ek jól teljesítenek a kódolási feladatokban is, ideértve a kód generálását természetes nyelvi leírásból (text-to-code), a kód nyelvek közötti fordítását és a fordítási hibák megoldását. Annak ellenére, hogy a képzés előtti adatkészletben csak 5% kód található, a PaLM 540B egyetlen modellben jól teljesít mind a kódolási, mind a természetes nyelvi feladatokban.
Néhány felvételes teljesítménye hihetetlen, mivel a finomhangolt Codex 12B-hez illeszkedik, miközben 50-szer kevesebb Python kóddal edz. Ez a megállapítás alátámasztja azokat a korábbi megállapításokat, amelyek szerint a nagyobb modellek mintahatékonyabbak lehetnek, mint a kisebb modellek, mivel hatékonyabban tudják átadni a többből származó tanulást. programozási nyelvek és közérthető nyelvű adatok.
Következtetés
A PaLM megmutatja, hogy a Pathways rendszer képes több ezer gyorsító processzorra skálázni két TPU v4 Pod-on keresztül, hatékonyan betanítva egy 540 milliárdos paraméteres modellt egy jól tanulmányozott, jól bevált receptúrával egy sűrű, csak dekóderrel rendelkező Transformer modellel.
A modelllépték határait feszegetve áttörő, néhány felvételes teljesítményt ér el a természetes nyelvi feldolgozási, érvelési és kódolási kihívások sorában.
Hagy egy Válaszol