Grutte neuronale netwurken dy't oplaat binne foar taalherkenning en generaasje hawwe de lêste jierren treflike resultaten yn in ferskaat oan taken toand. GPT-3 bewiisde dat grutte taalmodellen (LLM's) koenen wurde brûkt foar learen mei in pear shots en poerbêste resultaten krije sûnder wiidweidige taakspesifike gegevens te fereaskje of modelparameters te feroarjen.
Google, de Silicon Valley-techbehemoth, hat PaLM, of Pathways Language Model, yntrodusearre oan 'e wrâldwide tech-yndustry as it folgjende generaasje AI-taalmodel. Google hat in nij opnomd keunstmjittige yntelliginsje arsjitektuer yn PaLM mei strategyske doelen om de kwaliteit fan it AI-taalmodel te ferbetterjen.
Yn dit post sille wy it Palm-algoritme yn detail ûndersykje, ynklusyf de parameters dy't brûkt wurde om it te trenen, it probleem dat it oplost, en folle mear.
Wat is Google's PaLM-algoritme?
Pathways Language Model is wat Palm stiet foar. Dit is in nij algoritme ûntwikkele troch Google om de Pathways AI-arsjitektuer te fersterkjen. It haaddoel fan 'e struktuer is om ien miljoen ûnderskate aktiviteiten tagelyk te dwaan.
Dizze omfetsje alles fan it ûntsiferjen fan komplekse gegevens oant deduktive redenearring. PaLM hat de mooglikheid om de hjoeddeistige AI-state-of-the-art en minsken te oertsjûgjen yn taal- en redenaasjetaken.
Dit omfettet Few-Shot Learning, dy't imitearret hoe't minsken nije dingen leare en ferskate stikjes kennis kombinearje om nije útdagings oan te pakken dy't noch noait earder sjoen binne, mei it foardiel fan in masine dy't al syn kennis brûke kin om nije útdagings op te lossen; ien foarbyld fan dizze feardigens yn PaLM is har fermogen om in grap te ferklearjen dy't hy noch noait earder heard hat.
PaLM toande in protte trochbraakfeardigens op in ferskaat oan útdaagjende taken, ynklusyf taalbegryp en -skepping, aktiviteiten relatearre oan rekenkundige koade mei meardere stappen, redenearjen mei sûn ferstân, oersetting, en in protte mear.
It hat syn fermogen oantoand om yngewikkelde problemen op te lossen mei meartalige NLP-sets. PaLM kin brûkt wurde troch de wrâldwide techmerk om oarsaak en gefolch, konseptuele kombinaasjes, ûnderskate spultsjes, en in protte oare dingen te ûnderskieden.
It kin ek yngeande ferklearrings generearje foar in protte konteksten mei mearstap logyske konklúzje, djippe taal, globale kennis en oare techniken.
Hoe ûntwikkele Google it PaLM-algoritme?
Foar Google's trochbraakprestaasjes yn PaLM binne paden pland om te skaaljen oant 540 miljard parameters. It wurdt erkend as it iene model dat effisjint en effektyf kin generalisearje oer ferskate domeinen. Pathways by Google is wijd oan it ûntwikkeljen fan ferspraat komputer foar accelerators.
PaLM is in dekoder-allinich transformatormodel dat is oplaat mei it Pathways-systeem. PaLM hat mei súkses state-of-the-art pear-shot-prestaasjes berikt oer ferskate workloads, neffens Google. PaLM hat it Pathways-systeem brûkt om training út te wreidzjen nei de grutste TPU-basearre systeemkonfiguraasje, bekend as 6144-chips foar it earst.
In trainingsdataset foar it AI-taalmodel bestiet út in miks fan Ingelske en oare meartalige datasets. Mei in "lossless" wurdskat befettet it webynhâld fan hege kwaliteit, diskusjes, boeken, GitHub-koade, Wikipedia, en in protte mear. Ferliesleaze wurdskat wurdt erkend foar it behâld fan wite romte en it brekken fan Unicode-tekens dy't net yn 'e wurdskat binne yn bytes.
PaLM waard ûntwikkele troch Google en Pathways mei gebrûk fan in standert transformatormodel-arsjitektuer en in dekoderkonfiguraasje dy't SwiGLU-aktivearring, parallelle lagen, RoPE-ynbêdingen, dielde ynfier-útfier-ynbêdingen, oandacht foar meardere query's, en gjin foaroardielen of wurdskat omfette. PaLM, oan 'e oare kant, is klear om in solide basis te leverjen foar Google en Pathways' AI-taalmodel.
Parameters brûkt om PaLM te trenen
Ferline jier lansearre Google Pathways, in ienich model dat kin wurde oplaat om tûzenen, as net miljoenen, dingen te dwaan - de "folgjende-generaasje AI-arsjitektuer" neamd, om't it de beheiningen fan besteande modellen kin oerwinne om te trainen om mar ien ding te dwaan . Yn stee fan it útwreidzjen fan de mooglikheden fan hjoeddeistige modellen, wurde nije modellen faak fan ûnderen nei boppe boud om ien wurk te folbringen.
As gefolch hawwe se tsientûzenen modellen makke foar tsientûzenen ferskillende aktiviteiten. Dit is in tiidslinend en boarne-yntinsive taak.
Google bewiisde fia Pathways dat ien model in ferskaat oan aktiviteiten koe omgean en aktuele talinten oanlûke en kombinearje om nije taken rapper en effisjinter te learen.
Multimodale modellen dy't fyzje, taalkundich begryp en auditive ferwurking omfetsje allegear tagelyk kinne wurde ynskeakele fia paden. Pathways Language Model (PaLM) soarget foar de training fan ien model oer ferskate TPU v4 Pods tanksij syn 540 miljard parametermodel.
PaLM, in dichte dekoder-allinich Transformer-model, presteart de state-of-the-art pear-shot-prestaasjes oer in breed oanbod fan workloads. PaLM wurdt oplaat op twa TPU v4 Pods dy't keppele binne fia in datacenternetwurk (DCN).
It profiteart fan sawol model- as gegevensparallelisme. De ûndersikers brûkten 3072 TPU v4-prosessoren yn elke Pod foar PaLM, dy't ferbûn wiene mei 768 hosts. Neffens de ûndersikers is dit de grutste TPU-konfiguraasje dy't noch is iepenbiere, wêrtroch se training kinne skaalje sûnder pipeline-parallelisme te brûken.
Pipe lining is it proses fan it sammeljen fan ynstruksjes fan de CPU fia in pipeline yn it algemien. De lagen fan it model binne ferdield yn fazen dy't kinne wurde ferwurke yn parallel fia pipeline model parallelism (of pipeline parallelism).
De aktivearring ûnthâld wurdt stjoerd nei de folgjende stap as ien etappe foltôging de foarút pass foar in mikro-batch. De gradiënten wurde dan nei efteren stjoerd as de folgjende poadium syn efterút fuortplanting foltôget.
PaLM Breakthrough mooglikheden
PaLM toant baanbrekkende kapasiteiten yn in ferskaat oan drege taken. Hjir binne ferskate foarbylden:
1. Taalskepping en -begryp
PaLM waard op de proef set op 29 ferskillende NLP-taken yn it Ingelsk.
Op basis fan in pear shots prestearre PaLM 540B eardere grutte modellen lykas GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, en LaMDA op 28 fan 29 taken, ynklusyf iepen-domein sletten-boek fariant fraach-antwurding taken , Cloze en sin-foltôgjen taken, Winograd-styl taken, yn-kontekst lêsbegryp taken, commonsense redenearring taken, SuperGLUE taken, en natuerlike konklúzje.
Op ferskate BIG-banktaken toant PaLM poerbêste ynterpretaasje fan natuerlike taal en generaasjefeardigens. Bygelyks, it model kin ûnderskiede tusken oarsaak en gefolch, begripe konseptuele kombinaasjes yn bepaalde situaasjes, en sels riede de film út in emoji. Ek al is mar 22% fan it trainingskorpus net-Ingelsk, PaLM prestearret goed op meartalige NLP-benchmarks, ynklusyf oersetting, neist Ingelske NLP-taken.
2. Redenearje
PaLM kombinearret modelgrutte mei keatling-fan-gedachte-prompts om trochbraakfeardigens te demonstrearjen op redenearjende útdagings dy't meardere arithmetyske of gewoane redenearring nedich binne.
Foarige LLM's, lykas Gopher, profitearren minder fan 'e modelgrutte yn termen fan it ferbetterjen fan prestaasjes. De PaLM 540B mei keten-fan-gedachte-prompts gie goed op trije arithmetyske en twa commonsense tinken datasets.
PaLM prestearret de foarige bêste skoare fan 55%, dy't waard krigen troch it fine-tunen fan it GPT-3 175B-model mei in trainingsset fan 7500-problemen en it kombinearjen mei in eksterne rekkenmasine en ferifiearder om 58 prosint fan 'e problemen yn GSM8K op te lossen, in benchmark fan tûzenen lestige wiskundefragen op skoallenivo mei 8-shot-prompts.
Dizze nije skoare is benammen opmerklik, om't it it gemiddelde fan 60% fan obstakels benaderet ûnderfûn troch 9-12-jierrigen. It kin ek reagearje op orizjinele grappen dy't net beskikber binne op it ynternet.
3. Koade Generaasje
LLM's hawwe ek bliken dien dat se goed prestearje yn kodearringtaken, ynklusyf it generearjen fan koade út in natuerlike taalbeskriuwing (tekst-nei-koade), koade oersette tusken talen en it oplossen fan kompilaasjeflaters. Nettsjinsteande it hawwen fan mar 5% koade yn de pre-training dataset, prestearret PaLM 540B goed op sawol kodearring as natuerlike taal taken yn ien model.
De prestaasje mei in pear shots is ongelooflijk, om't it oerienkomt mei de fine-tuned Codex 12B by it trainen mei 50 kear minder Python-koade. Dizze fynst stipet mei eardere befinings dat gruttere modellen mear sample effisjinter kinne wêze dan lytsere modellen, om't se learen effektiver kinne oerdrage fan meardere programmeertalen en gewoane taalgegevens.
Konklúzje
PaLM toant de kapasiteit fan it Pathways-systeem om te skaaljen nei tûzenen acceleratorprozessors oer twa TPU v4 Pods troch effektyf in 540-miljard parametermodel op te trenen mei in goed studearre, goed fêstige resept fan in dichte dekoder-allinich Transformer-model.
It berikt trochbraakprestaasjes mei pear shots oer in berik fan natuerlike taalferwurking, redenearring en kodearring útdagings troch de grinzen fan modelskaal te ferleegjen.
Leave a Reply