Grandaj neŭralaj retoj, kiuj estis trejnitaj por lingvorekono kaj generacio, montris elstarajn rezultojn en diversaj taskoj en la lastaj jaroj. GPT-3 pruvis, ke grandaj lingvomodeloj (LLMs) povus esti uzataj por malmultaj lernadoj kaj akiri bonegajn rezultojn sen postulado de ampleksaj taskospecifaj datumoj aŭ ŝanĝado de modelparametroj.
Google, la teĥnikisto de Silicon Valley, prezentis PaLM, aŭ Pathways Language Model, al la tutmonda teknologia industrio kiel la venontgeneracia AI-lingva modelo. Google korpigis novan artefarita inteligento arkitekturo en PaLM kun strategiaj celoj plibonigi la kvaliton de la AI-lingva modelo.
En ĉi tiu afiŝo, ni ekzamenos la Palm-algoritmon detale, inkluzive de la parametroj uzataj por trejni ĝin, la problemon, kiun ĝi solvas, kaj multe pli.
Kio estas PaLM-algoritmo de Guglo?
Pathways Lingvo-Modelo estas kio PALM signifas. Ĉi tio estas nova algoritmo evoluigita de Google por plifortigi la Pathways AI-arkitekturon. La ĉefa celo de la strukturo estas fari milionon da apartaj agadoj samtempe.
Ĉi tiuj inkluzivas ĉion de deĉifrado de kompleksaj datumoj ĝis dedukta rezonado. PaLM havas la kapablon superi nunan AI-stato-de la arto same kiel homoj en lingvo kaj rezonado taskoj.
Tio inkludas Few-Shot Learning, kiu imitas kiel homoj lernas novajn aferojn kaj kombinas diversajn pecetojn da scio por trakti novajn defiojn kiuj neniam estis viditaj antaŭe, kun la avantaĝo de maŝino kiu povas uzi sian tutan scion por solvi novajn defiojn; unu ekzemplo de ĉi tiu kapablo en PaLM estas ĝia kapablo klarigi ŝercon, kiun ĝi neniam antaŭe aŭdis.
PaLM montris multajn progresajn kapablojn pri diversaj malfacilaj taskoj, inkluzive de lingvokompreno kaj kreado, plurpaŝaj aritmetikaj kod-rilataj agadoj, ordinara rezonado, tradukado kaj multaj pli.
Ĝi pruvis sian kapablon solvi komplikajn problemojn uzante plurlingvajn NLP-arojn. PaLM povas esti uzata de la tutmonda teknologia merkato por diferencigi kaŭzon kaj efikon, koncipajn kombinaĵojn, apartajn ludojn kaj multajn aliajn aferojn.
Ĝi ankaŭ povas generi profundajn klarigojn por multaj kuntekstoj uzante plurpaŝan logikan inferencon, profundan lingvon, tutmondan scion kaj aliajn teknikojn.
Kiel Guglo evoluigis la PaLM-algoritmon?
Por la nova agado de Google en PaLM, vojoj estas planitaj por grimpi ĝis 540 miliardoj da parametroj. Ĝi estas rekonita kiel la unu modelo kiu povas efike kaj efike ĝeneraligi tra multaj domajnoj. Pathways ĉe Google dediĉas sin al evoluigado de distribuita komputado por akceliloj.
PaLM estas malĉifril-restriktita transformilmodelo kiu estis trejnita uzante la Pathways-sistemon. PaLM sukcese atingis plej altnivelan agadon de malmultaj pafoj tra pluraj laborŝarĝoj, laŭ Guglo. PaLM uzis la Pathways-sistemon por vastigi trejnadon al la plej granda TPU-bazita sistema agordo, konata kiel 6144-fritoj por la unua fojo.
Trejnada datumaro por la AI-lingva modelo konsistas el miksaĵo de anglaj kaj aliaj plurlingvaj datumseroj. Kun "senperda" vortprovizo, ĝi enhavas altkvalitan retenhavon, diskutojn, librojn, GitHub-kodon, Vikipedion kaj multajn pli. Senperda vortprovizo estas rekonita por reteni blankspacon kaj rompi Unikodajn signojn kiuj ne estas en la vortprovizo en bajtojn.
PaLM estis evoluigita fare de Google kaj Pathways utiligante norman transformilmodelan arkitekturon kaj malĉifrilkonfiguracion kiu inkludis SwiGLU Aktivigon, paralelajn tavolojn, Ŝnuregajn enkonstruaĵojn, komunajn enig-eligajn enkonstruaĵojn, multi-demandan atenton, kaj neniun biasojn aŭ vortprovizon. PaLM, aliflanke, estas preta provizi solidan bazon por la AI-lingva modelo de Google kaj Pathways.
Parametroj uzataj por trejni PaLM
Pasintjare, Google lanĉis Pathways, ununuran modelon kiu povas esti trejnita por fari milojn, se ne milionojn, da aferoj—nomita la "novgeneracia AI-arkitekturo" ĉar ĝi povas venki la limojn de ekzistantaj modeloj esti trejnita por fari nur unu aferon. . Prefere ol vastigi la kapablojn de nunaj modeloj, novaj modeloj ofte estas konstruitaj de malsupre supren por plenumi ununuran laboron.
Kiel rezulto, ili kreis dekojn de miloj da modeloj por dekoj de miloj da malsamaj agadoj. Ĉi tio estas tempopostula kaj rimed-intensa tasko.
Guglo pruvis per Pathways, ke ununura modelo povas trakti diversajn agadojn kaj uzi kaj kombini aktualajn talentojn por lerni novajn taskojn pli rapide kaj efike.
Plurmodaj modeloj, kiuj inkluzivas vizion, lingvan komprenon kaj aŭdan traktadon samtempe, povus esti ebligitaj per vojoj. Pathways Language Model (PaLM) permesas la trejnadon de ununura modelo tra multaj TPU v4 Pods danke al ĝia 540 miliardoj parametromodelo.
PaLM, densa malĉifrila nura Transformilo-modelo, superas pintnivelan agadon de malmultaj pafoj tra larĝa gamo de laborkvantoj. PaLM estas trejnita sur du TPU v4 Pods, kiuj estas ligitaj per datumcentra reto (DCN).
Ĝi utiligas kaj modelon kaj datuman paralelecon. La esploristoj uzis 3072 TPU v4 procesorojn en ĉiu Pod por PaLM, kiuj estis konektitaj al 768 gastigantoj. Laŭ la esploristoj, ĉi tio estas la plej granda TPU-agordo ĝis nun malkaŝita, permesante al ili grimpi trejnadon sen uzi duktoparalelecon.
Piptegaĵo estas la procezo de kolektado de instrukcioj de la CPU tra dukto ĝenerale. La tavoloj de la modelo estas dividitaj en fazojn kiuj povas esti prilaboritaj paralele per duktomodeleco (aŭ duktoparaleleco).
La aktiviga memoro estas sendita al la sekva paŝo kiam unu etapo kompletigas la antaŭan enirpermesilon por mikro-aro. La gradientoj tiam estas senditaj malantaŭen kiam la sekva stadio kompletigas sian malantaŭan disvastigon.
PaLM Breakthrough Kapabloj
PaLM montras pionirantajn kapablojn en gamo da malfacilaj taskoj. Jen pluraj ekzemploj:
1. Lingvokreado kaj kompreno
PaLM estis metita al testo pri 29 malsamaj NLP-taskoj en la angla.
Sur kelkaj pafoj, PaLM 540B superis antaŭajn grandajn modelojn kiel ekzemple GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, kaj LaMDA en 28 el 29 taskoj, inkluzive de malferm-domajnaj fermitlibroj variantaj demando-respondaj taskoj. , cloze kaj fraz-kompletigaj taskoj, Winograd-stilaj taskoj, enkuntekste legkomprentaskoj, ordinaraj rezonaj taskoj, SuperGLUE-taskoj kaj natura inferenco.
En pluraj BIG-benkaj taskoj, PaLM montras bonegajn naturlingvajn interpretojn kaj generaciajn kapablojn. Ekzemple, la modelo povas distingi inter kaŭzo kaj efiko, kompreni koncipajn kombinaĵojn en certaj situacioj kaj eĉ diveni la filmon el emoji. Eĉ kvankam nur 22% de la trejna korpuso estas ne-angla, PaLM funkcias bone en multlingvaj NLP-komparnormoj, inkluzive de tradukado, krom anglaj NLP-taskoj.
2. Rezonado
PaLM miksas modelgrandecon kun ĉeno-de-pensa instigo por montri trarompajn kapablojn pri rezonaj defioj postulantaj plurpaŝan aritmetikan aŭ ordinaran rezonadon.
Antaŭaj LLMoj, kiel ekzemple Gopher, profitis malpli el la modelgrandeco laŭ plifortigado de efikeco. La PaLM 540B kun ĉeno-de-pensa instigo fartis bone sur tri aritmetikaj kaj du ordinaraj pensaj datumaroj.
PaLM superas la antaŭan plej bonan poentaron de 55%, kiu estis akirita per fajnagordado de la modelo GPT-3 175B kun trejna aro de 7500 problemoj kaj kombinante ĝin kun ekstera kalkulilo kaj kontrolilo por solvi 58 procentojn de la problemoj en GSM8K, a. komparnormo de miloj da malfacilaj lernejaj matematikaj demandoj uzante 8-pafajn instigojn.
Ĉi tiu nova poentaro estas precipe rimarkinda ĉar ĝi alproksimiĝas al la 60% mezumo de obstakloj travivitaj de 9-12-jaruloj. Ĝi ankaŭ povas respondi al originalaj ŝercoj kiuj ne estas haveblaj en la interreto.
3. Koda Generacio
LLM-oj ankaŭ pruviĝis rezulti bone en kodigaj taskoj, inkluzive de generado de kodo de naturlingva priskribo (teksto-al-kodo), tradukado de kodo inter lingvoj, kaj solvado de kompileraroj. Malgraŭ nur havi 5% kodon en la antaŭtrejna datumaro, PaLM 540B funkcias bone en kaj kodigaj kaj naturlingvaj taskoj en ununura modelo.
Ĝia malmultaj pafoj estas nekredebla, ĉar ĝi kongruas kun la fajnagordita Codex 12B dum trejnado kun 50-oble malpli da Python-kodo. Ĉi tiu trovo akompanas antaŭajn trovojn, ke pli grandaj modeloj povas esti pli specimenaj efikaj ol pli malgrandaj modeloj ĉar ili povas pli efike transdoni lernadon de multoblaj. programlingvoj kaj simplalingvaj datumoj.
konkludo
PaLM montras la kapablon de la Pathways-sistemo por skali al miloj da akcelilprocesoroj super du TPU v4 Pods efike trejnante 540-miliardojn da parametromodelon kun bone studita, bone establita recepto de densa malĉifrila nura Transformilo-modelo.
Ĝi atingas rompan malmultan agadon tra gamo da naturlingva prilaborado, rezonado kaj kodaj defioj puŝante la limojn de modelskalo.
Lasi Respondon