Netwerks newrali kbar li ġew imħarrġa għar-rikonoxximent u l-ġenerazzjoni tal-lingwa wrew riżultati eċċellenti f’varjetà ta’ kompiti f’dawn l-aħħar snin. GPT-3 wera li l-mudelli tal-lingwa kbira (LLMs) jistgħu jintużaw għal tagħlim ta 'ftit shots u jiksbu riżultati eċċellenti mingħajr ma jeħtieġu dejta estensiva speċifika għall-kompitu jew parametri tal-mudell li jinbidlu.
Google, il-behemoth teknoloġiku ta 'Silicon Valley, introduċa PaLM, jew Pathways Language Model, għall-industrija tat-teknoloġija madwar id-dinja bħala l-mudell tal-lingwa AI tal-ġenerazzjoni li jmiss. Google inkorporat ġdid intelliġenza artifiċjali arkitettura f'PaLM b'għanijiet strateġiċi biex ittejjeb il-kwalità tal-mudell tal-lingwa AI.
F'din il-kariga, se neżaminaw l-algoritmu tal-Palm fid-dettall, inklużi l-parametri użati biex jitħarrġu, il-kwistjoni li ssolvi, u ħafna aktar.
X'inhu L-algoritmu PaLM ta' Google?
Pathways Language Model huwa dak PALM tirrappreżenta. Dan huwa algoritmu ġdid żviluppat minn Google sabiex tissaħħaħ l-arkitettura Pathways AI. L-għan ewlieni tal-istruttura huwa li tagħmel miljun attività distinta f'daqqa.
Dawn jinkludu kollox mid-deċifrar tad-dejta kumplessa għal raġunament deduttiv. PaLM għandu l-abbiltà li jaqbeż l-aktar avvanzata attwali tal-AI kif ukoll il-bnedmin fil-kompiti tal-lingwa u tar-raġunament.
Dan jinkludi Few-Shot Learning, li jimita kif il-bnedmin jitgħallmu affarijiet ġodda u jgħaqqdu diversi biċċiet ta’ għarfien biex jindirizzaw sfidi ġodda li qatt ma dehru qabel, bil-benefiċċju ta’ magna li tista’ tuża l-għarfien kollu tagħha biex issolvi sfidi ġodda; eżempju wieħed ta’ din il-ħila fil-PaLM hija l-abbiltà tiegħu li jispjega ċajta li qatt ma sema’ qabel.
PaLM wera ħafna ħiliet rivoluzzjonarji fuq varjetà ta’ kompiti ta’ sfida, inklużi l-komprensjoni u l-ħolqien tal-lingwa, attivitajiet relatati mal-kodiċi aritmetiku f’diversi stadji, raġunament tas-sens komun, traduzzjoni, u ħafna aktar.
Wera l-abbiltà tiegħu li ssolvi kwistjonijiet ikkumplikati bl-użu ta’ settijiet ta’ NLP multilingwi. PaLM jista 'jintuża mis-suq dinji tat-teknoloġija biex jiddifferenzja kawża u effett, kombinazzjonijiet kunċettwali, logħob distint, u ħafna affarijiet oħra.
Jista 'wkoll jiġġenera spjegazzjonijiet fil-fond għal ħafna kuntesti bl-użu ta' inferenza loġika f'diversi stadji, lingwaġġ profond, għarfien globali, u tekniki oħra.
Kif żviluppat Google l-algoritmu PaLM?
Għall-prestazzjoni rivoluzzjonarja ta 'Google fil-PaLM, il-mogħdijiet huma skedati li jammontaw għal 540 biljun parametru. Huwa rikonoxxut bħala l-mudell wieħed li jista 'jiġġeneralizza b'mod effiċjenti u effettiv f'bosta oqsma. Pathways at Google hija ddedikata għall-iżvilupp ta' kompjuters distribwiti għall-aċċeleraturi.
PaLM huwa mudell ta 'transformer ta' decoder biss li ġie mħarreġ bl-użu tas-sistema Pathways. PaLM kiseb b'suċċess prestazzjoni ta 'ftit shots ta' l-ogħla livell f'diversi xogħolijiet, skont Google. PaLM uża s-sistema Pathways biex jespandi t-taħriġ għall-akbar konfigurazzjoni tas-sistema bbażata fuq TPU, magħrufa bħala 6144 ċipep għall-ewwel darba.
Sett ta' dejta ta' taħriġ għall-mudell tal-lingwa AI huwa magħmul minn taħlita ta' settijiet ta' dejta bl-Ingliż u multilingwi oħra. B'vokabularju "bla telf", fih kontenut tal-web ta 'kwalità għolja, diskussjonijiet, kotba, kodiċi GitHub, Wikipedia, u ħafna aktar. Il-vokabularju mingħajr telf huwa rikonoxxut li jżomm spazju abjad u jkisser f'bytes karattri Unicode li mhumiex fil-vokabularju.
PaLM ġie żviluppat minn Google u Pathways bl-użu ta 'arkitettura ta' mudell ta 'transformer standard u konfigurazzjoni ta' decoder li kienet tinkludi Attivazzjoni SwiGLU, saffi paralleli, inkorporazzjonijiet tal-Ħabel, inkorporazzjonijiet ta 'input-output kondiviżi, attenzjoni multi-query, u l-ebda preġudizzju jew vokabularju. PaLM, min-naħa l-oħra, huwa lest li jipprovdi bażi soda għall-mudell tal-lingwa AI ta 'Google u Pathways.
Parametri użati għat-taħriġ tal-PaLM
Is-sena l-oħra, Google nediet Pathways, mudell wieħed li jista’ jitħarreġ biex jagħmel eluf, jekk mhux miljuni, ta’ affarijiet—imsejjaħ “arkitettura tal-AI tal-ġenerazzjoni li jmiss” peress li jista’ jegħleb il-limitazzjonijiet tal-mudelli eżistenti li jkunu mħarrġa biex jagħmlu ħaġa waħda biss. . Pjuttost milli jespandu l-kapaċitajiet tal-mudelli attwali, mudelli ġodda ħafna drabi jinbnew minn isfel għal fuq biex iwettqu xogħol wieħed.
Bħala riżultat, huma ħolqu għexieren ta 'eluf ta' mudelli għal għexieren ta 'eluf ta' attivitajiet differenti. Dan huwa kompitu li jieħu ħafna ħin u li juża ħafna riżorsi.
Google wera permezz ta' Pathways li mudell wieħed jista' jimmaniġġja varjetà ta' attivitajiet u jiġbed u jgħaqqad it-talenti attwali biex jitgħallmu kompiti ġodda aktar malajr u b'mod effiċjenti.
Mudelli multimodali li jinkludu viżjoni, komprensjoni lingwistika, u proċessar tas-smigħ kollha fl-istess ħin jistgħu jkunu ppermettiet permezz ta' mogħdijiet. Pathways Language Model (PaLM) jippermetti t-taħriġ ta' mudell wieħed f'bosta TPU v4 Pods grazzi għall-mudell ta' parametru ta' 540 biljun tiegħu.
PaLM, mudell dens ta 'Decoder biss ta' Transformer, tegħleb il-prestazzjoni ta 'ftit shots tal-aktar avvanzata f'firxa wiesgħa ta' xogħolijiet. PaLM qed jiġi mħarreġ fuq żewġ TPU v4 Pods li huma konnessi permezz ta 'netwerk taċ-ċentru tad-dejta (DCN).
Huwa jieħu vantaġġ kemm mill-mudell kif ukoll mill-paralleliżmu tad-dejta. Ir-riċerkaturi impjegaw 3072 proċessur TPU v4 f'kull Pod għal PaLM, li kienu konnessi ma '768 host. Skont ir-riċerkaturi, din hija l-akbar konfigurazzjoni tat-TPU li għadha ġiet żvelata, li tippermettilhom iżidu t-taħriġ mingħajr ma jużaw paralleliżmu tal-pipeline.
Il-kisi tal-pajpijiet huwa l-proċess tal-ġbir ta 'struzzjonijiet mis-CPU permezz ta' pipeline b'mod ġenerali. Is-saffi tal-mudell huma maqsuma f'fażijiet li jistgħu jiġu pproċessati b'mod parallel permezz ta 'paralleliżmu tal-mudell tal-pipeline (jew paralleliżmu tal-pipeline).
Il-memorja ta 'attivazzjoni tintbagħat għall-pass li jmiss meta stadju wieħed itemm il-pass 'il quddiem għal mikro-lott. Il-gradjenti mbagħad jintbagħtu lura meta l-istadju li jmiss itemm il-propagazzjoni b'lura tiegħu.
PaLM Breakthrough Kapaċitajiet
PaLM juri kapaċitajiet innovattivi f'firxa ta 'kompiti diffiċli. Hawn bosta eżempji:
1. Ħolqien u fehim tal-lingwa
PaLM tpoġġa għall-prova fuq 29 biċċa xogħol NLP differenti bl-Ingliż.
Fuq bażi ta’ ftit shots, PaLM 540B qabeż mudelli kbar preċedenti bħal GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, u LaMDA fuq 28 minn 29 biċċa xogħol, inklużi kompiti ta’ tweġibiet ta’ mistoqsijiet varjanti ta’ ktieb magħluq ta’ dominju miftuħ , kompiti cloze u tlestija tas-sentenza, kompiti stil Winograd, kompiti ta 'komprensjoni tal-qari fil-kuntest, kompiti ta' raġunament tas-sens komuni, kompiti SuperGLUE, u inferenza naturali.
Fuq diversi kompiti BIG-bench, PaLM juri ħiliet eċċellenti ta 'interpretazzjoni tal-lingwa naturali u ġenerazzjoni. Per eżempju, il-mudell jista 'jiddistingwi bejn kawża u effett, jifhem kombinazzjonijiet kunċettwali f'ċerti sitwazzjonijiet, u saħansitra raden il-film minn emoji. Anke jekk 22% biss tal-korpus tat-taħriġ mhuwiex Ingliż, PaLM jaħdem tajjeb fuq benchmarks tal-NLP multilingwi, inkluża t-traduzzjoni, minbarra l-kompiti tal-NLP bl-Ingliż.
2. Ir-raġunament
PaLM tgħaqqad id-daqs tal-mudell ma 'katina ta' ħsieb inkoraġġiment biex juri ħiliet innovattivi fuq sfidi ta 'raġunament li jeħtieġu raġunament aritmetiku f'diversi stadji jew sens komun.
LLMs preċedenti, bħal Gopher, bbenefikaw inqas mid-daqs tal-mudell f'termini ta 'titjib tal-prestazzjoni. Il-PaLM 540B b'katina ta' ħsieb iġġiegħel mar tajjeb fuq tliet settijiet ta' data aritmetika u żewġ ħsieb komuni.
PaLM jegħleb l-aħjar punteġġ preċedenti ta '55%, li nkiseb billi rfinar il-mudell GPT-3 175B b'sett ta' taħriġ ta '7500 problema u kkombinatu ma' kalkolatur estern u verifikatur biex issolvi 58 fil-mija tal-kwistjonijiet f'GSM8K, a benchmark ta' eluf ta' mistoqsijiet diffiċli tal-matematika fil-livell tal-iskola bl-użu ta' 8-shot prompting.
Dan il-punteġġ il-ġdid huwa ta' min jinnota b'mod speċjali peress li joqrob lejn il-medja ta' 60% ta' ostakli esperjenzati minn tfal ta' bejn id-9 u t-12-il sena. Jista' wkoll jirrispondi għaċ-ċajt oriġinali li mhumiex disponibbli fuq l-internet.
3. Ġenerazzjoni tal-Kodiċi
LLMs intwerew ukoll li jaħdmu tajjeb fil-kompiti ta 'kodifikazzjoni, inkluż il-ġenerazzjoni ta' kodiċi minn deskrizzjoni ta 'lingwa naturali (test-to-code), it-traduzzjoni ta' kodiċi bejn il-lingwi, u s-soluzzjoni ta 'żbalji ta' kumpilazzjoni. Minkejja li għandu biss kodiċi ta '5% fis-sett tad-dejta ta' qabel it-taħriġ, PaLM 540B jaħdem tajjeb kemm fuq kompiti ta 'kodifikazzjoni kif ukoll ta' lingwa naturali f'mudell wieħed.
Il-prestazzjoni ta 'ftit shots tagħha hija inkredibbli, peress li taqbel mal-Codex 12B irfinat waqt it-taħriġ b'kodiċi Python 50 darba inqas. Din is-sejba ssostni sejbiet preċedenti li mudelli akbar jistgħu jkunu aktar effiċjenti fil-kampjuni minn mudelli iżgħar minħabba li jistgħu jittrasferixxu b'mod aktar effettiv it-tagħlim minn multipli. Lingwi ta ’programmazzjoni u data b'lingwaġġ sempliċi.
konklużjoni
PaLM juri l-kapaċità tas-sistema Pathways li tiskala għal eluf ta 'proċessuri ta' aċċeleratur fuq żewġ TPU v4 Pods billi tħarreġ b'mod effettiv mudell ta 'parametru ta' 540 biljun b'riċetta studjata sew u stabbilita sew ta 'mudell dens ta' Transformer ta 'decoder biss.
Huwa jikseb prestazzjoni innovattiva ta 'ftit shots f'firxa ta' sfidi ta 'proċessar, raġunament u kodifikazzjoni tal-lingwa naturali billi timbotta l-limiti tal-iskala tal-mudell.
Ħalli Irrispondi