Ang malalaking neural network na sinanay para sa pagkilala at pagbuo ng wika ay nagpakita ng mga natatanging resulta sa iba't ibang gawain sa mga nakaraang taon. Pinatunayan ng GPT-3 na ang mga malalaking modelo ng wika (LLM) ay maaaring gamitin para sa ilang-shot na pag-aaral at makakuha ng mahusay na mga resulta nang hindi nangangailangan ng malawak na data na partikular sa gawain o pagbabago ng mga parameter ng modelo.
Ipinakilala ng Google, ang Silicon Valley tech behemoth, ang PaLM, o Pathways Language Model, sa pandaigdigang industriya ng tech bilang susunod na henerasyong modelo ng AI-language. Ang Google ay nagsama ng bago artificial intelligence arkitektura sa PaLM na may madiskarteng layunin na pahusayin ang kalidad ng modelong AI-language.
Sa post na ito, susuriin namin nang detalyado ang algorithm ng Palm, kasama ang mga parameter na ginamit upang sanayin ito, ang isyu na nalulutas nito, at marami pa.
Ano ang PaLM algorithm ng Google?
Ang Pathways Language Model ay kung ano PaLM ibig sabihin. Ito ay isang bagong algorithm na binuo ng Google upang palakasin ang arkitektura ng Pathways AI. Ang pangunahing layunin ng istraktura ay gumawa ng isang milyong natatanging aktibidad nang sabay-sabay.
Kabilang dito ang lahat mula sa pag-decipher ng kumplikadong data hanggang sa deductive na pangangatwiran. Ang PaLM ay may kakayahang malampasan ang kasalukuyang AI state-of-the-art pati na rin ang mga tao sa mga gawain sa wika at pangangatwiran.
Kabilang dito ang Few-Shot Learning, na ginagaya kung paano natututo ang mga tao ng mga bagong bagay at pinagsasama-sama ang iba't ibang piraso ng kaalaman upang harapin ang mga bagong hamon na hindi pa nakikita, sa pakinabang ng isang makina na magagamit ang lahat ng kaalaman nito upang malutas ang mga bagong hamon; isang halimbawa ng kasanayang ito sa PaLM ay ang kakayahang ipaliwanag ang isang biro na hindi pa nito narinig.
Nagpakita ang PaLM ng maraming mga pambihirang kakayahan sa iba't ibang mapaghamong gawain, kabilang ang pag-unawa at paglikha ng wika, mga aktibidad na nauugnay sa multistep na arithmetic code, pangangatwiran ng common-sense, pagsasalin, at marami pa.
Ipinakita nito ang kakayahang malutas ang mga kumplikadong isyu gamit ang mga multilinggwal na NLP set. Ang PaLM ay maaaring gamitin ng pandaigdigang tech market upang pag-iba-ibahin ang sanhi at epekto, mga kumbinasyong konsepto, natatanging laro, at marami pang iba.
Maaari rin itong bumuo ng mga malalim na paliwanag para sa maraming konteksto gamit ang multistep logical inference, malalim na wika, pandaigdigang kaalaman, at iba pang mga diskarte.
Paano binuo ng Google ang PaLM algorithm?
Para sa pambihirang pagganap ng Google sa PaLM, ang mga pathway ay naka-iskedyul na sukatin hanggang 540 bilyong mga parameter. Kinikilala ito bilang isang modelo na mahusay at epektibong makakapag-generalize sa maraming domain. Ang Pathways sa Google ay nakatuon sa pagbuo ng distributed computing para sa mga accelerators.
Ang PaLM ay isang decoder-only transformer model na sinanay gamit ang Pathways system. Matagumpay na nakamit ng PaLM ang state-of-the-art na few-shot na pagganap sa ilang mga workload, ayon sa Google. Ginamit ng PaLM ang Pathways system para palawakin ang pagsasanay sa pinakamalaking TPU-based system configuration, na kilala bilang 6144 chips sa unang pagkakataon.
Binubuo ang isang set ng pagsasanay para sa modelo ng AI-language ng isang halo ng English at iba pang mga dataset na multilinggwal. Sa isang "walang pagkawala" na bokabularyo, naglalaman ito ng mataas na kalidad na nilalaman sa web, mga talakayan, mga libro, GitHub code, Wikipedia, at marami pa. Ang walang pagkawalang bokabularyo ay kinikilala para sa pagpapanatili ng whitespace at paghiwa-hiwalay ng mga character na Unicode na wala sa bokabularyo sa mga byte.
Ang PaLM ay binuo ng Google at Pathways gamit ang isang karaniwang transformer model architecture at isang decoder configuration na kinabibilangan ng SwiGLU Activation, parallel layers, RoPE embeddings, shared input-output embeddings, multi-query attention, at walang bias o vocabulary. Ang PaLM, sa kabilang banda, ay nakahanda na magbigay ng matibay na batayan para sa modelo ng AI-language ng Google at Pathways.
Mga parameter na ginamit para sanayin ang PaLM
Noong nakaraang taon, inilunsad ng Google ang Pathways, isang solong modelo na maaaring sanayin upang gawin ang libu-libo, kung hindi milyon-milyon, ng mga bagay-tinaguriang "next-generation AI architecture" dahil malalampasan nito ang mga limitasyon ng kasalukuyang mga modelo na sanayin na gawin lamang ang isang bagay. . Sa halip na palawakin ang mga kakayahan ng kasalukuyang mga modelo, ang mga bagong modelo ay madalas na binuo mula sa ibaba pataas upang magawa ang isang solong trabaho.
Bilang resulta, nakagawa sila ng libu-libong mga modelo para sa libu-libong iba't ibang aktibidad. Ito ay isang gawaing umuubos ng oras at masinsinang mapagkukunan.
Pinatunayan ng Google sa pamamagitan ng Pathways na kayang pangasiwaan ng isang modelo ang iba't ibang aktibidad at gamitin at pagsamahin ang mga kasalukuyang talento upang matuto ng mga bagong gawain nang mas mabilis at mahusay.
Maaaring i-enable ang mga multimodal na modelo na may kasamang vision, linguistic comprehension, at auditory processing sa parehong oras sa pamamagitan ng mga pathway. Ang Pathways Language Model (PaLM) ay nagbibigay-daan para sa pagsasanay ng isang modelo sa maraming TPU v4 Pods salamat sa 540 bilyong modelo ng parameter nito.
Ang PaLM, isang siksik na decoder-only na Transformer na modelo, ay higit na gumaganap ng makabagong performance ng ilang-shot sa malawak na hanay ng mga workload. Ang PaLM ay sinasanay sa dalawang TPU v4 Pod na naka-link sa pamamagitan ng isang data center network (DCN).
Sinasamantala nito ang parehong modelo at data parallelism. Gumagamit ang mga mananaliksik ng 3072 TPU v4 na processor sa bawat Pod para sa PaLM, na konektado sa 768 host. Ayon sa mga mananaliksik, ito ang pinakamalaking pagsasaayos ng TPU na isiniwalat, na nagpapahintulot sa kanila na sukatin ang pagsasanay nang hindi gumagamit ng parallelism ng pipeline.
Ang pipe lining ay ang proseso ng pangangalap ng mga tagubilin mula sa CPU sa pamamagitan ng pipeline sa pangkalahatan. Ang mga layer ng modelo ay nahahati sa mga phase na maaaring iproseso nang magkatulad sa pamamagitan ng pipeline model parallelism (o pipeline parallelism).
Ang activation memory ay ipinadala sa susunod na hakbang kapag nakumpleto ng isang yugto ang forward pass para sa isang micro-batch. Ang mga gradient ay ipapadala sa likuran kapag ang susunod na yugto ay nakumpleto ang paatras na pagpapalaganap nito.
PaLM Breakthrough Capabilities
Ang PaLM ay nagpapakita ng mga nakakatuwang kakayahan sa isang hanay ng mahihirap na gawain. Narito ang ilang mga halimbawa:
1. Paglikha at pag-unawa sa wika
Ang PaLM ay nasubok sa 29 na iba't ibang gawain sa NLP sa Ingles.
Sa ilang-shot na batayan, nalampasan ng PaLM 540B ang mga nakaraang malalaking modelo gaya ng GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, at LaMDA sa 28 sa 29 na gawain, kabilang ang mga open-domain closed-book na variant na mga gawain sa pagsagot sa tanong , cloze at sentence-completion task, Winograd-style na mga gawain, in-context reading comprehension tasks, commonsense reasoning tasks, SuperGLUE tasks, at natural inference.
Sa ilang BIG-bench na gawain, ang PaLM ay nagpapakita ng mahusay na natural na interpretasyon ng wika at mga kasanayan sa henerasyon. Halimbawa, maaaring makilala ng modelo ang pagkakaiba sa pagitan ng sanhi at epekto, maunawaan ang mga kumbinasyong konsepto sa ilang partikular na sitwasyon, at kahit na hulaan ang pelikula mula sa isang emoji. Kahit na 22% lang ng training corpus ay hindi English, gumaganap nang maayos ang PaLM sa mga multilinggwal na NLP benchmark, kabilang ang pagsasalin, bilang karagdagan sa mga English NLP na gawain.
2. Nangangatuwiran
Pinagsasama ng PaLM ang laki ng modelo sa chain-of-thought na pag-udyok upang ipakita ang mga kasanayan sa pambihirang tagumpay sa mga hamon sa pangangatwiran na nangangailangan ng multistep na arithmetic o commonsense na pangangatwiran.
Ang mga nakaraang LLM, gaya ng Gopher, ay hindi nakinabang sa laki ng modelo sa mga tuntunin ng pagpapahusay ng pagganap. Ang PaLM 540B na may chain-of-thought prompting ay mahusay sa tatlong aritmetika at dalawang dataset ng commonsense thinking.
Nahigitan ng PaLM ang dating pinakamahusay na marka na 55%, na nakuha sa pamamagitan ng pag-fine-tune ng modelong GPT-3 175B na may set ng pagsasanay na 7500 mga problema at pagsasama nito sa isang panlabas na calculator at verifier upang malutas ang 58 porsiyento ng mga isyu sa GSM8K, isang benchmark ng libu-libong mahirap na mga tanong sa matematika sa antas ng grade school gamit ang 8-shot na pagdikta.
Ang bagong marka na ito ay lalong kapansin-pansin dahil lumalapit ito sa 60% na average ng mga hadlang na nararanasan ng mga 9-12 taong gulang. Maaari din itong tumugon sa mga orihinal na biro na hindi available sa internet.
3. Pagbuo ng Code
Ang mga LLM ay ipinakita rin na mahusay na gumaganap sa mga gawain sa coding, kabilang ang pagbuo ng code mula sa isang natural na paglalarawan ng wika (text-to-code), pagsasalin ng code sa pagitan ng mga wika, at paglutas ng mga error sa compilation. Sa kabila ng pagkakaroon lamang ng 5% na code sa pre-training dataset, mahusay na gumaganap ang PaLM 540B sa parehong coding at natural na mga gawain sa wika sa isang modelo.
Ang ilang-shot na pagganap nito ay hindi kapani-paniwala, dahil tumutugma ito sa fine-tuned na Codex 12B habang nagsasanay na may 50 beses na mas kaunting Python code. Ang paghahanap na ito ay bumalik sa mga naunang natuklasan na ang mas malalaking modelo ay maaaring maging mas mahusay na sample kaysa sa mas maliliit na modelo dahil mas mabisa nilang mailipat ang pag-aaral mula sa maramihang. programming languages at payak na data ng wika.
Konklusyon
Ipinapakita ng PaLM ang kapasidad ng Pathways system na i-scale sa libu-libong accelerator processor sa dalawang TPU v4 Pod sa pamamagitan ng epektibong pagsasanay ng 540-bilyong parameter na modelo na may mahusay na pinag-aralan, mahusay na itinatag na recipe ng isang dense decoder-only na Transformer na modelo.
Nakakamit nito ang pambihirang tagumpay ng ilang-shot na pagganap sa isang hanay ng natural na pagpoproseso ng wika, pangangatwiran, at mga hamon sa coding sa pamamagitan ng pagtulak sa mga hangganan ng sukat ng modelo.
Mag-iwan ng Sagot