Ang dagkong mga neural network nga nabansay alang sa pag-ila ug henerasyon sa pinulongan nagpakita ug talagsaong mga resulta sa lain-laing buluhaton sa bag-ohay nga katuigan. Gipamatud-an sa GPT-3 nga ang dagkong mga modelo sa lengguwahe (LLMs) mahimong magamit alang sa pipila ka shot nga pagkat-on ug makakuha og maayo nga mga resulta nga wala magkinahanglan og daghang datos nga piho sa buluhaton o pagbag-o sa mga parameter sa modelo.
Ang Google, ang Silicon Valley tech behemoth, nagpaila sa PaLM, o Pathways Language Model, sa tibuok kalibutan nga industriya sa tech isip sunod nga henerasyon nga AI-language model. Ang Google adunay usa ka bag-o artipisyal nga intelligence nga arkitektura ngadto sa PaLM nga adunay estratehikong tumong sa pagpalambo sa kalidad sa AI-language nga modelo.
Sa kini nga post, susihon namon sa detalye ang algorithm sa Palm, lakip ang mga parameter nga gigamit sa pagbansay niini, ang isyu nga nasulbad niini, ug daghan pa.
Unsa ang PaLM algorithm sa Google?
Ang Pathways Language Model mao ang unsa Palad nagbarog alang sa. Kini usa ka bag-ong algorithm nga gihimo sa Google aron mapalig-on ang arkitektura sa Pathways AI. Ang panguna nga katuyoan sa istruktura mao ang paghimo sa usa ka milyon nga lahi nga mga kalihokan sa usa ka higayon.
Naglakip kini sa tanan gikan sa pag-decipher sa komplikado nga datos hangtod sa deductive nga pangatarungan. Ang PaLM adunay katakus sa paglabaw sa kasamtangang AI state-of-the-art ingon man sa mga tawo sa mga buluhaton sa pinulongan ug pangatarungan.
Naglakip kini sa Few-Shot Learning, nga nagsundog kon giunsa pagkat-on sa mga tawo ang bag-ong mga butang ug paghiusa sa lainlaing mga tipik sa kahibalo aron masulbad ang bag-ong mga hagit nga wala pa makita kaniadto, nga adunay kaayohan sa usa ka makina nga magamit ang tanan nga kahibalo niini aron masulbad ang mga bag-ong hagit; usa ka pananglitan niini nga kahanas sa PaLM mao ang abilidad niini sa pagpatin-aw sa usa ka komedya nga wala pa niya madungog sukad.
Gipakita sa PaLM ang daghang mga kahanas sa pag-uswag sa lainlain nga mahagiton nga mga buluhaton, lakip ang pagsabut sa lengguwahe ug paghimo, mga kalihokan nga may kalabotan sa multistep aritmetika nga code, pangatarungan nga sentido komon, paghubad, ug daghan pa.
Gipakita niini ang abilidad sa pagsulbad sa mga komplikadong isyu gamit ang mga multilinggwal nga NLP set. Ang PaLM mahimong magamit sa tibuuk kalibutan nga merkado sa teknolohiya aron magkalainlain ang hinungdan ug epekto, mga kombinasyon sa konsepto, lahi nga mga dula, ug daghang uban pang mga butang.
Makahimo usab kini og lawom nga pagpatin-aw alang sa daghang konteksto gamit ang multistep logical inference, deep language, global knowledge, ug uban pang mga teknik.
Giunsa paghimo sa Google ang algorithm sa PaLM?
Para sa kalamposan sa Google nga pasundayag sa PaLM, ang mga agianan gieskedyul nga mosaka hangtod sa 540 bilyon nga mga parameter. Giila kini isip usa ka modelo nga episyente ug epektibo nga maka-generalize sa daghang mga dominyo. Ang Pathways sa Google gipahinungod sa pagpalambo sa distributed computing para sa mga accelerators.
Ang PaLM usa ka decoder-only transformer model nga nabansay gamit ang Pathways system. Malampuson nga nakab-ot sa PaLM ang state-of-the-art nga few-shot performance sa daghang mga workloads, sumala sa Google. Gigamit sa PaLM ang sistema sa Pathways aron mapalapad ang pagbansay ngadto sa pinakadako nga TPU-based system configuration, nailhan nga 6144 chips sa unang higayon.
Ang usa ka set sa pagbansay alang sa modelo sa AI-language gilangkuban sa usa ka pagsagol sa English ug uban pang mga database nga multilinggwal. Uban sa "wala'y pagkawala" nga bokabularyo, kini adunay taas nga kalidad nga sulud sa web, mga diskusyon, mga libro, GitHub code, Wikipedia, ug daghan pa. Ang walay pagkawala nga bokabularyo giila alang sa pagpabilin sa whitespace ug pagbungkag sa mga karakter sa Unicode nga wala sa bokabularyo ngadto sa mga byte.
Ang PaLM gimugna sa Google ug Pathways nga naggamit ug standard transformer model architecture ug decoder configuration nga naglakip sa SwiGLU Activation, parallel layers, RoPE embeddings, shared input-output embeddings, multi-query attention, ug walay bias o vocabulary. Ang PaLM, sa laing bahin, andam nga maghatag usa ka lig-on nga sukaranan alang sa modelo sa AI-language sa Google ug Pathways.
Parameter nga gigamit sa pagbansay sa PaLM
Sa miaging tuig, gilusad sa Google ang Pathways, usa ka modelo nga mahimong mabansay sa pagbuhat sa libu-libo, kung dili milyon-milyon, sa mga butang-gitawag nga "sunod nga henerasyon nga arkitektura sa AI" tungod kay kini makabuntog sa mga limitasyon sa kasamtangan nga mga modelo nga gibansay sa pagbuhat sa usa ra ka butang. . Imbis nga palapdan ang mga kapabilidad sa karon nga mga modelo, ang mga bag-ong modelo kanunay nga gitukod gikan sa ilawom pataas aron matuman ang usa ka trabaho.
Ingon usa ka sangputanan, nakamugna sila napulo ka libo nga mga modelo alang sa napulo ka libo nga lainlaing mga kalihokan. Kini usa ka makagugol sa panahon ug kusog sa kapanguhaan nga buluhaton.
Gipamatud-an sa Google pinaagi sa Pathways nga ang usa ka modelo makahimo sa pagdumala sa lain-laing mga kalihokan ug pagdani ug paghiusa sa kasamtangang mga talento aron makakat-on sa bag-ong mga buluhaton nga mas paspas ug episyente.
Ang mga multimodal nga modelo nga naglakip sa panan-aw, pagsabot sa pinulongan, ug pagproseso sa auditory tanan sa samang higayon mahimong magamit pinaagi sa mga agianan. Ang Pathways Language Model (PaLM) nagtugot sa pagbansay sa usa ka modelo sa daghang TPU v4 Pods salamat sa 540 bilyon nga parameter nga modelo niini.
Ang PaLM, usa ka dasok nga decoder-only Transformer nga modelo, milabaw sa state-of-the-art nga few-shot performance sa lain-laing mga workloads. Ang PaLM gibansay sa duha ka TPU v4 Pods nga gisumpay pinaagi sa data center network (DCN).
Gipahimuslan niini ang parehas nga modelo ug paralelismo sa datos. Ang mga tigdukiduki migamit ug 3072 TPU v4 nga mga processor sa matag Pod para sa PaLM, nga konektado sa 768 ka mga host. Sumala sa mga tigdukiduki, kini ang pinakadako nga pag-configure sa TPU nga gibutyag, nga gitugotan sila sa pag-scale sa pagbansay nga wala gigamit ang parallelism sa pipeline.
Ang pipe lining mao ang proseso sa pagtigom sa mga instruksiyon gikan sa CPU pinaagi sa pipeline sa kinatibuk-an. Ang mga lut-od sa modelo gibahin ngadto sa mga hugna nga mahimong maproseso sa parallel pinaagi sa pipeline model parallelism (o pipeline parallelism).
Ang panumduman sa pagpaaktibo ipadala sa sunod nga lakang kung ang usa ka yugto makompleto ang forward pass para sa usa ka micro-batch. Ang mga gradients dayon ipadala sa likod kung ang sunod nga yugto makompleto ang paatras nga pagpadaghan niini.
Mga Kapabilidad sa PaLM Breakthrough
Gipakita sa PaLM ang mga abilidad sa pagbungkag sa yuta sa lainlaing mga lisud nga buluhaton. Ania ang pipila ka mga pananglitan:
1. Pagmugna ug pagsabot sa pinulongan
Gisulayan ang PaLM sa 29 ka lainlaing buluhaton sa NLP sa English.
Sa pipila ka shot nga basehan, ang PaLM 540B milabaw sa nangaging dagkong mga modelo sama sa GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, ug LaMDA sa 28 sa 29 ka buluhaton, lakip na ang open-domain closed-book variant nga mga buluhaton sa pagtubag sa pangutana , cloze ug sentence-completion nga mga buluhaton, Winograd-style nga mga buluhaton, in-context reading comprehension tasks, commonsense reasoning tasks, SuperGLUE nga mga buluhaton, ug natural nga inference.
Sa ubay-ubay nga BIG-bench nga mga buluhaton, ang PaLM nagpakita sa maayo kaayo nga natural nga paghubad sa pinulongan ug mga kahanas sa henerasyon. Pananglitan, ang modelo mahimong makaila tali sa hinungdan ug epekto, makasabut sa konsepto nga kombinasyon sa pipila ka mga sitwasyon, ug bisan sa pagtag-an sa salida gikan sa usa ka emoji. Bisan kung 22% lang sa training corpus dili English, ang PaLM maayo nga nahimo sa multilinggwal nga NLP benchmark, lakip ang paghubad, dugang sa English NLP nga mga buluhaton.
2. Nangatarungan
Gisagol sa PaLM ang gidak-on sa modelo nga adunay chain-of-thought nga pag-aghat aron ipakita ang mga kahanas sa pag-uswag sa mga hagit sa pagpangatarungan nga nanginahanglan daghang mga lakang nga aritmetika o commonsense nga pangatarungan.
Ang mga nangaging LLM, sama sa Gopher, wala kaayo nakabenepisyo sa gidak-on sa modelo sa mga termino sa pagpaayo sa pasundayag. Ang PaLM 540B nga adunay chain-of-thought prompting maayo kaayo sa tulo ka arithmetic ug duha ka commonsense thinking datasets.
Ang PaLM milabaw sa miaging labing maayo nga marka nga 55%, nga nakuha pinaagi sa pag-ayo sa GPT-3 175B nga modelo nga adunay usa ka set sa pagbansay sa 7500 nga mga problema ug gihiusa kini sa usa ka eksternal nga calculator ug verifier aron masulbad ang 58 porsyento sa mga isyu sa GSM8K, usa ka benchmark sa liboan ka lisud nga mga pangutana sa matematika sa lebel sa grade school gamit ang 8-shot nga pag-aghat.
Kini nga bag-ong marka labi ka hinungdanon tungod kay kini nagkaduol sa 60% nga average sa mga babag nga nasinati sa 9-12-anyos nga mga bata. Mahimo usab kini nga motubag sa orihinal nga mga komedya nga wala magamit sa internet.
3. Pagmugna sa Kodigo
Ang mga LLM gipakita usab nga maayo ang pagbuhat sa mga buluhaton sa coding, lakip ang paghimo og code gikan sa natural nga paghulagway sa lengguwahe (text-to-code), paghubad sa code taliwala sa mga lengguwahe, ug pagsulbad sa mga sayup sa pag-compile. Bisan pa nga adunay 5% lamang nga code sa pre-training dataset, ang PaLM 540B maayo nga nahimo sa coding ug natural nga mga buluhaton sa pinulongan sa usa ka modelo.
Talagsaon ang pasundayag sa pipila ka shot niini, tungod kay nahiuyon kini sa maayo nga gipunting nga Codex 12B samtang nagbansay nga adunay 50 ka beses nga gamay nga code sa Python. Kini nga pagpangita nagpaluyo sa una nga mga nahibal-an nga ang mas dagkong mga modelo mahimong mas episyente nga sample kaysa gagmay nga mga modelo tungod kay mas epektibo nila nga mabalhin ang pagkat-on gikan sa daghang. mga sinultian nga programming ug yano nga datos sa pinulongan.
Panapos
Gipakita sa PaLM ang kapasidad sa Pathways system sa pag-scale ngadto sa liboan ka mga accelerator processor sa duha ka TPU v4 Pods pinaagi sa epektibong pagbansay sa 540-bilyon nga parameter nga modelo nga adunay maayo nga gitun-an, maayo nga natukod nga resipe sa usa ka dasok nga decoder-only Transformer nga modelo.
Nakab-ot niini ang kalamposan nga pasundayag sa pipila ka shot sa usa ka lainlain nga pagproseso sa natural nga sinultian, pangatarungan, ug mga hagit sa pag-coding pinaagi sa pagduso sa mga limitasyon sa sukod sa modelo.
Leave sa usa ka Reply