Store neurale netværk, der er blevet trænet til sproggenkendelse og -generering, har vist fremragende resultater i en række forskellige opgaver i de senere år. GPT-3 beviste, at store sprogmodeller (LLM'er) kunne bruges til få-skuds læring og opnå fremragende resultater uden at kræve omfattende opgavespecifikke data eller ændre modelparametre.
Google, Silicon Valley-teknologien, har introduceret PaLM, eller Pathways Language Model, til den verdensomspændende teknologiske industri som næste generations AI-sprogmodel. Google har indarbejdet en ny kunstig intelligens arkitektur ind i PaLM med strategiske mål at forbedre AI-sprogmodellens kvalitet.
I dette indlæg vil vi undersøge Palm-algoritmen i detaljer, herunder de parametre, der bruges til at træne den, problemet, den løser og meget mere.
Hvad er Googles PaLM-algoritme?
Pathways Language Model er hvad Håndflade står for. Dette er en ny algoritme udviklet af Google for at styrke Pathways AI-arkitekturen. Strukturens hovedmål er at udføre en million forskellige aktiviteter på én gang.
Disse omfatter alt fra dechifrering af komplekse data til deduktive ræsonnementer. PaLM har evnen til at overgå nuværende AI-state-of-the-art såvel som mennesker i sprog- og ræsonnementopgaver.
Dette inkluderer Few-Shot Learning, som efterligner, hvordan mennesker lærer nye ting og kombinerer forskellige bidder af viden for at tackle nye udfordringer, som aldrig er set før, med fordelen ved en maskine, der kan bruge al sin viden til at løse nye udfordringer; et eksempel på denne færdighed i PaLM er dens evne til at forklare en vittighed, den aldrig har hørt før.
PaLM demonstrerede mange banebrydende færdigheder på en række udfordrende opgaver, herunder sprogforståelse og -skabelse, flertrins aritmetiske kode-relaterede aktiviteter, sund fornuft ræsonnement, oversættelse og mange flere.
Det har demonstreret sin evne til at løse komplicerede problemer ved hjælp af flersprogede NLP-sæt. PaLM kan bruges af det verdensomspændende teknologimarked til at differentiere årsag og virkning, konceptuelle kombinationer, forskellige spil og mange andre ting.
Det kan også generere dybdegående forklaringer til mange sammenhænge ved hjælp af flertrins logisk inferens, dybt sprog, global viden og andre teknikker.
Hvordan udviklede Google PaLM-algoritmen?
For Googles banebrydende ydeevne i PaLM er ruter planlagt til at skalere op til 540 milliarder parametre. Det er anerkendt som den ene model, der effektivt og effektivt kan generalisere på tværs af adskillige domæner. Pathways hos Google er dedikeret til at udvikle distribueret databehandling til acceleratorer.
PaLM er en dekoder-only transformermodel, der er blevet trænet ved hjælp af Pathways-systemet. PaLM har med succes opnået state-of-the-art få-skuds ydeevne på tværs af flere arbejdsbelastninger, ifølge Google. PaLM har brugt Pathways-systemet til at udvide træningen til den største TPU-baserede systemkonfiguration, kendt som 6144-chips for første gang.
Et træningsdatasæt til AI-sprogmodellen består af en blanding af engelske og andre flersprogede datasæt. Med et "tabsfrit" ordforråd indeholder det webindhold af høj kvalitet, diskussioner, bøger, GitHub-kode, Wikipedia og mange flere. Tabsfrit ordforråd genkendes for at bevare mellemrum og opdele Unicode-tegn, der ikke er i ordforrådet, i bytes.
PaLM blev udviklet af Google og Pathways ved at bruge en standard transformermodelarkitektur og en dekoderkonfiguration, der inkluderede SwiGLU Activation, parallelle lag, RoPE-indlejringer, delte input-output-indlejringer, opmærksomhed på flere forespørgsler og ingen skævheder eller ordforråd. PaLM er på den anden side klar til at give et solidt grundlag for Google og Pathways' AI-sprogmodel.
Parametre, der bruges til at træne PaLM
Sidste år lancerede Google Pathways, en enkelt model, der kan trænes til at gøre tusindvis, hvis ikke millioner, af ting - kaldet "næste generations AI-arkitektur", da den kan overvinde eksisterende modellers begrænsninger ved at blive trænet til kun at gøre én ting . I stedet for at udvide mulighederne for nuværende modeller, bygges nye modeller ofte nedefra og op for at udføre et enkelt job.
Som et resultat har de skabt titusindvis af modeller til titusindvis af forskellige aktiviteter. Dette er en tidskrævende og ressourcekrævende opgave.
Google beviste via Pathways, at en enkelt model kunne håndtere en række aktiviteter og trække på og kombinere nuværende talenter for at lære nye opgaver hurtigere og mere effektivt.
Multimodale modeller, der inkluderer syn, sproglig forståelse og auditiv behandling på samme tid, kan aktiveres gennem veje. Pathways Language Model (PaLM) giver mulighed for træning af en enkelt model på tværs af adskillige TPU v4 Pods takket være dens 540 milliarder parametermodel.
PaLM, en transformermodel, der kun er tæt på dekoder, overgår den avancerede få-skuds ydeevne på tværs af en lang række arbejdsbelastninger. PaLM trænes på to TPU v4 Pods, der er forbundet via et datacenternetværk (DCN).
Det udnytter både model- og dataparallelisme. Forskerne brugte 3072 TPU v4-processorer i hver Pod for PaLM, som var forbundet til 768 værter. Ifølge forskerne er dette den største TPU-konfiguration, der endnu er afsløret, hvilket giver dem mulighed for at skalere træning uden at bruge pipeline-parallelisme.
Rørforing er processen med at indsamle instruktioner fra CPU'en gennem en rørledning generelt. Modellens lag er opdelt i faser, der kan bearbejdes parallelt via pipeline model parallelisme (eller pipeline parallelisme).
Aktiveringshukommelsen sendes til næste trin, når et trin fuldfører den fremadrettede passage for en mikrobatch. Gradienterne sendes derefter bagud, når det følgende trin fuldfører sin udbredelse bagud.
PaLM gennembrudsegenskaber
PaLM viser banebrydende evner i en række vanskelige opgaver. Her er flere eksempler:
1. Sprogskabelse og -forståelse
PaLM blev sat på prøve på 29 forskellige NLP-opgaver på engelsk.
PaLM 540B overgik tidligere store modeller som GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla og LaMDA på 28 ud af 29 opgaver, inklusive åben-domæne, lukket bogvariant til besvarelse af spørgsmål , cloze- og sætningsfuldførelsesopgaver, Winograd-lignende opgaver, læseforståelsesopgaver i kontekst, commonsense-ræsonnementopgaver, SuperGLUE-opgaver og naturlig inferens.
På adskillige BIG-bænk opgaver demonstrerer PaLM fremragende natursprogsfortolkning og genereringsevner. For eksempel kan modellen skelne mellem årsag og virkning, forstå konceptuelle kombinationer i bestemte situationer og endda gætte filmen ud fra en emoji. Selvom kun 22 % af uddannelseskorpuset er ikke-engelsk, klarer PaLM sig godt på flersprogede NLP-benchmarks, herunder oversættelse, ud over engelske NLP-opgaver.
2. Ræsonnement
PaLM blander modelstørrelse med tankekæde-anmodninger for at demonstrere banebrydende færdigheder i ræsonnementudfordringer, der kræver aritmetik i flere trin eller sund fornuft.
Tidligere LLM'er, såsom Gopher, havde mindre fordel af modelstørrelsen med hensyn til at forbedre ydeevnen. PaLM 540B med tankekæden klarede sig godt på tre aritmetiske og to commonsense-tankesæt.
PaLM overgår den tidligere bedste score på 55 %, som blev opnået ved at finjustere GPT-3 175B-modellen med et træningssæt på 7500 problemer og kombinere det med en ekstern lommeregner og verifikator for at løse 58 procent af problemerne i GSM8K, en benchmark af tusindvis af svære matematikspørgsmål på grundskoleniveau ved hjælp af 8-skuds prompting.
Denne nye score er især bemærkelsesværdig, da den nærmer sig gennemsnittet på 60 % af forhindringer, som 9-12-årige oplever. Den kan også reagere på originale vittigheder, der ikke er tilgængelige på internettet.
3. Kodegenerering
LLM'er har også vist sig at fungere godt i kodningsopgaver, herunder generering af kode fra en naturlig sprogbeskrivelse (tekst-til-kode), oversættelse af kode mellem sprog og løsning af kompileringsfejl. På trods af kun at have 5 % kode i før-træningsdatasættet, klarer PaLM 540B sig godt på både kodnings- og naturlige sprogopgaver i en enkelt model.
Dens få-skuds ydeevne er utrolig, da den matcher den finjusterede Codex 12B, mens den træner med 50 gange mindre Python-kode. Denne konstatering understøtter tidligere resultater om, at større modeller kan være mere stikprøveeffektive end mindre modeller, fordi de mere effektivt kan overføre læring fra flere programmeringssprog og almindelige sprogdata.
Konklusion
PaLM viser Pathways-systemets kapacitet til at skalere til tusindvis af acceleratorprocessorer over to TPU v4 Pods ved effektivt at træne en 540-milliarder parametermodel med en velundersøgt, veletableret opskrift på en tæt dekoder-only transformatormodel.
Det opnår banebrydende få-skuds ydeevne på tværs af en række naturlige sprogbehandlings-, ræsonnement- og kodningsudfordringer ved at skubbe grænserne for modelskalaen.
Giv en kommentar