Store nevrale nettverk som har blitt trent for språkgjenkjenning og generering har vist fremragende resultater i en rekke oppgaver de siste årene. GPT-3 beviste at store språkmodeller (LLM) kunne brukes for få-skuddslæring og oppnå utmerkede resultater uten å kreve omfattende oppgavespesifikke data eller endre modellparametere.
Google, Silicon Valley tech-behemoth, har introdusert PaLM, eller Pathways Language Model, til den verdensomspennende teknologiindustrien som neste generasjons AI-språkmodell. Google har innlemmet en ny kunstig intelligens arkitektur inn i PaLM med strategiske mål å forbedre kvaliteten på AI-språkmodellen.
I dette innlegget vil vi undersøke Palm-algoritmen i detalj, inkludert parameterne som brukes til å trene den, problemet den løser og mye mer.
Hva er Googles PaLM-algoritme?
Pathways Language Model er hva PALM står for. Dette er en ny algoritme utviklet av Google for å styrke Pathways AI-arkitekturen. Strukturens hovedmål er å gjøre en million forskjellige aktiviteter på en gang.
Disse inkluderer alt fra dechiffrering av komplekse data til deduktive resonnementer. PaLM har evnen til å overgå dagens AI-state-of-the-art så vel som mennesker i språk- og resonneringsoppgaver.
Dette inkluderer Few-Shot Learning, som etterligner hvordan mennesker lærer nye ting og kombinerer ulike biter av kunnskap for å takle nye utfordringer som aldri har vært sett før, med fordelen av en maskin som kan bruke all sin kunnskap til å løse nye utfordringer; et eksempel på denne ferdigheten i PaLM er dens evne til å forklare en vits den aldri har hørt før.
PaLM demonstrerte mange banebrytende ferdigheter på en rekke utfordrende oppgaver, inkludert språkforståelse og -skaping, flertrinns aritmetiske koderelaterte aktiviteter, sunn fornuft, oversettelse og mange flere.
Den har vist sin evne til å løse kompliserte problemer ved å bruke flerspråklige NLP-sett. PaLM kan brukes av det verdensomspennende teknologimarkedet for å skille årsak og virkning, konseptuelle kombinasjoner, distinkte spill og mange andre ting.
Den kan også generere dyptgående forklaringer for mange sammenhenger ved å bruke flertrinns logisk slutning, dypt språk, global kunnskap og andre teknikker.
Hvordan utviklet Google PaLM-algoritmen?
For Googles banebrytende ytelse i PaLM er ruter planlagt å skalere opp til 540 milliarder parametere. Den er anerkjent som den ene modellen som effektivt og effektivt kan generalisere på tvers av en rekke domener. Pathways hos Google er dedikert til å utvikle distribuert databehandling for akseleratorer.
PaLM er en dekoder-bare transformatormodell som har blitt trent opp ved hjelp av Pathways-systemet. PaLM har oppnådd toppmoderne få-skudd-ytelse på tvers av flere arbeidsbelastninger, ifølge Google. PaLM har brukt Pathways-systemet til å utvide opplæringen til den største TPU-baserte systemkonfigurasjonen, kjent som 6144-brikker for første gang.
Et opplæringsdatasett for AI-språkmodellen består av en blanding av engelske og andre flerspråklige datasett. Med et "tapfritt" vokabular inneholder den høykvalitets nettinnhold, diskusjoner, bøker, GitHub-kode, Wikipedia og mange flere. Tapsfritt vokabular gjenkjennes for å beholde mellomrom og bryte Unicode-tegn som ikke er i vokabularet i byte.
PaLM ble utviklet av Google og Pathways ved å bruke en standard transformatormodellarkitektur og en dekoderkonfigurasjon som inkluderte SwiGLU-aktivering, parallelle lag, RoPE-innbygginger, delte input-output-innbygginger, oppmerksomhet med flere spørringer og ingen skjevheter eller ordforråd. PaLM, på den annen side, er klar til å gi et solid grunnlag for Google og Pathways AI-språkmodell.
Parametere som brukes til å trene PaLM
I fjor lanserte Google Pathways, en enkelt modell som kan trenes til å gjøre tusenvis, om ikke millioner, av ting – kalt «neste generasjons AI-arkitektur» siden den kan overvinne eksisterende modellers begrensninger med å bli trent til å gjøre bare én ting . I stedet for å utvide mulighetene til nåværende modeller, bygges nye modeller ofte fra bunnen og opp for å utføre en enkelt jobb.
Som et resultat har de laget titusenvis av modeller for titusenvis av forskjellige aktiviteter. Dette er en tidkrevende og ressurskrevende oppgave.
Google beviste via Pathways at én enkelt modell kunne håndtere en rekke aktiviteter og trekke på og kombinere nåværende talenter for å lære nye oppgaver raskere og mer effektivt.
Multimodale modeller som inkluderer syn, språklig forståelse og auditiv prosessering på samme tid kan aktiveres gjennom veier. Pathways Language Model (PaLM) gir mulighet for opplæring av en enkelt modell på tvers av en rekke TPU v4 Pods takket være dens 540 milliarder parametermodell.
PaLM, en transformatormodell med kun tett dekoder, overgår den nyeste ytelsen med få skudd på tvers av et bredt spekter av arbeidsbelastninger. PaLM trenes på to TPU v4 Pods som er koblet sammen via et datasenternettverk (DCN).
Den utnytter både modell- og dataparallellisme. Forskerne brukte 3072 TPU v4-prosessorer i hver Pod for PaLM, som var koblet til 768 verter. I følge forskerne er dette den største TPU-konfigurasjonen som hittil er avslørt, og lar dem skalere trening uten å bruke pipeline-parallellisme.
Rørforing er prosessen med å samle instruksjoner fra CPU gjennom en rørledning generelt. Lagene i modellen er delt inn i faser som kan behandles parallelt via pipeline modell parallellisme (eller pipeline parallellisme).
Aktiveringsminnet sendes til neste trinn når ett trinn fullfører foroverpasseringen for en mikrobatch. Gradientene sendes deretter bakover når neste trinn fullfører sin forplantning bakover.
PaLM banebrytende evner
PaLM viser banebrytende evner i en rekke vanskelige oppgaver. Her er flere eksempler:
1. Språkskaping og -forståelse
PaLM ble satt på prøve på 29 forskjellige NLP-oppgaver på engelsk.
På et fåtallsbasis overgikk PaLM 540B tidligere store modeller som GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla og LaMDA på 28 av 29 oppgaver, inkludert svaroppgaver med åpen domene med lukket bokvariant , cloze og setningsfullføringsoppgaver, Winograd-stiloppgaver, leseforståelsesoppgaver i kontekst, sunne resonnementoppgaver, SuperGLUE-oppgaver og naturlig slutning.
På flere BIG-benk-oppgaver demonstrerer PaLM utmerket naturlig språktolkning og generasjonsferdigheter. For eksempel kan modellen skille mellom årsak og virkning, forstå konseptuelle kombinasjoner i visse situasjoner, og til og med gjette filmen fra en emoji. Selv om bare 22 % av opplæringskorpuset er ikke-engelsk, presterer PaLM godt på flerspråklige NLP-benchmarks, inkludert oversettelse, i tillegg til engelske NLP-oppgaver.
2. Resonnement
PaLM blander modellstørrelse med tankekjede-påstander for å demonstrere banebrytende ferdigheter på resonneringsutfordringer som krever flertrinns aritmetikk eller sunn fornuft.
Tidligere LLM-er, som Gopher, hadde mindre nytte av modellstørrelsen når det gjelder å forbedre ytelsen. PaLM 540B med tankekjede-tilskyndelse klarte seg godt på tre aritmetiske og to datasett for sunn fornuft.
PaLM overgår den forrige beste poengsummen på 55 %, som ble oppnådd ved å finjustere GPT-3 175B-modellen med et treningssett med 7500 problemer og kombinere den med en ekstern kalkulator og verifikator for å løse 58 prosent av problemene i GSM8K, en benchmark av tusenvis av vanskelige matematikkspørsmål på grunnskolenivå ved hjelp av 8-skudds spørring.
Denne nye poengsummen er spesielt bemerkelsesverdig siden den nærmer seg gjennomsnittet på 60 % av hindringer som oppleves av 9-12-åringer. Den kan også svare på originale vitser som ikke er tilgjengelige på internett.
3. Kodegenerering
LLM-er har også vist seg å fungere godt i kodeoppgaver, inkludert å generere kode fra en naturlig språkbeskrivelse (tekst-til-kode), oversette kode mellom språk og løse kompileringsfeil. Til tross for at PaLM 5B bare har 540 % kode i datasettet før trening, yter PaLM XNUMXB godt både på kodingsoppgaver og naturlige språkoppgaver i en enkelt modell.
Ytelsen med få skudd er utrolig, siden den matcher den finjusterte Codex 12B mens du trener med 50 ganger mindre Python-kode. Dette funnet støtter tidligere funn om at større modeller kan være mer utvalgseffektive enn mindre modeller fordi de mer effektivt kan overføre læring fra flere programmerings språk og klarspråksdata.
konklusjonen
PaLM viser Pathways-systemets kapasitet til å skalere til tusenvis av akseleratorprosessorer over to TPU v4 Pods ved å effektivt trene en 540-milliarder parametermodell med en godt studert, veletablert oppskrift på en tett dekoder-bare transformatormodell.
Den oppnår banebrytende få-shot-ytelse på tvers av en rekke naturlig språkbehandlings-, resonnement- og kodingsutfordringer ved å flytte grensene for modellskalaen.
Legg igjen en kommentar