Et klassisk problem innen kunstig intelligens er jakten på en maskin som kan forstå menneskelig språk.
For eksempel, når du søker etter "italienske restauranter i nærheten" på din favorittsøkemotor, må en algoritme analysere hvert ord i søket ditt og gi de relevante resultatene. En anstendig oversettelsesapp må forstå konteksten til et bestemt ord på engelsk og på en eller annen måte redegjøre for forskjellene i grammatikk mellom språk.
Alle disse oppgavene og mye mer faller inn under underfeltet informatikk kjent som Natural Language Processing eller NLP. Fremskritt innen NLP har ført til en lang rekke praktiske applikasjoner fra virtuelle assistenter som Amazons Alexa til spamfiltre som oppdager ondsinnet e-post.
Det siste gjennombruddet i NLP er ideen om en stor språkmodell eller LLM. LLM-er som GPT-3 har blitt så kraftige at de ser ut til å lykkes i nesten alle NLP-oppgaver eller brukssaker.
I denne artikkelen vil vi se nærmere på hva LLM-er er, hvordan disse modellene trenes, og de gjeldende begrensningene de har.
Hva er en stor språkmodell?
I kjernen er en språkmodell ganske enkelt en algoritme som vet hvor sannsynlig en sekvens av ord er en gyldig setning.
En veldig enkel språkmodell trent på noen hundre bøker burde kunne fortelle at "Han gikk hjem" er mer gyldig enn "Hjem gikk han".
Hvis vi erstatter det relativt lille datasettet med et massivt datasett skrapet fra internett, begynner vi å nærme oss ideen om en stor språkmodell.
Ved hjelp av nevrale nettverk, kan forskere trene LLM-er på en stor mengde tekstdata. På grunn av mengden tekstdata modellen har sett, blir LLM veldig god til å forutsi neste ord i en sekvens.
Modellen blir så sofistikert at den kan utføre mange NLP-oppgaver. Disse oppgavene inkluderer å oppsummere tekst, lage nytt innhold og til og med simulere menneskelignende samtaler.
For eksempel er den svært populære GPT-3 språkmodellen trent med over 175 milliarder parametere og regnes for å være den mest avanserte språkmodellen så langt.
Den er i stand til å generere arbeidskode, skrive hele artikler, og kan svare på spørsmål om ethvert emne.
Hvordan trenes LLMs?
Vi har kort berørt det faktum at LLM-er skylder mye av sin makt til størrelsen på treningsdataene deres. Det er en grunn til at vi tross alt kaller dem «store» språkmodeller.
Foropplæring med en transformatorarkitektur
I løpet av føropplæringsfasen introduseres LLM-er for eksisterende tekstdata for å lære den generelle strukturen og reglene til et språk.
I løpet av de siste årene har LLM-er blitt forhåndsopplært på datasett som dekker en betydelig del av det offentlige internett. For eksempel ble GPT-3s språkmodell trent på data fra Vanlig gjennomgang datasett, et korpus av webinnlegg, nettsider og digitaliserte bøker skrapet fra over 50 millioner domener.
Det massive datasettet mates deretter inn i en modell kjent som en transformator. Transformatorer er en type dype nevrale nettverk som fungerer best for sekvensielle data.
Transformatorer bruker en koder-dekoder-arkitektur for håndtering av input og output. I hovedsak inneholder transformatoren to nevrale nettverk: en koder og en dekoder. Koderen kan trekke ut betydningen av inndatateksten og lagre den som en vektor. Dekoderen mottar deretter vektoren og produserer sin tolkning av teksten.
Nøkkelkonseptet som gjorde at transformatorarkitekturen kunne fungere så bra, er imidlertid tillegget av en selvoppmerksomhet mekanisme. Konseptet med selvoppmerksomhet tillot modellen å ta hensyn til de viktigste ordene i en gitt setning. Mekanismen vurderer til og med vektene mellom ord som er langt fra hverandre sekvensielt.
En annen fordel med selvoppmerksomhet er at prosessen kan parallelliseres. I stedet for å behandle sekvensielle data i rekkefølge, kan transformatormodeller behandle alle innganger samtidig. Dette gjør at transformatorer kan trene på enorme mengder data relativt raskt sammenlignet med andre metoder.
Finjustering
Etter fortreningsstadiet kan du velge å introdusere ny tekst for base LLM å trene på. Vi kaller denne prosessen finjustering og brukes ofte til ytterligere å forbedre produksjonen av LLM på en spesifikk oppgave.
Det kan for eksempel være lurt å bruke en LLM til å generere innhold for Twitter-kontoen din. Vi kan gi modellen flere eksempler på dine tidligere tweets for å gi den en ide om ønsket utgang.
Det finnes noen forskjellige typer finjustering.
Få skuddlæring refererer til prosessen med å gi en modell et lite antall eksempler med forventning om at språkmodellen vil finne ut hvordan man lager lignende utdata. One-shot læring er en lignende prosess bortsett fra at bare ett enkelt eksempel er gitt.
Begrensninger for store språkmodeller
LLM-er som GPT-3 er i stand til å utføre et stort antall brukstilfeller selv uten finjustering. Imidlertid kommer disse modellene fortsatt med sitt eget sett med begrensninger.
Mangel på en semantisk forståelse av verden
På overflaten ser det ut til at LLM-er viser intelligens. Imidlertid fungerer ikke disse modellene på samme måte som Menneskehjerne gjør. LLM-er er utelukkende avhengige av statistiske beregninger for å generere utdata. De har ikke kapasitet til å resonnere ideer og konsepter på egenhånd.
På grunn av dette kan en LLM gi meningsløse svar ganske enkelt fordi ordene virker "riktige" eller "statistisk sannsynlige" når de plasseres i den bestemte rekkefølgen.
Hallusinasjoner
Modeller som GPT-3 lider også av unøyaktige svar. LLM-er kan lide av et fenomen kjent som hallusinasjon hvor modeller gir ut en faktisk feil respons uten noen bevissthet om at responsen ikke har grunnlag i virkeligheten.
For eksempel kan en bruker be modellen om å forklare Steve Jobs sine tanker om den nyeste iPhone. Modellen kan generere et sitat fra tynn luft basert på treningsdataene.
Fordommer og begrenset kunnskap
Som mange andre algoritmer er store språkmodeller tilbøyelige til å arve skjevhetene som finnes i treningsdataene. Etter hvert som vi begynner å stole mer på LLM-er for å hente informasjon, bør utviklerne av disse modellene finne måter å dempe de potensielt skadelige effektene av partiske svar.
I tilsvarende kapasitet vil blindflekkene til modellens treningsdata også hindre selve modellen. For tiden tar det måneder å trene store språkmodeller. Disse modellene er også avhengige av datasett som er begrenset i omfang. Dette er grunnen til at ChatGPT kun har begrenset kunnskap om hendelser som har skjedd etter 2021.
konklusjonen
Store språkmodeller har potensial til å virkelig endre hvordan vi samhandler med teknologi og verden generelt.
Den enorme mengden data som er tilgjengelig på internett har gitt forskere en måte å modellere språkets kompleksitet. Underveis ser det imidlertid ut til at disse språkmodellene har tatt opp en menneskelignende forståelse av verden slik den er.
Når publikum begynner å stole på at disse språkmodellene gir nøyaktige resultater, finner forskere og utviklere allerede måter å legge til rekkverk slik at teknologien forblir etisk.
Hva tror du er fremtiden til LLMs?
Legg igjen en kommentar