Et klassisk problem inden for kunstig intelligens er jagten på en maskine, der kan forstå menneskeligt sprog.
For eksempel, når du søger efter "italienske restauranter i nærheden" på din foretrukne søgemaskine, skal en algoritme analysere hvert ord i din forespørgsel og udlæse de relevante resultater. En anstændig oversættelsesapp skal forstå konteksten af et bestemt ord på engelsk og på en eller anden måde redegøre for forskellene i grammatik mellem sprog.
Alle disse opgaver og meget mere falder ind under underområdet datalogi kendt som Natural Language Processing eller NLP. Fremskridt inden for NLP har ført til en bred vifte af praktiske applikationer fra virtuelle assistenter som Amazons Alexa til spamfiltre, der registrerer ondsindet e-mail.
Det seneste gennembrud i NLP er ideen om en stor sprogmodel eller LLM. LLM'er såsom GPT-3 er blevet så kraftfulde, at de ser ud til at lykkes med næsten enhver NLP-opgave eller -brugssag.
I denne artikel vil vi se nærmere på, hvad LLM'er præcist er, hvordan disse modeller trænes, og de nuværende begrænsninger, de har.
Hvad er en stor sprogmodel?
I sin kerne er en sprogmodel simpelthen en algoritme, der ved, hvor sandsynligt en ordsekvens er en gyldig sætning.
En meget simpel sprogmodel trænet på et par hundrede bøger burde kunne fortælle, at "Han gik hjem" er mere gyldig end "Hjem gik han".
Hvis vi erstatter det relativt lille datasæt med et massivt datasæt skrabet fra internettet, begynder vi at nærme os ideen om en stor sprogmodel.
Ved brug af neurale netværk, kan forskere træne LLM'er på en stor mængde tekstdata. På grund af mængden af tekstdata, modellen har set, bliver LLM meget god til at forudsige det næste ord i en sekvens.
Modellen bliver så sofistikeret, at den kan udføre mange NLP-opgaver. Disse opgaver omfatter opsummering af tekst, skabelse af nyt indhold og endda simulering af menneskelignende samtaler.
For eksempel er den meget populære GPT-3 sprogmodel trænet med over 175 milliarder parametre og anses for at være den hidtil mest avancerede sprogmodel.
Det er i stand til at generere arbejdskode, skrive hele artikler og kan tage et skud på at besvare spørgsmål om ethvert emne.
Hvordan trænes LLM'er?
Vi har kort berørt det faktum, at LLM'er skylder en stor del af deres magt til størrelsen af deres træningsdata. Der er en grund til, at vi trods alt kalder dem "store" sprogmodeller.
Fortræning med en Transformer Architecture
Under fortræningsfasen introduceres LLM'er til eksisterende tekstdata for at lære den generelle struktur og regler for et sprog.
I de seneste par år er LLM'er blevet fortrænet på datasæt, der dækker en betydelig del af det offentlige internet. For eksempel blev GPT-3's sprogmodel trænet på data fra Almindelig gennemgang datasæt, et korpus af webindlæg, websider og digitaliserede bøger skrabet fra over 50 millioner domæner.
Det massive datasæt føres derefter ind i en model kendt som en transformer. Transformere er en type dybt neuralt netværk der fungerer bedst til sekventielle data.
Transformere bruger en encoder-decoder arkitektur til håndtering af input og output. Grundlæggende indeholder transformeren to neurale netværk: en koder og en dekoder. Indkoderen kan udtrække betydningen af inputteksten og gemme den som en vektor. Dekoderen modtager derefter vektoren og producerer dens fortolkning af teksten.
Nøglekonceptet, der gjorde det muligt for transformatorarkitekturen at fungere så godt, er tilføjelsen af en selvopmærksomhedsmekanisme. Begrebet selvopmærksomhed gjorde det muligt for modellen at være opmærksom på de vigtigste ord i en given sætning. Mekanismen overvejer endda vægten mellem ord, der er langt fra hinanden sekventielt.
En anden fordel ved selvopmærksomhed er, at processen kan paralleliseres. I stedet for at behandle sekventielle data i rækkefølge, kan transformatormodeller behandle alle input på én gang. Dette gør det muligt for transformatorer at træne på enorme mængder data relativt hurtigt sammenlignet med andre metoder.
Finjustering
Efter fortræningsfasen kan du vælge at introducere ny tekst til basis LLM at træne på. Vi kalder denne proces finjustering og bruges ofte til yderligere at forbedre outputtet af LLM på en specifik opgave.
For eksempel vil du måske bruge en LLM til at generere indhold til din Twitter-konto. Vi kan give modellen flere eksempler på dine tidligere tweets for at give den en idé om det ønskede output.
Der er et par forskellige typer finjustering.
Få-skudt læring refererer til processen med at give en model et lille antal eksempler med forventning om, at sprogmodellen vil finde ud af, hvordan man laver lignende output. One-shot læring er en lignende proces, bortset fra at der kun er givet et enkelt eksempel.
Begrænsninger af store sprogmodeller
LLM'er såsom GPT-3 er i stand til at udføre et stort antal use cases selv uden finjustering. Disse modeller kommer dog stadig med deres egne begrænsninger.
Mangel på en semantisk forståelse af verden
På overfladen ser LLM'er ud til at vise intelligens. Disse modeller fungerer dog ikke på samme måde menneskelige hjerne gør. LLM'er er udelukkende afhængige af statistiske beregninger for at generere output. De har ikke kapacitet til at ræsonnere ideer og koncepter på egen hånd.
På grund af dette kan en LLM give meningsløse svar, simpelthen fordi ordene virker "rigtige" eller "statistisk sandsynlige", når de placeres i den pågældende rækkefølge.
Hallucinationer
Modeller som GPT-3 lider også af unøjagtige svar. LLM'er kan lide af et fænomen kendt som hallucination hvor modeller udsender et faktuelt forkert svar uden nogen bevidsthed om, at svaret ikke har grundlag i virkeligheden.
For eksempel kan en bruger bede modellen om at forklare Steve Jobs' tanker om den nyeste iPhone. Modellen kan generere et citat fra tynd luft baseret på dens træningsdata.
Fordomme og begrænset viden
Som mange andre algoritmer er store sprogmodeller tilbøjelige til at arve de skævheder, der er til stede i træningsdataene. Efterhånden som vi begynder at stole mere på LLM'er for at hente information, bør udviklerne af disse modeller finde måder at afbøde de potentielt skadelige virkninger af partiske svar.
I en lignende egenskab vil blindpletterne i modellens træningsdata også hindre selve modellen. I øjeblikket tager store sprogmodeller måneder at træne. Disse modeller er også afhængige af datasæt, der er begrænset i omfang. Dette er grunden til, at ChatGPT kun har begrænset viden om begivenheder, der fandt sted efter 2021.
Konklusion
Store sprogmodeller har potentialet til virkelig at ændre, hvordan vi interagerer med teknologi og vores verden generelt.
Den store mængde data, der er tilgængelig på internettet, har givet forskere en måde at modellere sprogets kompleksitet. Men undervejs synes disse sprogmodeller at have opfanget en menneskelignende forståelse af verden, som den er.
Efterhånden som offentligheden begynder at stole på, at disse sprogmodeller giver nøjagtigt output, er forskere og udviklere allerede ved at finde måder at tilføje autoværn, så teknologien forbliver etisk.
Hvad tror du er fremtiden for LLM'er?
Giv en kommentar