Ett klassiskt problem inom artificiell intelligens är jakten på en maskin som kan förstå mänskligt språk.
Till exempel, när du söker efter "italienska restauranger i närheten" på din favoritsökmotor, måste en algoritm analysera varje ord i din fråga och mata ut relevanta resultat. En anständig översättningsapp måste förstå sammanhanget för ett visst ord på engelska och på något sätt ta hänsyn till skillnaderna i grammatik mellan språk.
Alla dessa uppgifter och mycket mer faller under det underområde av datavetenskap som kallas Naturlig språkbehandling eller NLP. Framsteg inom NLP har lett till ett brett utbud av praktiska tillämpningar från virtuella assistenter som Amazons Alexa till spamfilter som upptäcker skadlig e-post.
Det senaste genombrottet inom NLP är idén om en stor språkmodell eller LLM. LLM:er som GPT-3 har blivit så kraftfulla att de verkar lyckas med nästan alla NLP-uppgifter eller användningsfall.
I den här artikeln kommer vi att undersöka exakt vad LLM är, hur dessa modeller tränas och de nuvarande begränsningarna de har.
Vad är en stor språkmodell?
I sin kärna är en språkmodell helt enkelt en algoritm som vet hur sannolikt en sekvens av ord är en giltig mening.
En mycket enkel språkmodell tränad på några hundra böcker borde kunna säga att "Han gick hem" är mer giltig än "Hem gick han".
Om vi ersätter den relativt lilla datamängden med en massiv dataset skrapad från internet, börjar vi närma oss idén om en stor språkmodell.
Använda neurala nätverk, kan forskare träna LLM på en stor mängd textdata. På grund av mängden textdata som modellen har sett, blir LLM mycket bra på att förutsäga nästa ord i en sekvens.
Modellen blir så sofistikerad att den kan utföra många NLP-uppgifter. Dessa uppgifter inkluderar att sammanfatta text, skapa nytt innehåll och till och med simulera mänskliga konversationer.
Till exempel är den mycket populära språkmodellen GPT-3 tränad med över 175 miljarder parametrar och anses vara den mest avancerade språkmodellen hittills.
Den kan generera arbetskod, skriva hela artiklar och kan svara på frågor om vilket ämne som helst.
Hur utbildas LLMs?
Vi har kort berört det faktum att LLM:er har mycket av sin makt till storleken på deras träningsdata. Det finns en anledning till att vi trots allt kallar dem "stora" språkmodeller.
Förträning med en transformatorarkitektur
Under förutbildningsstadiet introduceras LLMs till befintlig textdata för att lära sig den allmänna strukturen och reglerna för ett språk.
Under de senaste åren har LLM:er förutbildats på datamängder som täcker en betydande del av det offentliga internet. Till exempel tränades GPT-3:s språkmodell på data från Vanlig genomsökning dataset, en samling webbinlägg, webbsidor och digitaliserade böcker från över 50 miljoner domäner.
Den massiva datamängden matas sedan in i en modell som kallas en transformator. Transformatorer är en typ av djupt neuralt nätverk som fungerar bäst för sekventiell data.
Transformatorer använder en encoder-decoder-arkitektur för hantering av input och output. I huvudsak innehåller transformatorn två neurala nätverk: en kodare och en avkodare. Kodaren kan extrahera betydelsen av den inmatade texten och lagra den som en vektor. Avkodaren tar sedan emot vektorn och producerar dess tolkning av texten.
Men nyckelkonceptet som gjorde att transformatorarkitekturen kunde fungera så bra är tillägget av en självuppmärksamhetsmekanism. Begreppet självuppmärksamhet gjorde det möjligt för modellen att uppmärksamma de viktigaste orden i en given mening. Mekanismen tar till och med hänsyn till vikterna mellan ord som är långt ifrån varandra sekventiellt.
En annan fördel med självuppmärksamhet är att processen kan parallelliseras. Istället för att bearbeta sekventiell data i ordning, kan transformatormodeller bearbeta alla ingångar på en gång. Detta gör att transformatorer kan träna på enorma mängder data relativt snabbt jämfört med andra metoder.
Finjustering
Efter förträningsstadiet kan du välja att introducera ny text för bas LLM att träna på. Vi kallar denna process finjustering och används ofta för att ytterligare förbättra resultatet av LLM på en specifik uppgift.
Du kanske till exempel vill använda en LLM för att skapa innehåll för ditt Twitter-konto. Vi kan förse modellen med flera exempel på dina tidigare tweets för att ge den en uppfattning om önskat resultat.
Det finns några olika typer av finjustering.
Få-shot lärande hänvisar till processen att ge en modell ett litet antal exempel med förväntningen att språkmodellen kommer att ta reda på hur man gör liknande utdata. One-shot lärande är en liknande process förutom att endast ett enda exempel ges.
Stora språkmodellers begränsningar
LLMs som GPT-3 kan utföra ett stort antal användningsfall även utan finjustering. Men dessa modeller har fortfarande sina egna begränsningar.
Brist på en semantisk förståelse av världen
På ytan verkar LLM:er visa intelligens. Dessa modeller fungerar dock inte på samma sätt som mänsklig hjärna gör. LLM:er förlitar sig enbart på statistiska beräkningar för att generera utdata. De har inte kapacitet att resonera fram idéer och koncept på egen hand.
På grund av detta kan en LLM mata ut meningslösa svar helt enkelt för att orden verkar "rätta" eller "statistiskt troliga" när de placeras i just den ordningen.
Hallucinationer
Modeller som GPT-3 lider också av felaktiga svar. LLM kan drabbas av ett fenomen som kallas hallucinationer där modeller avger ett faktiskt felaktigt svar utan någon medvetenhet om att svaret inte har någon grund i verkligheten.
En användare kan till exempel be modellen att förklara Steve Jobs tankar om den senaste iPhone. Modellen kan generera ett citat från luften baserat på dess träningsdata.
Fördomar och begränsad kunskap
Liksom många andra algoritmer är stora språkmodeller benägna att ärva de fördomar som finns i träningsdatan. När vi börjar lita mer på LLM:er för att hämta information, bör utvecklarna av dessa modeller hitta sätt att mildra de potentiellt skadliga effekterna av partiska svar.
I en liknande egenskap kommer blindfläckarna i modellens träningsdata också att hindra själva modellen. För närvarande tar stora språkmodeller månader att träna. Dessa modeller förlitar sig också på datauppsättningar som är begränsade i omfattning. Det är därför ChatGPT endast har begränsad kunskap om händelser som inträffade efter 2021.
Slutsats
Stora språkmodeller har potential att verkligen förändra hur vi interagerar med teknik och vår värld i allmänhet.
Den stora mängden data som finns tillgänglig på internet har gett forskare ett sätt att modellera språkets komplexitet. Men på vägen verkar dessa språkmodeller ha fått till sig en människoliknande förståelse av världen som den är.
När allmänheten börjar lita på att dessa språkmodeller ger korrekta resultat, hittar forskare och utvecklare redan sätt att lägga till skyddsräcken så att tekniken förblir etisk.
Vad tror du är framtiden för LLM?
Kommentera uppropet