Vi er sandsynligvis lige ved starten af en ny generativ AI-revolution.
Generativ kunstig intelligens refererer til algoritmer og modeller, der er i stand til at skabe indhold. Outputtet af sådanne modeller inkluderer tekst, lyd og billeder, der ofte kan forveksles med ægte menneskeligt output.
Applikationer som f.eks ChatGPT har vist, at generativ AI ikke blot er en nyhed. AI er nu i stand til at følge detaljerede instruktioner og ser ud til at have en dyb forståelse af, hvordan verden fungerer.
Men hvordan kom vi til dette punkt? I denne guide vil vi gennemgå nogle af de vigtigste gennembrud inden for AI-forskning, der har banet vejen for denne nye og spændende generative AI-revolution.
Fremkomsten af neurale netværk
Du kan spore oprindelsen af moderne kunstig intelligens til forskningen vedr dyb læring og neurale netværk i 2012.
I det år var Alex Krizhevsky og hans team fra University of Toronto i stand til at opnå en meget nøjagtig algoritme, der kan klassificere objekter.
state-of-the-art neurale netværk, nu kendt som AlexNet, var i stand til at klassificere objekter i ImageNet visuelle database med en meget lavere fejlrate end nummer to.
Neurale netværk er algoritmer, der bruger et netværk af matematiske funktioner til at lære en bestemt adfærd baseret på nogle træningsdata. For eksempel kan du fodre et neuralt netværk med medicinske data for at træne modellen til at diagnosticere en sygdom som kræft.
Håbet er, at det neurale netværk langsomt finder mønstre i dataene og bliver mere nøjagtige, når de får nye data.
AlexNet var en banebrydende applikation af en indviklet neuralt netværk eller CNN'er. Nøgleordet "convolutional" refererer til tilføjelsen af foldede lag, som lægger mere vægt på data, der er tættere på hinanden.
Mens CNN'er allerede var en idé i 1980'erne, begyndte de først at vinde popularitet i begyndelsen af 2010'erne, da den nyeste GPU-teknologi skubbede teknologien til nye højder.
CNNs succes inden for computersyn førte til mere interesse for forskning i neurale netværk.
Tekniske giganter som Google og Facebook besluttede at frigive deres egne AI-rammer til offentligheden. API'er på højt niveau som f.eks Keras gav brugerne en brugervenlig grænseflade til at eksperimentere med dybe neurale netværk.
CNN'ere var gode til billedgenkendelse og videoanalyse, men havde problemer, når det kommer til at løse sprogbaserede problemer. Denne begrænsning i naturlig sprogbehandling kan eksistere, fordi hvordan billeder og tekst faktisk er fundamentalt forskellige problemer.
Hvis du for eksempel har en model, der klassificerer, om et billede indeholder et trafiklys, kan det pågældende lyskryds optræde hvor som helst på billedet. Men denne form for mildhed fungerer ikke godt i sproget. Sætningen "Bob spiste fisk" og "Fisk spiste Bob" har vidt forskellige betydninger på trods af, at de bruger de samme ord.
Det var blevet klart, at forskerne skulle finde en ny tilgang til at løse problemer, der involverer menneskeligt sprog.
Transformere ændrer alt
I 2017, a forskningsartikel med titlen "Attention Is All You Need" foreslog en ny type netværk: Transformeren.
Mens CNN'er arbejder ved gentagne gange at filtrere små dele af et billede, forbinder transformatorer hvert element i dataene med hvert andet element. Forskere kalder denne proces "selvopmærksomhed".
Når man prøver at analysere sætninger, fungerer CNN'er og transformere meget forskelligt. Mens en CNN vil fokusere på at danne forbindelser med ord, der er tæt på hinanden, vil en transformator skabe forbindelser mellem hvert eneste ord i en sætning.
Selvopmærksomhedsprocessen er en integreret del af forståelsen af det menneskelige sprog. Ved at zoome ud og se på, hvordan hele sætningen hænger sammen, kan maskiner få en klarere forståelse af sætningens opbygning.
Da de første transformermodeller blev frigivet, brugte forskere snart den nye arkitektur til at udnytte den utrolige mængde tekstdata, der findes på internettet.
GPT-3 og internettet
I 2020, OpenAI's GPT-3 modellen viste, hvor effektive transformere kan være. GPT-3 var i stand til at udskrive tekst, der næsten ikke kan skelnes fra et menneske. En del af det, der gjorde GPT-3 så kraftfuld, var mængden af brugte træningsdata. Det meste af modellens præ-træningsdatasæt kommer fra et datasæt kendt som Common Crawl, som kommer med over 400 milliarder tokens.
Mens GPT-3's evne til at generere realistisk menneskelig tekst var banebrydende i sig selv, opdagede forskere, hvordan den samme model kan løse andre opgaver.
For eksempel kan den samme GPT-3-model, som du kan bruge til at generere et tweet, også hjælpe dig med at opsummere tekst, omskrive et afsnit og afslutte en historie. Sprogmodeller er blevet så kraftfulde, at de nu i det væsentlige er redskaber til generelle formål, der følger enhver form for kommando.
GPT-3's generelle karakter har givet mulighed for applikationer som f.eks GitHub Copilot, som gør det muligt for programmører at generere arbejdskode fra almindeligt engelsk.
Diffusionsmodeller: Fra tekst til billeder
Fremskridtene med transformere og NLP har også banet vejen for generativ AI på andre områder.
Inden for computersyn har vi allerede dækket, hvordan dyb læring gjorde det muligt for maskiner at forstå billeder. Men vi havde stadig brug for at finde en måde, hvorpå AI kunne generere billeder selv i stedet for blot at klassificere dem.
Generative billedmodeller som DALL-E 2, Stable Diffusion og Midjourney er blevet populære på grund af, hvordan de er i stand til at konvertere tekstinput til billeder.
Disse billedmodeller er afhængige af to nøgleaspekter: en model, der forstår forholdet mellem billeder og tekst, og en model, der faktisk kan skabe et high-definition billede, der matcher inputtet.
OpenAI'er CLIP (Contrastive Language–Image Pre-training) er en open source-model, der har til formål at løse det første aspekt. Givet et billede kan CLIP-modellen forudsige den mest relevante tekstbeskrivelse for det pågældende billede.
CLIP-modellen fungerer ved at lære at udtrække vigtige billedfunktioner og skabe en enklere repræsentation af et billede.
Når brugere giver et eksempel på tekstinput til DALL-E 2, konverteres inputtet til en "billedindlejring" ved hjælp af CLIP-modellen. Målet er nu at finde en måde at generere et billede, der matcher den genererede billedindlejring.
De seneste generative billed-AI'er bruger en diffusionsmodel at tackle opgaven med faktisk at skabe et billede. Diffusionsmodeller er afhængige af neurale netværk, der var foruddannet til at vide, hvordan man fjerner tilføjet støj fra billeder.
I løbet af denne træningsproces kan det neurale netværk til sidst lære at skabe et billede i høj opløsning ud fra et tilfældigt støjbillede. Da vi allerede har en kortlægning af tekst og billeder leveret af CLIP, kan vi træne en diffusionsmodel på CLIP-billedindlejringer for at skabe en proces til at generere ethvert billede.
Generativ AI-revolution: Hvad kommer dernæst?
Vi er nu på et punkt, hvor gennembrud inden for generativ AI sker hvert par dage. Med det bliver nemmere og nemmere at generere forskellige typer medier ved hjælp af AI, skal vi så være bekymrede for, hvordan dette kan påvirke vores samfund?
Mens bekymringerne for maskiner, der erstatter arbejdere, altid har været i samtalen siden opfindelsen af dampmaskinen, ser det ud til, at det er lidt anderledes denne gang.
Generativ AI er ved at blive et multifunktionelt værktøj, der kan forstyrre industrier, der blev anset for at være sikre fra en AI-overtagelse.
Får vi brug for programmører, hvis AI kan begynde at skrive fejlfri kode fra nogle få grundlæggende instruktioner? Vil folk ansætte reklamer, hvis de bare kan bruge en generativ model til at producere det output, de ønsker, billigere?
Det er svært at forudsige fremtiden for den generative AI-revolution. Men nu hvor den figurative Pandoras æske er blevet åbnet, håber jeg, at teknologien vil give mulighed for flere spændende innovationer, der kan give en positiv indflydelse på verden.
Giv en kommentar