Innholdsfortegnelse[Gjemme seg][Forestilling]
Vi er sannsynligvis bare i starten av en ny generativ AI-revolusjon.
Generativ kunstig intelligens refererer til algoritmer og modeller som er i stand til å lage innhold. Utdataene fra slike modeller inkluderer tekst, lyd og bilder som ofte kan forveksles med ekte menneskelig utgang.
Programmer som ChatGPT har vist at generativ AI ikke bare er en nyhet. AI er nå i stand til å følge detaljerte instruksjoner og ser ut til å ha en dyp forståelse av hvordan verden fungerer.
Men hvordan kom vi til dette punktet? I denne guiden vil vi gå gjennom noen av de viktigste gjennombruddene innen AI-forskning som har banet vei for denne nye og spennende generative AI-revolusjonen.
Fremveksten av nevrale nettverk
Du kan spore opprinnelsen til moderne AI til forskningen på dyp læring og nevrale nettverk i 2012.
Det året var Alex Krizhevsky og teamet hans fra University of Toronto i stand til å oppnå en svært nøyaktig algoritme som kan klassifisere objekter.
De state-of-the-art nevrale nettverk, nå kjent som AlexNet, var i stand til å klassifisere objekter i ImageNet visuelle database med en mye lavere feilrate enn nummer to.
Nevrale nettverk er algoritmer som bruker et nettverk av matematiske funksjoner for å lære en bestemt atferd basert på noen treningsdata. For eksempel kan du mate et nevralt nettverk medisinske data for å trene modellen til å diagnostisere en sykdom som kreft.
Håpet er at det nevrale nettverket sakte finner mønstre i dataene og blir mer nøyaktige når de får nye data.
AlexNet var en banebrytende applikasjon av en convolutional nevralt nettverk eller CNN-er. Nøkkelordet "convolutional" refererer til tillegg av konvolusjonslag som legger mer vekt på data som er nærmere hverandre.
Mens CNN allerede var en idé på 1980-tallet, begynte de først å få popularitet på begynnelsen av 2010-tallet da den nyeste GPU-teknologien presset teknologien til nye høyder.
Suksessen til CNNs innen datasyn førte til mer interesse for forskning på nevrale nettverk.
Tekniske giganter som Google og Facebook bestemte seg for å gi ut sine egne AI-rammeverk til publikum. APIer på høyt nivå som f.eks Keras ga brukerne et brukervennlig grensesnitt for å eksperimentere med dype nevrale nettverk.
CNN-er var gode på bildegjenkjenning og videoanalyse, men hadde problemer når det gjelder å løse språkbaserte problemer. Denne begrensningen i naturlig språkbehandling kan eksistere fordi hvordan bilder og tekst faktisk er fundamentalt forskjellige problemer.
Hvis du for eksempel har en modell som klassifiserer om et bilde inneholder et trafikklys, kan det aktuelle trafikklyset vises hvor som helst i bildet. Imidlertid fungerer ikke denne typen mildhet godt i språket. Setningen "Bob spiste fisk" og "Fisk spiste Bob" har vidt forskjellige betydninger til tross for at de bruker de samme ordene.
Det hadde blitt klart at forskerne måtte finne en ny tilnærming for å løse problemer som involverer menneskelig språk.
Transformatorer forandrer alt
I 2017, a forskning papir med tittelen "Attention Is All You Need" foreslo en ny type nettverk: Transformeren.
Mens CNN-er fungerer ved å gjentatte ganger filtrere små deler av et bilde, kobler transformatorer hvert element i dataene med hvert annet element. Forskere kaller denne prosessen "selvoppmerksomhet".
Når du prøver å analysere setninger, fungerer CNN-er og transformatorer veldig forskjellig. Mens en CNN vil fokusere på å danne forbindelser med ord som er i nærheten av hverandre, vil en transformator skape forbindelser mellom hvert eneste ord i en setning.
Selvoppmerksomhetsprosessen er en integrert del av forståelsen av menneskelig språk. Ved å zoome ut og se på hvordan hele setningen henger sammen, kan maskiner få en klarere forståelse av setningens struktur.
Når de første transformatormodellene ble utgitt, brukte forskere snart den nye arkitekturen for å dra nytte av den utrolige mengden tekstdata som finnes på internett.
GPT-3 og Internett
I 2020, OpenAI's GPT-3 modellen viste hvor effektive transformatorer kan være. GPT-3 var i stand til å skrive ut tekst som virker nesten umulig å skille fra et menneske. Noe av det som gjorde GPT-3 så kraftig var mengden treningsdata som ble brukt. Mesteparten av modellens forhåndstreningsdatasett kommer fra et datasett kjent som Common Crawl som kommer med over 400 milliarder tokens.
Mens GPT-3s evne til å generere realistisk menneskelig tekst var banebrytende i seg selv, oppdaget forskere hvordan den samme modellen kan løse andre oppgaver.
For eksempel kan den samme GPT-3-modellen som du kan bruke til å generere en tweet også hjelpe deg med å oppsummere tekst, skrive om et avsnitt og fullføre en historie. Språkmodeller har blitt så kraftige at de nå i hovedsak er generelle verktøy som følger enhver type kommando.
GPT-3s generelle formål har tillatt applikasjoner som f.eks GitHub Copilot, som lar programmerere generere arbeidskode fra vanlig engelsk.
Diffusjonsmodeller: Fra tekst til bilder
Fremgangen med transformatorer og NLP har også banet vei for generativ AI på andre felt.
I datasynets rike har vi allerede dekket hvordan dyp læring tillot maskiner å forstå bilder. Imidlertid trengte vi fortsatt å finne en måte for AI å generere bilder selv i stedet for bare å klassifisere dem.
Generative bildemodeller som DALL-E 2, Stable Diffusion og Midjourney har blitt populære på grunn av hvordan de er i stand til å konvertere tekstinndata til bilder.
Disse bildemodellene er avhengige av to nøkkelaspekter: en modell som forstår forholdet mellom bilder og tekst og en modell som faktisk kan lage et høyoppløselig bilde som matcher input.
OpenAI CLIP (Contrastive Language–Image Pre-training) er en åpen kildekode-modell som tar sikte på å løse det første aspektet. Gitt et bilde, kan CLIP-modellen forutsi den mest relevante tekstbeskrivelsen for det aktuelle bildet.
CLIP-modellen fungerer ved å lære å trekke ut viktige bildefunksjoner og lage en enklere representasjon av et bilde.
Når brukere gir et eksempel på tekstinndata til DALL-E 2, konverteres inndataene til en "bildeinnbygging" ved hjelp av CLIP-modellen. Målet nå er å finne en måte å generere et bilde som samsvarer med den genererte bildeinnbyggingen.
De siste generative bilde-AI-ene bruker en diffusjonsmodell å takle oppgaven med å faktisk lage et bilde. Diffusjonsmodeller er avhengige av nevrale nettverk som var forhåndsopplært til å vite hvordan man fjerner ekstra støy fra bilder.
I løpet av denne treningsprosessen kan det nevrale nettverket til slutt lære å lage et høyoppløselig bilde fra et tilfeldig støybilde. Siden vi allerede har en kartlegging av tekst og bilder levert av CLIP, kan vi trene en diffusjonsmodell på CLIP-bildeinnbygginger for å lage en prosess for å generere et hvilket som helst bilde.
Generativ AI-revolusjon: Hva kommer neste?
Vi er nå på et punkt hvor gjennombrudd innen generativ AI skjer annenhver dag. Ettersom det blir enklere og enklere å generere ulike typer medier ved hjelp av AI, bør vi være bekymret for hvordan dette kan påvirke samfunnet vårt?
Mens bekymringene for maskiner som erstatter arbeidere alltid har vært i samtalen siden oppfinnelsen av dampmaskinen, ser det ut til at det er litt annerledes denne gangen.
Generativ AI er i ferd med å bli et flerbruksverktøy som kan forstyrre bransjer som ble ansett som sikre fra en AI-overtakelse.
Vil vi trenge programmerere hvis AI kan begynne å skrive feilfri kode fra noen få grunnleggende instruksjoner? Vil folk ansette reklamer hvis de bare kan bruke en generativ modell for å produsere produksjonen de ønsker billigere?
Det er vanskelig å forutsi fremtiden til den generative AI-revolusjonen. Men nå som den figurative Pandoras esken er åpnet, håper jeg at teknologien vil gi rom for flere spennende innovasjoner som kan gi en positiv innvirkning på verden.
Legg igjen en kommentar