Vi är sannolikt bara i början av en ny generativ AI-revolution.
Generativ artificiell intelligens avser algoritmer och modeller som kan skapa innehåll. Utdata från sådana modeller inkluderar text, ljud och bilder som ofta kan misstas som verklig mänsklig produktion.
Program som ChatGPT har visat att generativ AI inte bara är en nyhet. AI kan nu följa detaljerade instruktioner och verkar ha en djup förståelse för hur världen fungerar.
Men hur kom vi till denna punkt? I den här guiden kommer vi att gå igenom några av de viktigaste genombrotten inom AI-forskning som har banat väg för denna nya och spännande generativa AI-revolution.
Uppkomsten av neurala nätverk
Du kan spåra ursprunget till modern AI till forskningen om djupinlärning och neurala nätverk i 2012.
Det året kunde Alex Krizhevsky och hans team från University of Toronto uppnå en mycket exakt algoritm som kan klassificera objekt.
Smakämnen det senaste neurala nätverket, nu känd som AlexNet, kunde klassificera objekt i ImageNets visuella databas med en mycket lägre felfrekvens än tvåan.
Neurala nätverk är algoritmer som använder ett nätverk av matematiska funktioner för att lära sig ett visst beteende baserat på vissa träningsdata. Till exempel kan du mata ett neuralt nätverk medicinska data för att träna modellen för att diagnostisera en sjukdom som cancer.
Förhoppningen är att det neurala nätverket långsamt hittar mönster i data och blir mer exakt när de ges nya data.
AlexNet var en banbrytande tillämpning av en convolutional neuralt nätverk eller CNN. Nyckelordet "convolutional" hänvisar till tillägget av faltningslager som lägger större vikt vid data som ligger närmare varandra.
Medan CNN redan var en idé på 1980-talet, började de bli populära först i början av 2010-talet när den senaste GPU-tekniken drev tekniken till nya höjder.
CNNs framgång inom området dator vision ledde till ett större intresse för forskning om neurala nätverk.
Teknikjättar som Google och Facebook bestämde sig för att släppa sina egna AI-ramverk för allmänheten. API:er på hög nivå som t.ex Keras gav användarna ett användarvänligt gränssnitt för att experimentera med djupa neurala nätverk.
CNN var bra på bildigenkänning och videoanalys men hade problem när det gäller att lösa språkbaserade problem. Denna begränsning i naturlig språkbehandling kan finnas för att hur bilder och text faktiskt är fundamentalt olika problem.
Om du till exempel har en modell som klassificerar om en bild innehåller ett trafikljus kan det aktuella trafikljuset dyka upp var som helst i bilden. Men den här typen av mildhet fungerar inte bra i språket. Meningen "Bob åt fisk" och "Fisk åt Bob" har väldigt olika betydelser trots att de använder samma ord.
Det hade blivit tydligt att forskare behövde hitta ett nytt tillvägagångssätt för att lösa problem som rör mänskligt språk.
Transformatorer förändrar allt
I 2017, en uppsats med titeln "Attention Is All You Need" föreslog en ny typ av nätverk: Transformer.
Medan CNN fungerar genom att upprepade gånger filtrera små delar av en bild, kopplar transformatorer samman varje element i datan med alla andra element. Forskare kallar denna process "självuppmärksamhet".
När man försöker analysera meningar fungerar CNN:er och transformatorer väldigt olika. Medan en CNN kommer att fokusera på att skapa kopplingar med ord som är nära varandra, kommer en transformator att skapa kopplingar mellan varje ord i en mening.
Självuppmärksamhetsprocessen är en integrerad del av att förstå mänskligt språk. Genom att zooma ut och titta på hur hela meningen hänger ihop kan maskiner få en tydligare förståelse för meningens struktur.
När de första transformatormodellerna släpptes använde forskare snart den nya arkitekturen för att dra fördel av den otroliga mängd textdata som finns på internet.
GPT-3 och Internet
2020, OpenAI's GPT-3 modellen visade hur effektiva transformatorer kan vara. GPT-3 kunde mata ut text som verkar nästan omöjlig att skilja från en människa. En del av det som gjorde GPT-3 så kraftfull var mängden träningsdata som användes. Det mesta av modellens förträningsdatauppsättning kommer från en datauppsättning känd som Common Crawl som kommer med över 400 miljarder tokens.
Medan GPT-3:s förmåga att generera realistisk mänsklig text var banbrytande på egen hand, upptäckte forskare hur samma modell kan lösa andra uppgifter.
Till exempel kan samma GPT-3-modell som du kan använda för att generera en tweet också hjälpa dig att sammanfatta text, skriva om ett stycke och avsluta en berättelse. Språkmodeller har blivit så kraftfulla att de nu i huvudsak är generella verktyg som följer alla typer av kommandon.
GPT-3:s allmänna syfte har möjliggjort tillämpningar som t.ex GitHub Copilot, som tillåter programmerare att generera arbetskod från vanlig engelska.
Diffusionsmodeller: Från text till bilder
De framsteg som gjorts med transformatorer och NLP har också banat väg för generativ AI inom andra områden.
Inom datorseendet har vi redan täckt hur djupinlärning gjorde det möjligt för maskiner att förstå bilder. Men vi behövde fortfarande hitta ett sätt för AI att generera bilder själva istället för att bara klassificera dem.
Generativa bildmodeller som DALL-E 2, Stable Diffusion och Midjourney har blivit populära på grund av hur de kan konvertera textinmatning till bilder.
Dessa bildmodeller förlitar sig på två nyckelaspekter: en modell som förstår förhållandet mellan bilder och text och en modell som faktiskt kan skapa en högupplöst bild som matchar inputen.
OpenAI s KLÄMMA (Contrastive Language–Image Pre-training) är en modell med öppen källkod som syftar till att lösa den första aspekten. Givet en bild kan CLIP-modellen förutsäga den mest relevanta textbeskrivningen för just den bilden.
CLIP-modellen fungerar genom att lära sig hur man extraherar viktiga bildegenskaper och skapar en enklare representation av en bild.
När användare tillhandahåller ett exempel på textinmatning till DALL-E 2, omvandlas inmatningen till en "bildinbäddning" med hjälp av CLIP-modellen. Målet är nu att hitta ett sätt att skapa en bild som matchar den genererade bildinbäddningen.
De senaste generativa bild-AI:erna använder en diffusionsmodell att ta sig an uppgiften att faktiskt skapa en bild. Diffusionsmodeller förlitar sig på neurala nätverk som var förutbildade för att veta hur man tar bort extra brus från bilder.
Under denna träningsprocess kan det neurala nätverket så småningom lära sig hur man skapar en högupplöst bild från en slumpmässig brusbild. Eftersom vi redan har en kartläggning av text och bilder som tillhandahålls av CLIP kan vi träna en diffusionsmodell på CLIP-bildinbäddningar för att skapa en process för att generera vilken bild som helst.
Generativ AI-revolution: Vad kommer härnäst?
Vi är nu vid en punkt där genombrott inom generativ AI sker varannan dag. I och med att det blir enklare och lättare att generera olika typer av media med hjälp av AI, borde vi vara oroliga för hur detta kan påverka vårt samhälle?
Medan oron för maskiner som ersätter arbetare alltid har varit i diskussionen sedan ångmaskinens uppfinning, verkar det som om det är lite annorlunda den här gången.
Generativ AI håller på att bli ett mångsidigt verktyg som kan störa industrier som ansågs säkra från ett AI-övertagande.
Kommer vi att behöva programmerare om AI kan börja skriva felfri kod från några grundläggande instruktioner? Kommer folk att anställa annonsmaterial om de bara kan använda en generativ modell för att producera den produktion de vill ha för billigare?
Det är svårt att förutsäga framtiden för den generativa AI-revolutionen. Men nu när den figurativa Pandoras ask har öppnats hoppas jag att tekniken kommer att möjliggöra fler spännande innovationer som kan ge en positiv inverkan på världen.
Kommentera uppropet