Under de senaste åren har djupinlärningsmodeller blivit mer effektiva för att förstå mänskligt språk.
Tänk på projekt som GPT-3, som nu kan skapa hela artiklar och webbplatser. GitHub har nyligen introducerats GitHub Copilot, en tjänst som tillhandahåller hela kodavsnitt genom att helt enkelt beskriva vilken typ av kod du behöver.
Forskare vid OpenAI, Facebook och Google har arbetat på sätt att använda djupinlärning för att hantera en annan uppgift: bildtextning. Genom att använda en stor datamängd med miljontals poster har de kommit fram till några förvånande resultat.
På senare tid har dessa forskare försökt utföra den motsatta uppgiften: att skapa bilder från en bildtext. Är det nu möjligt att skapa en helt ny bild av en beskrivning?
Den här guiden kommer att utforska två av de mest avancerade text-till-bild-modellerna: OpenAIs DALL-E 2 och Googles Imagen AI. Vart och ett av dessa projekt har introducerat banbrytande metoder som kan förändra samhället som vi känner det.
Men först, låt oss förstå vad vi menar med text-till-bild-generering.
Vad är text-till-bild-generering?
Text-till-bild-modeller tillåter datorer att skapa nya och unika bilder baserat på uppmaningar. Människor kan nu ge en textbeskrivning av en bild de vill producera, och modellen kommer att försöka skapa en bild som matchar den beskrivningen så nära som möjligt.
Maskininlärningsmodeller har utnyttjat användningen av stora datamängder som innehåller bildtextpar för att ytterligare förbättra prestandan.
Mest text-till-bild modeller använder en transformatorspråkmodell att tolka uppmaningar. Denna typ av modell är en neurala nätverk som försöker lära sig det naturliga språkets sammanhang och semantiska betydelse.
Därefter generativa modeller som t.ex diffusionsmodeller och generativa kontradiktoriska nätverk används för bildsyntes.
Vad är DALLE 2?
DALL-E2 är en datormodell av OpenAI som släpptes i april 2022. Modellen tränades i en databas med miljontals märkta bilder för att associera ord och fraser till bilder.
Användare kan skriva en enkel fras, som "en katt som äter lasagne", och DALL-E 2 kommer att generera sin egen tolkning av vad frasen försöker beskriva.
Förutom att skapa bilder från grunden kan DALL-E 2 även redigera befintliga bilder. I exemplet nedan kunde DALL-E generera en modifierad bild av ett rum med en extra soffa.
DALL-E 2 är bara ett av många liknande projekt som OpenAI har släppt under de senaste åren. OpenAI:s GPT-3 blev nyhetsvärd när den verkade generera text av olika stilar.
För närvarande är DALL-E 2 fortfarande i betatestning. Intresserade användare kan registrera sig för deras väntelista och vänta på tillgång.
Hur fungerar det?
Även om resultaten av DALL-E 2 är imponerande, kanske du undrar hur det hela fungerar.
DALL-E 2 är ett exempel på en multimodal implementering av OpenAI:s GPT-3-projekt.
Först placeras användarens textprompt i en textkodare som mappar prompten till ett representationsutrymme. DALL-E 2 använder en annan OpenAI-modell som heter CLIP (Contrastive Language-Image Pre-Training) för att få semantisk information från naturligt språk.
Därefter en modell känd som innan mappar textkodningen till en bildkodning. Denna bildkodning bör fånga den semantiska informationen som finns i textkodningssteget.
För att skapa den faktiska bilden använder DALL-E 2 en bildavkodare för att generera en visualisering med hjälp av semantisk information och bildkodningsdetaljer. OpenAI använder en modifierad version av GLIDA modell för att utföra bildgenerering. GLIDE förlitar sig på en diffusionsmodell att skapa bilder.
Tillägget av GLIDE till DALL-E 2-modellen möjliggjorde mer fotorealistisk utskrift. Eftersom GLIDE-modellen är stokastisk eller slumpmässigt bestämd kan DALL-E 2-modellen enkelt skapa variationer genom att köra modellen om och om igen.
Begränsningar
Trots de imponerande resultaten av DALL-E 2-modellen har den fortfarande vissa begränsningar.
Stavningstext
Uppmaningar som försöker få DALL-E 2 att generera text avslöjar att den har svårt att stava ord. Experter antar att detta kan bero på att stavningsinformation inte är en del av utbildningsdataset.
Kompositionsresonemang
Forskare observerar att DALL-E 2 fortfarande har vissa svårigheter med kompositionsresonemang. Enkelt uttryckt kan modellen förstå enskilda aspekter av en bild samtidigt som den har problem med att räkna ut sambanden mellan dessa aspekter.
Om till exempel prompten "röd kub ovanpå en blå kub" ges, kommer DALL-E att generera en blå kub och en röd kub korrekt men misslyckas med att placera dem korrekt. Modellen har också observerats ha svårt med uppmaningar som kräver att ett visst antal objekt dras ut.
Bias i datasetet
Om uppmaningen inte innehåller några andra detaljer, har DALL-E observerats föreställa vita eller västerländska människor och miljöer. Denna representationsbias uppstår på grund av överflödet av västerländska bilder i datasetet.
Modellen har också observerats följa könsstereotyper. Om du till exempel skriver in prompten "flygvärdinna" genereras oftast bilder av kvinnliga flygvärdinnor.
Vad är Google Imagen AI?
Googles Bild AI är en modell som syftar till att skapa fotorealistiska bilder från inmatad text. I likhet med DALL-E använder modellen också transformatorspråkmodeller för att förstå texten och förlitar sig på användningen av diffusionsmodeller för att skapa bilder av hög kvalitet.
Vid sidan av Imagen har Google även släppt ett riktmärke för text-till-bild-modeller som heter DrawBench. Med DrawBench kunde de observera att mänskliga bedömare föredrog Imagen-utdata framför andra modeller inklusive DALL-E 2.
Hur fungerar det?
I likhet med DALL-E konverterar Imagen först användarprompten till en textinbäddning genom en frusen textkodare.
Imagen använder en diffusionsmodell som lär sig hur man omvandlar ett brusmönster till bilder. Den initiala utmatningen av dessa bilder är lågupplösta och skickas senare genom en annan modell som kallas en superupplösningsdiffusionsmodell för att öka upplösningen på den slutliga bilden. Den första diffusionsmodellen ger en bild på 64×64 pixlar och blåses senare upp till en högupplöst bild på 1024×1024.
Baserat på Imagen-teamets forskning är stora frysta språkmodeller som endast tränas på textdata fortfarande mycket effektiva textkodare för text-till-bild-generering.
Studien introducerar också begreppet dynamisk tröskel. Denna metod gör det möjligt för bilder att se mer fotorealistiska ut genom att öka vägledningsvikterna när bilden genereras.
Prestanda av DALLE 2 vs Imagen
Preliminära resultat från Googles benchmark visar att mänskliga respondenter föredrar bilder genererade av Imagen framför DALL-E 2 och andra text-till-bild-modeller som Latent Diffusion och VQGAN+CLIP.
Utdata från Imagen-teamet har också visat att deras modell presterar bättre på att stava text, en känd svaghet hos DALL-E 2-modellen.
Men eftersom Google ännu inte har släppt modellen till allmänheten återstår det fortfarande att se hur exakta Googles riktmärken är.
Slutsats
Framväxten av fotorealistiska text-till-bild-modeller är kontroversiell eftersom dessa modeller är mogna för oetisk användning.
Tekniken kan leda till skapandet av explicit innehåll eller som ett verktyg för desinformation. Forskare från både Google och OpenAI är medvetna om detta, vilket delvis är anledningen till att dessa teknologier fortfarande inte är tillgängliga för alla.
Text-till-bild-modeller har också betydande ekonomiska konsekvenser. Kommer yrken som modeller, fotografer och konstnärer att påverkas om modeller som DALL-E blir mainstream?
För närvarande har dessa modeller fortfarande begränsningar. Att hålla en AI-genererad bild för granskning kommer att avslöja dess brister. Med både OpenAI och Google som konkurrerar om de mest effektiva modellerna kan det vara en tidsfråga innan en verkligt perfekt utdata genereras: en bild som inte går att skilja från den verkliga varan.
Vad tror du kommer att hända när tekniken går så långt?
Kommentera uppropet