I de senere år er dybdelæringsmodeller blevet mere effektive til at forstå menneskeligt sprog.
Tænk på projekter som GPT-3, som nu er i stand til at oprette hele artikler og hjemmesider. GitHub har for nylig introduceret GitHub Copilot, en tjeneste, der leverer hele kodestykker ved blot at beskrive den type kode, du har brug for.
Forskere ved OpenAI, Facebook og Google har arbejdet på måder at bruge dyb læring til at håndtere en anden opgave: billedtekster. Ved at bruge et stort datasæt med millioner af poster har de fundet nogle overraskende resultater.
På det seneste har disse forskere forsøgt at udføre den modsatte opgave: at skabe billeder ud fra en billedtekst. Er det nu muligt at skabe et helt nyt billede ud af en beskrivelse?
Denne guide vil udforske to af de mest avancerede tekst-til-billede-modeller: OpenAIs DALL-E 2 og Googles Imagen AI. Hvert af disse projekter har introduceret banebrydende metoder, der kan ændre samfundet, som vi kender det.
Men lad os først forstå, hvad vi mener med tekst-til-billede generering.
Hvad er tekst-til-billede generering?
Tekst-til-billede modeller tillade computere at skabe nye og unikke billeder baseret på prompter. Folk kan nu give en tekstbeskrivelse af et billede, de ønsker at producere, og modellen vil forsøge at skabe en visualisering, der matcher denne beskrivelse så tæt som muligt.
Maskinlæringsmodeller har udnyttet brugen af store datasæt, der indeholder billedtekstpar til yderligere at forbedre ydeevnen.
Mest tekst-til-billede modeller bruger en transformersprogmodel at fortolke opfordringer. Denne type model er en neurale netværk der forsøger at lære konteksten og den semantiske betydning af naturligt sprog.
Dernæst generative modeller som f.eks diffusionsmodeller og generative kontradiktoriske netværk bruges til billedsyntese.
Hvad er DALLE 2?
DALL-E2 er en computermodel af OpenAI, der blev udgivet i april 2022. Modellen blev trænet på en database med millioner af mærkede billeder til at knytte ord og sætninger til billeder.
Brugere kan skrive en simpel sætning, såsom "en kat, der spiser lasagne", og DALL-E 2 vil generere sin egen fortolkning af, hvad sætningen forsøger at beskrive.
Udover at skabe billeder fra bunden, kan DALL-E 2 også redigere eksisterende billeder. I eksemplet nedenfor var DALL-E i stand til at generere et modificeret billede af et værelse med en ekstra sofa.
DALL-E 2 er blot et af mange lignende projekter, som OpenAI har udgivet i de sidste par år. OpenAI's GPT-3 blev nyhedsværdig, da den så ud til at generere tekst i forskellige stilarter.
I øjeblikket er DALL-E 2 stadig i beta-testning. Interesserede brugere kan tilmelde sig deres venteliste og vent på adgang.
Hvordan fungerer det?
Selvom resultaterne af DALL-E 2 er imponerende, undrer du dig måske over, hvordan det hele fungerer.
DALL-E 2 er et eksempel på en multimodal implementering af OpenAI's GPT-3 projekt.
Først placeres brugerens tekstprompt i en tekstkoder, der kortlægger prompten til et repræsentationsrum. DALL-E 2 bruger en anden OpenAI-model kaldet CLIP (Contrastive Language-Image Pre-Training) til at opnå semantisk information fra naturligt sprog.
Dernæst en model kendt som forudgående kortlægger tekstkodningen til en billedkodning. Denne billedkodning skal fange den semantiske information, der findes i tekstkodningstrinnet.
For at skabe det faktiske billede bruger DALL-E 2 en billeddekoder til at generere en visualisering ved hjælp af semantisk information og billedkodningsdetaljer. OpenAI bruger en modificeret version af SVÆVE model til at udføre billedgenerering. GLIDE er afhængig af en diffusionsmodel at skabe billeder.
Tilføjelsen af GLIDE til DALL-E 2-modellen muliggjorde mere fotorealistisk output. Da GLIDE-modellen er stokastisk eller tilfældigt bestemt, kan DALL-E 2-modellen nemt skabe variationer ved at køre modellen igen og igen.
Begrænsninger
På trods af de imponerende resultater af DALL-E 2-modellen står den stadig over for nogle begrænsninger.
Stave tekst
Prompter, der forsøger at få DALL-E 2 til at generere tekst, afslører, at den har svært ved at stave ord. Eksperter antager, at dette kan skyldes, at staveinformation ikke er en del af træningsdatasæt.
Kompositorisk ræsonnement
Forskere observerer, at DALL-E 2 stadig har nogle problemer med kompositorisk ræsonnement. Enkelt sagt kan modellen forstå individuelle aspekter af et billede, mens den stadig har problemer med at finde ud af sammenhængen mellem disse aspekter.
For eksempel, hvis du får prompten "rød terning oven på en blå terning", vil DALL-E generere en blå terning og en rød terning nøjagtigt, men ikke placere dem korrekt. Modellen har også vist sig at have svært ved prompter, der kræver, at et bestemt antal objekter trækkes ud.
Bias i datasættet
Hvis prompten ikke indeholder andre detaljer, er DALL-E blevet observeret for at afbilde hvide eller vestlige mennesker og miljøer. Denne repræsentationsbias opstår på grund af overfloden af vestligt centrerede billeder i datasættet.
Modellen er også blevet observeret at følge kønsstereotyper. Indtastning af prompten "stewardesse" genererer for eksempel for det meste billeder af kvindelige stewardesser.
Hvad er Google Imagen AI?
Googles Billede AI er en model, der har til formål at skabe fotorealistiske billeder ud fra inputtekst. I lighed med DALL-E bruger modellen også transformersprogmodeller til at forstå teksten og er afhængig af brugen af diffusionsmodeller til at skabe billeder af høj kvalitet.
Ved siden af Imagen har Google også udgivet et benchmark for tekst-til-billede-modeller kaldet DrawBench. Ved at bruge DrawBench var de i stand til at observere, at menneskelige bedømmere foretrak Imagen-output frem for andre modeller inklusive DALL-E 2.
Hvordan fungerer det?
I lighed med DALL-E konverterer Imagen først brugerprompten til en tekstindlejring gennem en frossen tekstkoder.
Imagen bruger en diffusionsmodel, som lærer at konvertere et støjmønster til billeder. Det oprindelige output af disse billeder har lav opløsning og sendes senere gennem en anden model kendt som en superopløsningsdiffusionsmodel for at øge opløsningen af det endelige billede. Den første diffusionsmodel udsender et billede på 64×64 pixel og blæses senere op til et billede på 1024×1024 i høj opløsning.
Baseret på Imagen-teamets forskning er store frosne sprogmodeller, der kun er trænet på tekstdata, stadig meget effektive tekstkodere til tekst-til-billede generering.
Undersøgelsen introducerer også begrebet dynamisk tærskelværdi. Denne metode gør det muligt for billeder at fremstå mere fotorealistiske ved at øge vejledningsvægtene, når billedet genereres.
Ydelse af DALLE 2 vs. Imagen
Foreløbige resultater fra Googles benchmark viser, at menneskelige respondenter foretrækker billeder genereret af Imagen frem for DALL-E 2 og andre tekst-til-billede-modeller såsom Latent Diffusion og VQGAN+CLIP.
Output fra Imagen-teamet har også vist, at deres model klarer sig bedre til at stave tekst, en kendt svaghed ved DALL-E 2-modellen.
Men da Google endnu ikke har frigivet modellen til offentligheden, er det stadig at se, hvor nøjagtige Googles benchmarks er.
Konklusion
Fremkomsten af fotorealistiske tekst-til-billede-modeller er kontroversiel, fordi disse modeller er modne til uetisk brug.
Teknologien kan føre til skabelse af eksplicit indhold eller som et værktøj til desinformation. Det er forskere fra både Google og OpenAI klar over, hvilket blandt andet er grunden til, at disse teknologier stadig ikke er tilgængelige for alle.
Tekst-til-billede-modeller har også betydelige økonomiske konsekvenser. Vil professioner som modeller, fotografer og kunstnere blive påvirket, hvis modeller som DALL-E bliver mainstream?
I øjeblikket har disse modeller stadig begrænsninger. Hvis du holder ethvert AI-genereret billede til eftersyn, vil det afsløre dets ufuldkommenheder. Med både OpenAI og Google, der konkurrerer om de mest effektive modeller, kan det være et spørgsmål om tid, før der genereres et virkelig perfekt output: et billede, der ikke kan skelnes fra den ægte vare.
Hvad tror du, der vil ske, når teknologien går så langt?
Giv en kommentar