Innholdsfortegnelse[Gjemme seg][Forestilling]
De siste årene har dyplæringsmodeller blitt mer effektive til å forstå menneskelig språk.
Tenk på prosjekter som GPT-3, som nå er i stand til å lage hele artikler og nettsteder. GitHub har nylig introdusert GitHub Copilot, en tjeneste som tilbyr hele kodebiter ved ganske enkelt å beskrive hvilken type kode du trenger.
Forskere ved OpenAI, Facebook og Google har jobbet med måter å bruke dyp læring for å håndtere en annen oppgave: bildetekster. Ved å bruke et stort datasett med millioner av oppføringer, har de kommet opp med noen overrask resultater.
I det siste har disse forskerne forsøkt å utføre den motsatte oppgaven: å lage bilder fra en bildetekst. Er det nå mulig å lage et helt nytt bilde ut av en beskrivelse?
Denne guiden vil utforske to av de mest avanserte tekst-til-bilde-modellene: OpenAIs DALL-E 2 og Googles Imagen AI. Hvert av disse prosjektene har introdusert banebrytende metoder som kan endre samfunnet slik vi kjenner det.
Men først, la oss forstå hva vi mener med tekst-til-bilde generering.
Hva er tekst-til-bilde generering?
Tekst-til-bilde-modeller la datamaskiner lage nye og unike bilder basert på spørsmål. Folk kan nå gi en tekstbeskrivelse av et bilde de ønsker å produsere, og modellen vil prøve å lage en visuell som matcher den beskrivelsen så godt som mulig.
Maskinlæringsmodeller har utnyttet bruken av store datasett som inneholder bildetekstpar for å forbedre ytelsen ytterligere.
Mest tekst-til-bilde modeller bruker en transformatorspråkmodell å tolke oppfordringer. Denne typen modell er en nevrale nettverket som prøver å lære konteksten og den semantiske betydningen av naturlig språk.
Deretter generative modeller som f.eks diffusjonsmodeller og generative motstridende nettverk brukes til bildesyntese.
Hva er DALLE 2?
DALL-E2 er en datamodell av OpenAI som ble utgitt i april 2022. Modellen ble trent på en database med millioner av merkede bilder for å knytte ord og uttrykk til bilder.
Brukere kan skrive inn en enkel setning, for eksempel "en katt som spiser lasagne", og DALL-E 2 vil generere sin egen tolkning av hva setningen prøver å beskrive.
I tillegg til å lage bilder fra bunnen av, kan DALL-E 2 også redigere eksisterende bilder. I eksemplet nedenfor var DALL-E i stand til å generere et modifisert bilde av et rom med en ekstra sofa.
DALL-E 2 er bare ett av mange lignende prosjekter OpenAI har gitt ut de siste årene. OpenAIs GPT-3 ble nyhetsverdig da den så ut til å generere tekst med forskjellige stiler.
For øyeblikket er DALL-E 2 fortsatt i beta-testing. Interesserte brukere kan registrere seg for deres venteliste og vent på tilgang.
Hvordan virker det?
Mens resultatene av DALL-E 2 er imponerende, lurer du kanskje på hvordan det hele fungerer.
DALL-E 2 er et eksempel på en multimodal implementering av OpenAIs GPT-3-prosjekt.
Først plasseres brukerens tekstmelding i en tekstkoder som tilordner ledeteksten til et representasjonsrom. DALL-E 2 bruker en annen OpenAI-modell kalt CLIP (Contrastive Language-Image Pre-Training) for å få semantisk informasjon fra naturlig språk.
Deretter en modell kjent som i forkant kartlegger tekstkodingen til en bildekoding. Denne bildekodingen skal fange opp den semantiske informasjonen som finnes i tekstkodingstrinnet.
For å lage det faktiske bildet bruker DALL-E 2 en bildedekoder for å generere en visuell ved hjelp av semantisk informasjon og bildekodingsdetaljer. OpenAI bruker en modifisert versjon av GLID modell for å utføre bildegenerering. GLIDE er avhengig av en diffusjonsmodell å lage bilder.
Tillegget av GLIDE til DALL-E 2-modellen muliggjorde mer fotorealistisk utgang. Siden GLIDE-modellen er stokastisk eller tilfeldig bestemt, kan DALL-E 2-modellen enkelt lage variasjoner ved å kjøre modellen igjen og igjen.
Begrensninger
Til tross for de imponerende resultatene til DALL-E 2-modellen, har den fortsatt noen begrensninger.
Stavetekst
Forespørsler som prøver å få DALL-E 2 til å generere tekst avslører at den har problemer med å stave ord. Eksperter antar at dette kan være fordi staveinformasjon ikke er en del av treningsdatasett.
Komposisjonell resonnement
Forskere observerer at DALL-E 2 fortsatt har noen problemer med komposisjonsresonnement. Enkelt sagt kan modellen forstå individuelle aspekter ved et bilde, samtidig som den har problemer med å finne ut relasjonene mellom disse aspektene.
For eksempel, hvis ledeteksten "rød kube på toppen av en blå kube", vil DALL-E generere en blå kube og en rød kube nøyaktig, men ikke plassere dem riktig. Modellen har også blitt observert å ha problemer med oppfordringer som krever at et spesifikt antall objekter trekkes ut.
Bias i datasettet
Hvis ledeteksten ikke inneholder andre detaljer, har DALL-E blitt observert å avbilde hvite eller vestlige mennesker og miljøer. Denne representasjonsskjevheten oppstår på grunn av overfloden av vestlig-sentriske bilder i datasettet.
Modellen har også blitt observert å følge kjønnsstereotypier. For eksempel, å skrive inn meldingen "flyvertinne" genererer for det meste bilder av kvinnelige flyvertinner.
Hva er Google Imagen AI?
Googles Bilde AI er en modell som har som mål å lage fotorealistiske bilder fra inputtekst. I likhet med DALL-E bruker modellen også transformatorspråkmodeller for å forstå teksten og er avhengig av bruk av diffusjonsmodeller for å lage bilder av høy kvalitet.
Ved siden av Imagen har Google også gitt ut en benchmark for tekst-til-bilde-modeller kalt DrawBench. Ved å bruke DrawBench kunne de observere at menneskelige vurderere foretrakk Imagen-utgang fremfor andre modeller, inkludert DALL-E 2.
Hvordan virker det?
I likhet med DALL-E konverterer Imagen først brukermeldingen til en tekstinnbygging gjennom en frossen tekstkoder.
Imagen bruker en diffusjonsmodell som lærer å konvertere et støymønster til bilder. Den første utgangen av disse bildene har lav oppløsning og sendes senere gjennom en annen modell kjent som en superoppløsningsdiffusjonsmodell for å øke oppløsningen til det endelige bildet. Den første diffusjonsmodellen gir ut et bilde på 64×64 piksler og blåses senere opp til et høyoppløselig 1024×1024 bilde.
Basert på Imagen-teamets forskning, er store frosne språkmodeller som kun er trent på tekstdata, fortsatt svært effektive tekstkodere for tekst-til-bilde-generering.
Studien introduserer også begrepet dynamisk terskel. Denne metoden gjør det mulig for bilder å virke mer fotorealistiske ved å øke veiledningsvektene når bildet genereres.
Ytelse av DALLE 2 vs. Imagen
Foreløpige resultater fra Googles benchmark viser at menneskelige respondenter foretrekker bilder generert av Imagen fremfor DALL-E 2 og andre tekst-til-bilde-modeller som Latent Diffusion og VQGAN+CLIP.
Utdata fra Imagen-teamet har også vist at modellen deres presterer bedre med å stave tekst, en kjent svakhet ved DALL-E 2-modellen.
Men siden Google ennå ikke har gitt ut modellen til offentligheten, gjenstår det fortsatt å se hvor nøyaktige Googles benchmarks er.
konklusjonen
Fremveksten av fotorealistiske tekst-til-bilde-modeller er kontroversiell fordi disse modellene er modne for uetisk bruk.
Teknologien kan føre til skaping av eksplisitt innhold eller som et verktøy for desinformasjon. Forskere fra både Google og OpenAI er klar over dette, noe som delvis er grunnen til at disse teknologiene fortsatt ikke er tilgjengelige for alle.
Tekst-til-bilde-modeller har også betydelige økonomiske implikasjoner. Vil yrker som modeller, fotografer og kunstnere bli påvirket hvis modeller som DALL-E blir mainstream?
For øyeblikket har disse modellene fortsatt begrensninger. Å holde et hvilket som helst AI-generert bilde for gransking vil avsløre dets ufullkommenhet. Med både OpenAI og Google som konkurrerer om de mest effektive modellene, kan det være et spørsmål om tid før en virkelig perfekt utgang genereres: et bilde som ikke kan skilles fra ekte vare.
Hva tror du vil skje når teknologien går så langt?
Legg igjen en kommentar