Innholdsfortegnelse[Gjemme seg][Forestilling]
Du er mest sannsynlig klar over at en datamaskin kan beskrive et bilde.
For eksempel kan et bilde av en hund som leker med barna dine oversettes som "hund og barn i hagen." Men visste du at den motsatte veien rundt nå også er mulig? Du skriver inn noen ord, og maskinen genererer et nytt bilde.
I motsetning til et Google-søk, som søker etter eksisterende bilder, er alt dette ferskt. De siste årene har OpenAI vært en av de ledende organisasjonene, og rapportert fantastiske resultater.
De trener algoritmene sine på massive tekst- og bildedatabaser. De publiserte en artikkel om deres GLIDE-bildemodell, som ble trent på hundrevis av millioner bilder. Når det gjelder fotorealisme, overgår den deres tidligere 'DALL-E'-modell.
I dette innlegget skal vi se på OpenAIs GLIDE, et av flere fascinerende initiativer som tar sikte på å produsere og endre fotorealistiske bilder med tekststyrte diffusjonsmodeller. La oss begynne.
Hva er Åpne AI Glide?
Mens de fleste bilder kan beskrives med ord, krever det spesialkunnskap og en betydelig mengde tid å lage bilder fra tekstinndata.
Å tillate en AI-agent å produsere fotorealistiske bilder fra naturlige språkoppfordringer lar ikke bare folk lage rikt og mangfoldig visuelt materiale med enestående letthet, men gir også mulighet for enklere iterativ raffinement og finkornet kontroll over bildene som lages.
GLIDE kan brukes til å redigere eksisterende bilder ved å bruke tekstmeldinger på naturlig språk for å sette inn nye objekter, lage skygger og refleksjoner, utføre bildemaleri, Og så videre.
Den kan også gjøre grunnleggende strektegninger til fotorealistiske fotografier, og den har eksepsjonelle nullprøveproduksjons- og reparasjonsmuligheter for komplekse situasjoner.
Nyere forskning har vist at sannsynlighetsbaserte diffusjonsmodeller også kan produsere syntetiske bilder av høy kvalitet, spesielt når de kombineres med en veiledende tilnærming som balanserer variasjon og troskap.
OpenAI publiserte en guidet diffusjonsmodell i mai, noe som gjør at diffusjonsmodeller kan være betinget av etikettene til en klassifikator. GLIDE forbedrer denne suksessen ved å bringe veiledet spredning til problemet med tekstbetinget bildeoppretting.
Etter å ha trent en 3.5 milliarder parameter GLIDE-diffusjonsmodell ved bruk av en tekstkoder for å betinge naturspråkbeskrivelser, testet forskerne to alternative veiledningsstrategier: CLIP-veiledning og klassifiseringsfri veiledning.
CLIP er en skalerbar teknikk for å lære felles representasjoner av tekst og bilder som gir en poengsum basert på hvor nær et bilde er en bildetekst.
Teamet brukte denne strategien i sine diffusjonsmodeller ved å erstatte klassifikatoren med en CLIP-modell som "veileder" modellene. I mellomtiden er klassifiseringsfri veiledning en strategi for å styre diffusjonsmodeller som ikke involverer opplæring av en separat klassifikator.
GLIDE-arkitektur
GLIDE-arkitekturen består av tre komponenter: en Ablated Diffusion Model (ADM) trent til å generere et 64 × 64 bilde, en tekstmodell (transformator) som påvirker bildegenerering via en tekstmelding, og en oppsamplingsmodell som konverterer vår lille 64 × 64 bilder til mer tolkbare 256 x 256 piksler.
De to første komponentene jobber sammen for å kontrollere bildegenereringsprosessen slik at den reflekterer tekstmeldingen på riktig måte, mens sistnevnte er nødvendig for å gjøre bildene vi lager lettere å forstå. GLIDE-prosjektet var inspirert av en rapport publisert i 2021 som viste at ADM-teknikker overgikk for tiden populære, toppmoderne generative modeller når det gjelder bildekvalitet.
For ADM brukte GLIDE-forfatterne den samme ImageNet 64 x 64-modellen som Dhariwal og Nichol, men med 512 kanaler i stedet for 64. ImageNet-modellen har omtrent 2.3 milliarder parametere som et resultat av dette.
GLIDE-teamet, i motsetning til Dhariwal og Nichol, ønsket å ha større direkte kontroll over bildegenereringsprosessen, og derfor kombinerte de den visuelle modellen med en oppmerksomhetsaktivert transformator. GLIDE gir deg litt kontroll over bildet som genererer prosessutdata ved å behandle tekstinntastingsspørsmålene.
Dette oppnås ved å trene transformatormodellen på et passe stort datasett med bilder og bildetekster (ligner på det som ble brukt i DALL-E-prosjektet).
Teksten er først kodet inn i en serie med K-tokens for å betinge den. Etter det blir tokenene lastet inn i en transformatormodell. Utgangen til transformatoren kan da brukes på to måter. For ADM-modellen brukes den endelige token-innbyggingen i stedet for klasseinnbyggingen.
For det andre projiseres token-innbyggingens siste lag – en serie funksjonsvektorer – uavhengig av dimensjonene for hvert oppmerksomhetslag i ADM-modellen og kobles sammen til hver oppmerksomhetskontekst.
I virkeligheten gjør dette det mulig for ADM-modellen å produsere et bilde fra nye kombinasjoner av lignende tekstsymboler på en unik og fotorealistisk måte, basert på dens innlærte forståelse av inndataordene og deres relaterte bilder. Denne tekstkodingstransformatoren inneholder 1.2 milliarder parametere og bruker 24 restblokker med en bredde på 2048.
Til slutt inkluderer upsampler-diffusjonsmodellen rundt 1.5 milliarder parametere og varierer fra grunnmodellen ved at tekstkoderen er mindre, med en bredde på 1024 og 384 basekanaler, sammenlignet med basismodellen. Denne modellen, som navnet indikerer, hjelper til med oppgraderingen av prøven for å forbedre tolkningsevnen for både maskiner og mennesker.
Diffusjonsmodell
GLIDE genererer bilder ved å bruke sin egen versjon av ADM (ADM-G for "veiledet"). ADM-G-modellen er en modifikasjon av diffusjons-U-nett-modellen. En diffusjons-U-nett-modell skiller seg dramatisk fra de mer vanlige bildesynteseteknikkene som VAE, GAN og transformatorer.
De bygger en Markov-kjede av diffusjonstrinn for å gradvis injisere tilfeldig støy i dataene, og lærer deretter å reversere diffusjonsprosessen og gjenoppbygge de nødvendige dataprøvene fra støyen alene. Den opererer i to trinn: forover og bakover diffusjon.
Foroverdiffusjonsmetoden, gitt et datapunkt fra prøvens sanne fordeling, legger til en liten mengde støy til prøven over en forhåndsinnstilt serie med trinn. Når trinnene øker i størrelse og nærmer seg uendelig, mister prøven alle gjenkjennelige egenskaper og sekvensen begynner å ligne en isotropisk Gauss-kurve.
Under bakoverdiffusjonen fase, diffusjonsmodellen lærer å reversere påvirkningen av den tilførte støyen på bildene og føre det produserte bildet tilbake til sin opprinnelige form ved å forsøke å ligne den originale input-eksempelfordelingen.
En ferdig modell kan gjøre det med en ekte Gaussisk støyinngang og en melding. ADM-G-metoden varierer fra den foregående ved at en modell, enten CLIP eller en tilpasset transformator, påvirker den bakoverspredningsfasen ved å bruke tekstmeldingssymbolene som legges inn.
Glide evner
1. Generering av bilde
Den mest populære og mest brukte bruken av GLIDE vil trolig være bildesyntese. Selv om bildene er beskjedne og GLIDE har problemer med dyr/menneskelige former, er potensialet for one-shot bildeproduksjon nesten uendelig.
Den kan lage bilder av dyr, kjendiser, landskap, bygninger og mye mer, og den kan gjøre det i en rekke kunststiler så vel som fotorealistisk. Forfatterne av forskerne hevder at GLIDE er i stand til å tolke og tilpasse et bredt utvalg av tekstinndata til et visuelt format, som vist i prøvene nedenfor.
2. Glidemaling
GLIDEs automatiske fotomaleri er uten tvil den mest fascinerende bruken. GLIDE kan ta et eksisterende bilde som input, behandle det med tanke på tekstmeldingen for steder som må endres, og deretter gjøre aktive modifikasjoner på disse delene med letthet.
Den må brukes sammen med en redigeringsmodell, for eksempel SDEdit, for å gi enda bedre resultater. I fremtiden kan apper som utnytter funksjoner som disse være avgjørende for å utvikle kodefrie bildeendringsmetoder.
konklusjonen
Nå som vi har gått gjennom prosessen, bør du forstå det grunnleggende om hvordan GLIDE fungerer, så vel som bredden av dens evner innen bildeoppretting og modifisering av bilder.
Legg igjen en kommentar