Indholdsfortegnelse[Skjule][At vise]
Du er højst sandsynligt klar over, at en computer kan beskrive et billede.
For eksempel kan et billede af en hund, der leger med dine børn, oversættes til 'hund og børn i haven.' Men vidste du, at den modsatte vej rundt nu også er mulig? Du skriver nogle ord, og maskinen genererer et nyt billede.
I modsætning til en Google-søgning, som søger efter eksisterende fotografier, er alt dette frisk. I de seneste år har OpenAI været en af de førende organisationer og rapporteret fantastiske resultater.
De træner deres algoritmer på massive tekst- og billeddatabaser. De udgav et papir om deres GLIDE-billedmodel, som blev trænet på hundredvis af millioner af fotos. Med hensyn til fotorealisme overgår den deres tidligere 'DALL-E'-model.
I dette indlæg vil vi se på OpenAI's GLIDE, et af flere fascinerende initiativer, der sigter mod at producere og ændre fotorealistiske billeder med tekststyrede diffusionsmodeller. Lad os begynde.
Hvad er Åbn AI Glide?
Mens de fleste billeder kan beskrives med ord, kræver det specialiseret viden og en betydelig mængde tid at skabe billeder fra tekstinput.
At tillade en AI-agent at producere fotorealistiske billeder ud fra naturlige sprogprompter giver ikke kun folk mulighed for at skabe rigt og mangfoldigt visuelt materiale med hidtil uset lethed, men giver også mulighed for enklere iterativ forfining og finkornet kontrol af de skabte billeder.
GLIDE kan bruges til at redigere eksisterende billeder ved at bruge tekstprompter i naturligt sprog til at indsætte nye objekter, skabe skygger og refleksioner, udføre billedmaleri, og så videre.
Det kan også omdanne grundlæggende stregtegninger til fotorealistiske fotografier, og det har exceptionelle nul-prøve fremstillings- og reparationsmuligheder til komplekse situationer.
Nyere forskning har vist, at sandsynlighedsbaserede diffusionsmodeller også kan producere syntetiske billeder af høj kvalitet, især når de kombineres med en vejledende tilgang, der balancerer variation og troskab.
OpenAI udgav en guidet diffusionsmodel i maj, hvilket gør det muligt for diffusionsmodeller at være betinget af etiketterne fra en klassifikator. GLIDE forbedrer denne succes ved at bringe guidet spredning til problemet med tekst-betinget billedoprettelse.
Efter at have trænet en 3.5 milliarder parameter GLIDE-diffusionsmodel ved hjælp af en tekstkoder til at betinge natursprogbeskrivelser, testede forskerne to alternative vejledende strategier: CLIP-vejledning og klassificeringsfri vejledning.
CLIP er en skalerbar teknik til at lære fælles repræsentationer af tekst og billeder, der giver en score baseret på, hvor tæt et billede er på en billedtekst.
Holdet brugte denne strategi i deres diffusionsmodeller ved at erstatte klassificereren med en CLIP-model, der "guider" modellerne. I mellemtiden er klassificeringsfri vejledning en strategi til at styre diffusionsmodeller, der ikke involverer træning af en separat klassifikator.
GLIDE arkitektur
GLIDE-arkitekturen består af tre komponenter: en Ablated Diffusion Model (ADM) trænet til at generere et 64 × 64 billede, en tekstmodel (transformer), der påvirker billedgenereringen via en tekstprompt, og en upsampling-model, der konverterer vores lille 64 × 64 billeder til mere fortolkelige 256 x 256 pixels.
De første to komponenter arbejder sammen for at styre billedgenereringsprocessen, så den korrekt afspejler tekstprompten, mens sidstnævnte er påkrævet for at gøre de billeder, vi skaber, nemmere at forstå. GLIDE-projektet var inspireret af en rapport offentliggjort i 2021 der viste, at ADM-teknikker klarede sig bedre end de nuværende populære, avancerede generative modeller med hensyn til billedkvalitet.
Til ADM brugte GLIDE-forfatterne den samme ImageNet 64 x 64-model som Dhariwal og Nichol, men med 512 kanaler i stedet for 64. ImageNet-modellen har omkring 2.3 milliarder parametre som et resultat af dette.
GLIDE-teamet ønskede i modsætning til Dhariwal og Nichol at have større direkte kontrol over billedgenereringsprocessen, så de kombinerede den visuelle model med en opmærksomhedsaktiveret transformer. GLIDE giver dig en vis kontrol over det billedgenererende procesoutput ved at behandle tekstinput-prompterne.
Dette opnås ved at træne transformatormodellen på et passende stort datasæt af fotos og billedtekster (svarende til det, der anvendes i DALL-E-projektet).
Teksten er indledningsvis indkodet i en serie af K tokens for at konditionere den. Derefter indlæses tokens i en transformermodel. Transformatorens output kan så bruges på to måder. For ADM-modellen anvendes den endelige token-indlejring i stedet for klasseindlejring.
For det andet projiceres token-indlejringernes sidste lag – en række trækvektorer – uafhængigt af dimensionerne for hvert opmærksomhedslag i ADM-modellen og sammenkædet til hver opmærksomhedskontekst.
I virkeligheden gør dette ADM-modellen i stand til at producere et billede fra nye kombinationer af lignende tekst-tokens på en unik og fotorealistisk måde, baseret på dens indlærte forståelse af inputordene og deres relaterede billeder. Denne tekstkodningstransformator indeholder 1.2 milliarder parametre og beskæftiger 24 resterende blokke med en bredde på 2048.
Endelig inkluderer upsampler-diffusionsmodellen omkring 1.5 milliarder parametre og varierer fra grundmodellen, idet dens tekstkoder er mindre med en bredde på 1024 og 384 basiskanaler sammenlignet med basismodellen. Denne model, som navnet indikerer, hjælper med at opgradere prøven for at forbedre fortolkningen for både maskiner og mennesker.
Diffusionsmodel
GLIDE genererer billeder ved hjælp af sin egen version af ADM (ADM-G for "guidet"). ADM-G-modellen er en modifikation af diffusions-U-net-modellen. En diffusions-U-net-model adskiller sig dramatisk fra de mere almindelige billedsynteseteknikker såsom VAE, GAN og transformere.
De bygger en Markov-kæde af diffusionstrin for gradvist at injicere tilfældig støj i dataene og lærer derefter at vende diffusionsprocessen og genopbygge de nødvendige dataprøver fra støjen alene. Den fungerer i to trin: fremadgående og tilbagegående diffusion.
Fremadspredningsmetoden, givet et datapunkt fra prøvens sande fordeling, tilføjer en lille mængde støj til prøven over en forudindstillet række trin. Efterhånden som trinene øges i størrelse og nærmer sig uendelighed, mister prøven alle genkendelige egenskaber, og sekvensen begynder at ligne en isotropisk Gauss-kurve.
Under baglæns diffusion fase, diffusionsmodellen lærer at vende påvirkningen af den tilføjede støj på billederne og føre det producerede billede tilbage til dets oprindelige form ved at forsøge at ligne den originale inputprøvefordeling.
En færdig model kunne gøre det med et ægte Gaussisk støjinput og en prompt. ADM-G-metoden varierer fra den foregående, idet en model, enten CLIP eller en tilpasset transformer, påvirker den bagudrettede diffusionsfase ved at anvende de tekstprompt-tokens, der indtastes.
Glide muligheder
1. Generering af billede
Den mest populære og udbredte brug af GLIDE vil formentlig være billedsyntese. Selvom billederne er beskedne, og GLIDE har svært ved dyre/menneskelige former, er potentialet for one-shot billedproduktion næsten uendeligt.
Det kan skabe billeder af dyr, berømtheder, landskaber, bygninger og meget mere, og det kan gøre det i en række forskellige kunststile såvel som fotorealistisk. Forskerne hævder, at GLIDE er i stand til at fortolke og tilpasse en bred vifte af tekstinput til et visuelt format, som det ses i eksemplerne nedenfor.
2. Glide inpainting
GLIDEs automatiske fotoinpainting er uden tvivl den mest fascinerende brug. GLIDE kan tage et eksisterende billede som input, behandle det med tekstprompten i tankerne for lokationer, der skal ændres, og derefter foretage aktive ændringer af disse dele med lethed.
Det skal bruges sammen med en redigeringsmodel, såsom SDEdit, for at give endnu bedre resultater. I fremtiden kan apps, der udnytter funktioner som disse, være afgørende for udviklingen af kodefri billedændringstilgange.
Konklusion
Nu hvor vi har gennemgået processen, bør du forstå det grundlæggende i, hvordan GLIDE fungerer, såvel som bredden af dets muligheder inden for billedoprettelse og in-image modifikation.
Giv en kommentar