Innehållsförteckning[Dölj][Visa]
Du är med största sannolikhet medveten om att en dator kan beskriva en bild.
Till exempel kan en bild på en hund som leker med dina barn översättas som "hund och barn i trädgården." Men visste du att det omvända är möjligt nu också? Du skriver några ord och maskinen genererar en ny bild.
Till skillnad från en Google-sökning, som söker efter befintliga fotografier, är allt detta färskt. Under de senaste åren har OpenAI varit en av de ledande organisationerna och rapporterat fantastiska resultat.
De tränar sina algoritmer på massiva text- och bilddatabaser. De publicerade ett papper om sin GLIDE-bildmodell, som tränades på hundratals miljoner foton. När det gäller fotorealism överträffar den deras tidigare "DALL-E"-modell.
I det här inlägget ska vi titta på OpenAI:s GLIDE, ett av flera fascinerande initiativ som syftar till att producera och förändra fotorealistiska bilder med textstyrda spridningsmodeller. Låt oss börja.
Vad är Öppna AI Glide?
Medan de flesta bilder kan beskrivas i ord, kräver det specialiserad kunskap och en betydande tid att skapa bilder från textinmatningar.
Att tillåta en AI-agent att producera fotorealistiska bilder från naturliga språkuppmaningar tillåter inte bara människor att skapa rikt och mångsidigt visuellt material med oöverträffad lätthet utan möjliggör också enklare iterativ förfining och finkornig kontroll av de skapade bilderna.
GLIDE kan användas för att redigera befintliga foton genom att använda textuppmaningar på naturligt språk för att infoga nya objekt, skapa skuggor och reflektioner, utföra bildmålning, Och så vidare.
Den kan också förvandla grundläggande linjeteckningar till fotorealistiska fotografier, och den har exceptionella nollprovtillverknings- och reparationsmöjligheter för komplexa situationer.
Ny forskning har visat att sannolikhetsbaserade diffusionsmodeller också kan producera syntetiska bilder av hög kvalitet, särskilt när de kombineras med ett vägledande tillvägagångssätt som balanserar variation och trohet.
OpenAI publicerade en guidad diffusionsmodell i maj, vilket gör att diffusionsmodeller kan vara villkorade av en klassificerares etiketter. GLIDE förbättrar denna framgång genom att ge guidad spridning av problemet med text-villkorad bildskapande.
Efter att ha tränat en 3.5 miljarder parametrar GLIDE-diffusionsmodell med hjälp av en textkodare för att villkora beskrivningar av naturliga språk, testade forskarna två alternativa vägledningsstrategier: CLIP-vägledning och klassificeringsfri vägledning.
CLIP är en skalbar teknik för att lära sig gemensamma representationer av text och bilder som ger ett resultat baserat på hur nära en bild är en bildtext.
Teamet använde denna strategi i sina diffusionsmodeller genom att ersätta klassificeraren med en CLIP-modell som "vägleder" modellerna. Samtidigt är klassificerarefri vägledning en strategi för att styra diffusionsmodeller som inte involverar utbildning av en separat klassificerare.
GLIDE arkitektur
GLIDE-arkitekturen består av tre komponenter: en Ablated Diffusion Model (ADM) tränad för att generera en 64 × 64 bild, en textmodell (transformator) som påverkar bildgenereringen via en textprompt och en uppsamplingsmodell som konverterar vår lilla 64 × 64 bilder till mer tolkningsbara 256 x 256 pixlar.
De två första komponenterna samverkar för att styra bildgenereringsprocessen så att den reflekterar textuppmaningen på rätt sätt, medan den senare krävs för att göra bilderna vi skapar lättare att förstå. GLIDE-projektet inspirerades av en rapport publicerad 2021 som visade att ADM-tekniker överträffade för närvarande populära, toppmoderna generativa modeller när det gäller bildprovskvalitet.
För ADM använde GLIDE-författarna samma ImageNet 64 x 64-modell som Dhariwal och Nichol, men med 512 kanaler istället för 64. ImageNet-modellen har ungefär 2.3 miljarder parametrar som ett resultat av detta.
GLIDE-teamet, till skillnad från Dhariwal och Nichol, ville ha större direkt kontroll över bildgenereringsprocessen, så de kombinerade den visuella modellen med en uppmärksamhetsaktiverad transformator. GLIDE ger dig viss kontroll över bilden som genererar processutdata genom att bearbeta textinmatningsuppmaningarna.
Detta uppnås genom att träna transformatormodellen på en passande stor datauppsättning av foton och bildtexter (liknande den som används i DALL-E-projektet).
Texten kodas initialt till en serie K-symboler för att konditionera den. Därefter laddas tokens in i en transformatormodell. Transformatorns utgång kan då användas på två sätt. För ADM-modellen används den slutliga tokeninbäddningen istället för klassinbäddningen.
För det andra projiceras tokeninbäddningarnas sista lager – en serie funktionsvektorer – oberoende av dimensionerna för varje uppmärksamhetslager i ADM-modellen och sammanlänkas till varje uppmärksamhetskontext.
I verkligheten gör detta det möjligt för ADM-modellen att producera en bild från nya kombinationer av liknande texttokens på ett unikt och fotorealistiskt sätt, baserat på dess inlärda förståelse av inmatningsorden och deras relaterade bilder. Denna textkodningstransformator innehåller 1.2 miljarder parametrar och använder 24 överblivna block med en bredd på 2048.
Slutligen inkluderar upsampler-diffusionsmodellen cirka 1.5 miljarder parametrar och skiljer sig från grundmodellen genom att dess textkodare är mindre, med en bredd på 1024 och 384 baskanaler, jämfört med basmodellen. Denna modell, som namnet indikerar, hjälper till med uppgraderingen av provet för att förbättra tolkningsbarheten för både maskiner och människor.
Diffusionsmodell
GLIDE genererar bilder med sin egen version av ADM (ADM-G för "guidad"). ADM-G-modellen är en modifiering av diffusions-U-net-modellen. En diffusions-U-nätmodell skiljer sig dramatiskt från de vanligare bildsyntesteknikerna som VAE, GAN och transformatorer.
De bygger en Markov-kedja av diffusionssteg för att gradvis injicera slumpmässigt brus i data, och sedan lära sig att vända diffusionsprocessen och bygga om de nödvändiga dataproverna från enbart bruset. Den fungerar i två steg: framåt och bakåt diffusion.
Den framåtriktade diffusionsmetoden, givet en datapunkt från provets sanna fördelning, lägger till en liten mängd brus till provet över en förinställd serie steg. När stegen ökar i storlek och närmar sig oändligheten förlorar provet alla igenkännbara egenskaper och sekvensen börjar likna en isotropisk Gauss-kurva.
Under bakåtdiffusionen fas, diffusionsmodellen lär sig att vända påverkan av det extra bruset på bilderna och leda den producerade bilden tillbaka till sin ursprungliga form genom att försöka likna den ursprungliga ingångssampelfördelningen.
En färdig modell skulle kunna göra det med en riktig Gaussisk brusingång och en prompt. ADM-G-metoden varierar från den föregående genom att en modell, antingen CLIP eller en skräddarsydd transformator, påverkar den bakåtriktade diffusionsfasen genom att använda textpromptsymbolerna som matas in.
Glidmöjligheter
1. Generering av bild
Den mest populära och mest använda användningen av GLIDE kommer förmodligen att vara bildsyntes. Även om bilderna är blygsamma och GLIDE har svårt med djur-/människoformer, är potentialen för en bildproduktion nästan oändlig.
Det kan skapa foton av djur, kändisar, landskap, byggnader och mycket mer, och det kan göra det i en mängd olika konststilar såväl som fotorealistiskt. Forskarna till forskarna hävdar att GLIDE kan tolka och anpassa ett brett utbud av textinmatningar till ett visuellt format, som framgår av exemplen nedan.
2. Glidmålning
GLIDEs automatiska fotoinmålning är utan tvekan den mest fascinerande användningen. GLIDE kan ta en befintlig bild som indata, bearbeta den med textuppmaningen i åtanke för platser som behöver ändras, och sedan göra aktiva ändringar av dessa delar med lätthet.
Den måste användas tillsammans med en redigeringsmodell, såsom SDEdit, för att ge ännu bättre resultat. I framtiden kan appar som drar fördel av funktioner som dessa vara avgörande för att utveckla kodfria metoder för bildändring.
Slutsats
Nu när vi har gått igenom processen bör du förstå grunderna för hur GLIDE fungerar, såväl som bredden av dess möjligheter för att skapa bilder och modifiera bilder.
Kommentera uppropet