Inhaltsverzeechnes[Verstoppen][Show]
Dir sidd héchstwahrscheinlech bewosst datt e Computer e Bild beschreiwen kann.
Zum Beispill, e Bild vun engem Hond, deen mat Äre Kanner spillt, kann als "Mupp a Kanner am Gaart" iwwersat ginn. Awer wousst Dir datt de Géigendeel elo och machbar ass? Dir schreift e puer Wierder, an d'Maschinn generéiert en neit Bild.
Am Géigesaz zu enger Google Sich, déi existent Fotoen sicht, ass dëst alles frësch. An de leschte Joeren war OpenAI eng vun de féierende Organisatiounen, bericht iwwerraschend Resultater.
Si trainéieren hir Algorithmen op massiven Text- a Bilddatenbanken. Si hunn e Pabeier iwwer hire GLIDE Bildmodell publizéiert, deen op Honnerte vu Millioune Fotoen trainéiert gouf. Wat de Photorealismus ugeet, ass et besser wéi hire fréiere 'DALL-E' Modell.
An dësem Post kucke mir de GLIDE vum OpenAI, eng vun e puer faszinéierend Initiativen fir d'Produktioun an d'Ännerung vun fotorealistesche Biller mat text-guided Diffusiounsmodeller. Loosst eis ufänken.
Wat ass Open AI Glide?
Wärend déi meescht Biller a Wierder kënne beschriwwe ginn, erstellt Biller aus Textinputen erfuerdert spezialiséiert Wëssen an eng bedeitend Quantitéit un Zäit.
En AI Agent erlaabt fotorealistesch Biller aus natierleche Sproochprompts ze produzéieren erlaabt net nëmmen d'Leit räich a divers visuellt Material mat onendlecher Liichtegkeet ze kreéieren, awer erlaabt och eng méi einfach iterativ Verfeinerung a feinkorrekt Kontroll vun de geschafe Biller.
GLIDE kann benotzt ginn fir existent Fotoen z'änneren andeems se natierlech Sproochen Text Ufroen benotzt fir nei Objeten anzeginn, Schatten a Reflexiounen ze kreéieren, auszeféieren. Bild Inpainting, a sou weider.
Et kann och Basis Zeechnungen an photorealistesch Fotoen maachen, an et huet aussergewéinlech Null-Probe Fabrikatioun a Reparatur Fäegkeeten fir komplex Situatiounen.
Rezent Fuerschung huet bewisen datt d'Wahrscheinlechkeet-baséiert Diffusiounsmodeller och qualitativ héichwäerteg synthetesch Biller kënne produzéieren, besonnesch wann se kombinéiert mat enger guidéierender Approche déi Varietéit a Vertrauen ausbalancéiert.
OpenAI publizéiert a guidéiert Diffusioun Modell am Mee, wat erlaabt Diffusioun Modeller op d'Etiketten vun engem Classeur bedingt ginn. GLIDE verbessert dësen Erfolleg andeems se guidéiert Diffusioun zum Problem vun der textbedingter Bildschafung bréngt.
No der Ausbildung vun engem 3.5 Milliarden Parameter GLIDE Diffusiounsmodell mat engem Textencoder fir op natierlech Sproochbeschreiwungen ze Konditiounen, hunn d'Fuerscher zwou alternativ Guidéierungsstrategien getest: CLIP Leedung a Klassifizéierungsfräi Leedung.
CLIP ass eng skalierbar Technik fir gemeinsame Representatioune vun Text a Biller ze léieren, déi e Score liwwert baséiert op wéi no e Bild un engem Iwwerschrëft ass.
D'Team huet dës Strategie an hiren Diffusiounsmodeller benotzt andeems de Klassifizéierer mat engem CLIP Modell ersat gëtt deen d'Modeller "guidet". Mëttlerweil ass Klassifizéierungsfräi Leedung eng Strategie fir Diffusiounsmodeller ze dirigéieren déi net d'Ausbildung vun engem separaten Klassifizéierer involvéieren.
GLIDE Architektur
D'GLIDE Architektur besteet aus dräi Komponenten: en Ablated Diffusion Model (ADM) trainéiert fir e 64 × 64 Bild ze generéieren, en Textmodell (Transformator) deen d'Bildgeneratioun iwwer eng Textprompt beaflosst, an en Upsampling Modell deen eise klenge 64 × 64 konvertéiert Biller zu méi interpretable 256 x 256 Pixel.
Déi éischt zwee Komponente schaffen zesummen fir de Bildgeneratiounsprozess ze kontrolléieren sou datt et den Textprompt entspriechend reflektéiert, während déi lescht erfuerderlech ass fir d'Biller déi mir kreéieren méi einfach ze verstoen. De GLIDE Projet gouf inspiréiert vun enger Bericht am Joer 2021 publizéiert dat huet gewisen datt ADM Techniken déi aktuell populär, modernsten generativ Modeller iwwerpréift wat d'Bildqualitéit ugeet.
Fir den ADM hunn d'GLIDE Autoren dee selwechte ImageNet 64 x 64 Modell benotzt wéi Dhariwal an Nichol, awer mat 512 Kanäl anstatt 64. De ImageNet Modell huet ongeféier 2.3 Milliarde Parameteren als Resultat vun dësem.
D'GLIDE Team, am Géigesaz zu Dhariwal an Nichol, wollte méi direkt Kontroll iwwer de Bildgeneratiounsprozess hunn, sou datt se de visuelle Modell mat engem Opmierksamkeet-aktivéierten Transformator kombinéiert hunn. GLIDE gëtt Iech e bësse Kontroll iwwer d'Bild generéiert Prozessoutput andeems Dir den Textinput Ufroe veraarbecht.
Dëst gëtt erreecht andeems den Transformatormodell op enger passend grousser Dataset vu Fotoen an Iwwerschrëften trainéiert gëtt (ähnlech wéi am DALL-E Projet beschäftegt).
Den Text ass am Ufank an eng Serie vu K Tokens kodéiert fir en ze konditionéieren. Duerno ginn d'Tokens an en Transformatormodell gelueden. Den Ausgang vum Transformator kann dann op zwou Weeër benotzt ginn. Fir den ADM Modell gëtt déi lescht Token Embedding benotzt amplaz vun der Klass Embedding.
Zweetens, d'Finale Schicht vun den Token Embeddings - eng Serie vu Featurevektoren - gëtt onofhängeg op d'Dimensioune fir all Opmierksamkeetsschicht am ADM Modell projizéiert an un all Opmierksamkeetskontext verbonnen.
A Wierklechkeet erlaabt dëst den ADM Modell e Bild aus neie Kombinatioune vun ähnlechen Text Tokens op eng eenzegaarteg a photorealistesch Manéier ze produzéieren, baséiert op sengem geléierte Verständnis vun den Input Wierder an hir verbonne Biller. Dësen Textkodéierungstransformator enthält 1.2 Milliarde Parameteren a beschäftegt 24 Iwwerreschterblocken mat enger Breet vun 2048.
Endlech enthält den Upsampler Diffusiounsmodell ongeféier 1.5 Milliarde Parameteren a variéiert vum Basismodell an deem säin Textencoder méi kleng ass, mat enger Breet vun 1024 an 384 Basiskanäl, am Verglach zum Basismodell. Dëse Modell, wéi den Numm et scho seet, hëlleft beim Upgrade vun der Probe fir d'Interpretabilitéit fir béid Maschinnen a Mënschen ze verbesseren.
Diffusioun Modell
GLIDE generéiert Biller mat senger eegener Versioun vum ADM (ADM-G fir "guidéiert"). Den ADM-G Modell ass eng Ännerung vum Diffusioun U-Net Modell. En Diffusioun U-Net Modell ënnerscheet sech dramatesch vun de méi heefegste Bildsynthesetechnike wéi VAE, GAN, an Transformatoren.
Si bauen eng Markov Kette vun Diffusiounsschrëtt fir graduell zoufälleg Kaméidi an d'Donnéeën ze sprëtzen, a léiere dann den Diffusiounsprozess ëmzedréien an déi erfuerderlech Dateproben aus dem Kaméidi eleng opzebauen. Et funktionnéiert an zwou Etappen: Forward a Reverse Diffusioun.
D'Forward Diffusiounsmethod, kritt en Datepunkt vun der richteger Verdeelung vun der Probe, füügt eng kleng Quantitéit u Kaméidi un d'Probe iwwer eng virausgesat Serie vu Schrëtt. Wéi d'Schrëtt an der Gréisst eropgoen an d'Onendlechkeet unzegoen, verléiert d'Probe all erkennbar Charakteristiken an d'Sequenz fänkt un enger isotropescher Gaussescher Curve un.
Wärend der Réckdiffusioun Phase, den Diffusiounsmodell léiert den Afloss vum zousätzleche Geräischer op d'Biller ëmzedréien an dat produzéiert Bild zréck op seng ursprénglech Form ze féieren andeems Dir probéiert d'Original Input Probe Verdeelung ze gleewen.
E fäerdege Modell kéint dat mat engem richtege Gaussesche Kaméidi-Input an enger Prompt maachen. D'ADM-G Method variéiert vun der viregter an datt e Modell, entweder CLIP oder e personaliséierten Transformator, d'Réckdiffusiounsphase beaflosst andeems d'Textprompt Tokens benotzt déi agefouert ginn.
Gleichfäegkeeten
1. Generatioun vum Bild
Déi populärst a wäit benotzt Benotzung vu GLIDE wäert wahrscheinlech d'Bildsynthese sinn. Och wann d'Biller bescheiden sinn a GLIDE Schwieregkeeten mat Déier / Mënsch Formen huet, ass de Potenzial fir One-Shot Bildproduktioun bal endlos.
Et kann Fotoe vun Déieren, Promi, Landschaften, Gebaier, a vill méi erstellen, an et kann et a verschiddene Konschtstiler wéi och fotorealistesch maachen. D'Autoren vun de Fuerscher behaapten datt GLIDE fäeg ass eng breet Varietéit vun textuellen Inputen an e visuellt Format z'interpretéieren an unzepassen, wéi an de Proben hei drënner gesi ginn.
2. Glidder inpainting
Dem GLIDE seng automatesch Fotoinpainting ass wuel déi faszinéierendst Notzung. GLIDE kann en existent Bild als Input huelen, et mat der Textprompt am Kapp veraarbecht fir Plazen déi musse geännert ginn, an dann aktiv Ännerungen un dës Deeler mat Liichtegkeet maachen.
Et muss a Verbindung mat engem Redaktiounsmodell benotzt ginn, wéi SDEdit, fir nach besser Resultater ze produzéieren. An Zukunft kënnen Apps, déi vu Fäegkeete wéi dës profitéieren, entscheedend sinn fir Code-gratis Bildverännerungs Approchen z'entwéckelen.
Konklusioun
Elo datt mir de Prozess duerchgaang sinn, sollt Dir d'Grondlage vu wéi GLIDE funktionnéiert, wéi och d'Breet vu senge Fäegkeeten an der Bildschafung an der In-Bild Modifikatioun begräifen.
Hannerlooss eng Äntwert