S najväčšou pravdepodobnosťou si uvedomujete, že počítač dokáže opísať obrázok.
Napríklad obrázok psa, ktorý sa hrá s vašimi deťmi, možno preložiť ako „pes a deti v záhrade“. Vedeli ste však, že teraz je možný aj opačný postup? Zadáte niekoľko slov a zariadenie vygeneruje nový obrázok.
Na rozdiel od vyhľadávania Google, ktoré prehľadáva existujúce fotografie, je to všetko čerstvé. V posledných rokoch je OpenAI jednou z popredných organizácií, ktorá hlási ohromujúce výsledky.
Trénujú svoje algoritmy na rozsiahlych textových a obrázkových databázach. Publikovali článok o svojom obrazovom modeli GLIDE, ktorý bol natrénovaný na stovkách miliónov fotografií. Čo sa týka fotorealizmu, prekonáva ich predchádzajúci model „DALL-E“.
V tomto príspevku sa pozrieme na GLIDE od OpenAI, jednu z niekoľkých fascinujúcich iniciatív zameraných na vytváranie a úpravu fotorealistických obrázkov pomocou textových modelov difúzie. Poďme začať.
Čo je Otvorte AI Glide?
Zatiaľ čo väčšinu obrázkov možno opísať slovami, vytváranie obrázkov z textových vstupov si vyžaduje špecializované znalosti a značné množstvo času.
Umožnenie agentovi AI produkovať fotorealistické obrázky z výziev v prirodzenom jazyku ľuďom nielenže umožňuje vytvárať bohatý a rôznorodý vizuálny materiál s bezprecedentnou ľahkosťou, ale umožňuje aj jednoduchšie iteratívne vylepšovanie a jemnú kontrolu nad vytvorenými obrázkami.
GLIDE možno použiť na úpravu existujúcich fotografií využitím textových výziev v prirodzenom jazyku na vloženie nových objektov, vytvorenie tieňov a odrazov, obrazová maľba, A tak ďalej.
Dokáže tiež premeniť základné perokresby na fotorealistické fotografie a má výnimočné možnosti výroby a opravy s nulovou vzorkou pre zložité situácie.
Nedávny výskum ukázal, že modely difúzie založené na pravdepodobnosti môžu tiež vytvárať vysokokvalitné syntetické obrázky, najmä v kombinácii s vodiacim prístupom, ktorý vyvažuje rozmanitosť a vernosť.
OpenAI zverejnila a model riadenej difúzie v máji, čo umožňuje, aby boli modely difúzie podmienené štítkami klasifikátora. GLIDE vylepšuje tento úspech tým, že prináša riadenú difúziu do problému vytvárania obrázkov podmienených textom.
Po trénovaní modelu difúzie GLIDE s 3.5 miliardami parametrov pomocou textového kódovača na prispôsobenie popisu prirodzeného jazyka výskumníci testovali dve alternatívne stratégie vedenia: navádzanie CLIP a navádzanie bez klasifikátora.
CLIP je škálovateľná technika na učenie sa spoločných reprezentácií textu a obrázkov, ktorá poskytuje skóre založené na tom, ako blízko je obrázok k titulku.
Tím použil túto stratégiu vo svojich modeloch difúzie nahradením klasifikátora modelom CLIP, ktorý „riadi“ modely. Medzitým je vedenie bez klasifikátorov stratégiou smerovania modelov difúzie, ktoré nezahŕňajú školenie samostatného klasifikátora.
Architektúra GLIDE
Architektúra GLIDE pozostáva z troch komponentov: Ablated Diffusion Model (ADM) vyškolený na generovanie obrázka s rozmermi 64 × 64, textový model (transformátor), ktorý ovplyvňuje generovanie obrázka prostredníctvom textovej výzvy, a model prevzorkovania, ktorý konvertuje naše malé rozmery 64 × 64. obrázky na lepšie interpretovateľné 256 x 256 pixelov.
Prvé dva komponenty spolupracujú na riadení procesu generovania obrázkov tak, aby vhodne odrážali textovú výzvu, zatiaľ čo druhý komponent je potrebný na to, aby boli obrázky, ktoré vytvárame, ľahšie pochopiteľné. Projekt GLIDE bol inšpirovaný a správa zverejnená v roku 2021 ktorý ukázal, že techniky ADM prekonali v súčasnosti populárne, najmodernejšie generatívne modely, pokiaľ ide o kvalitu vzorky obrazu.
Pre ADM autori GLIDE použili rovnaký model ImageNet 64 x 64 ako Dhariwal a Nichol, ale s 512 kanálmi namiesto 64. Výsledkom toho je, že model ImageNet má zhruba 2.3 miliardy parametrov.
Tím GLIDE, na rozdiel od Dhariwala a Nichola, chcel mať väčšiu priamu kontrolu nad procesom generovania obrazu, a tak skombinoval vizuálny model s transformátorom s podporou pozornosti. GLIDE vám dáva určitú kontrolu nad výstupom procesu generovania obrázkov spracovaním výziev na zadávanie textu.
To sa dosiahne trénovaním modelu transformátora na vhodne veľkom súbore údajov s fotografiami a popiskami (podobne ako v projekte DALL-E).
Text je na začiatku zakódovaný do série K tokenov, aby bol podmienený. Potom sa žetóny načítajú do modelu transformátora. Výstup transformátora je potom možné využiť dvoma spôsobmi. Pre model ADM sa namiesto vloženia triedy používa konečné vloženie tokenu.
Po druhé, posledná vrstva vloženia tokenov – séria vektorov funkcií – sa premieta nezávisle na rozmeroch pre každú vrstvu pozornosti v modeli ADM a spája sa s každým kontextom pozornosti.
V skutočnosti to modelu ADM umožňuje vytvoriť obrázok z nových kombinácií podobných textových tokenov jedinečným a fotorealistickým spôsobom na základe jeho naučeného chápania vstupných slov a ich súvisiacich obrázkov. Tento transformátor na kódovanie textu obsahuje 1.2 miliardy parametrov a využíva 24 zvyškových blokov so šírkou 2048.
Nakoniec, model difúzie upsampler obsahuje približne 1.5 miliardy parametrov a líši sa od základného modelu v tom, že jeho textový kódovač je v porovnaní so základným modelom menší, so šírkou 1024 a 384 základných kanálov. Tento model, ako naznačuje názov, pomáha pri aktualizácii vzorky, aby sa zlepšila interpretovateľnosť pre stroje aj pre ľudí.
Difúzny model
GLIDE generuje obrázky pomocou vlastnej verzie ADM (ADM-G pre „riadený“). Model ADM-G je modifikáciou modelu difúznej U-siete. Model difúznej U-siete sa dramaticky líši od bežnejších techník syntézy obrazu, ako sú VAE, GAN a transformátory.
Vybudujú Markovov reťazec krokov difúzie na postupné vnášanie náhodného šumu do údajov a potom sa naučia zvrátiť proces difúzie a prestavať požadované vzorky údajov zo samotného šumu. Funguje v dvoch fázach: dopredná a spätná difúzia.
Metóda doprednej difúzie, získaná dátovým bodom zo skutočnej distribúcie vzorky, pridáva do vzorky malé množstvo šumu počas vopred nastavenej série krokov. Ako sa kroky zväčšujú a blížia sa k nekonečnu, vzorka stráca všetky rozpoznateľné charakteristiky a sekvencia začína pripomínať izotropnú Gaussovu krivku.
Počas spätnej difúzie fáza, model difúzie sa naučí zvrátiť vplyv pridaného šumu na obrázky a priviesť vytvorený obrázok späť do jeho pôvodného tvaru tak, že sa pokúsi podobať pôvodnému rozdeleniu vstupnej vzorky.
Dokončený model to môže urobiť so skutočným vstupom Gaussovho šumu a výzvou. Metóda ADM-G sa líši od predchádzajúcej v tom, že model, buď CLIP alebo prispôsobený transformátor, ovplyvňuje fázu spätného šírenia tým, že využíva tokeny textovej výzvy, ktoré sa zadávajú.
Schopnosti kĺzania
1. Generovanie obrazu
Najpopulárnejším a najpoužívanejším využitím GLIDE bude pravdepodobne syntéza obrazu. Aj keď sú obrázky skromné a GLIDE má problémy so zvieracími/ľudskými formami, potenciál pre produkciu jednorazových obrázkov je takmer nekonečný.
Dokáže vytvárať fotografie zvierat, celebrít, krajiniek, budov a mnoho ďalšieho, a to v rôznych umeleckých štýloch aj fotorealisticky. Autori výskumníkov tvrdia, že GLIDE je schopný interpretovať a adaptovať širokú škálu textových vstupov do vizuálneho formátu, ako je vidieť na nižšie uvedených ukážkach.
2. Kĺzavé maľovanie
Automatické maľovanie fotografií GLIDE je pravdepodobne najfascinujúcejšie použitie. GLIDE dokáže zobrať existujúci obrázok ako vstup, spracovať ho s textovou výzvou pre miesta, ktoré je potrebné zmeniť, a potom ľahko vykonať aktívne úpravy týchto častí.
Na dosiahnutie ešte lepších výsledkov sa musí použiť v spojení s modelom úprav, ako je napríklad SDEdit. V budúcnosti môžu byť aplikácie, ktoré využívajú možnosti, ako sú tieto, kľúčové pri vývoji prístupov na úpravu obrázkov bez kódu.
záver
Teraz, keď sme prešli celým procesom, mali by ste pochopiť základy toho, ako GLIDE funguje, ako aj šírku jeho možností pri vytváraní obrázkov a úprave obrázkov.
Nechaj odpoveď