S největší pravděpodobností víte, že počítač dokáže popsat obrázek.
Například obrázek psa, který si hraje s vašimi dětmi, lze přeložit jako „pes a děti na zahradě“. Věděli jste ale, že nyní je možný i opačný postup? Zadáte několik slov a zařízení vygeneruje nový obrázek.
Na rozdíl od vyhledávání Google, které prohledává existující fotografie, je to vše čerstvé. V posledních letech je OpenAI jednou z předních organizací, které hlásí ohromující výsledky.
Trénují své algoritmy na masivních textových a obrazových databázích. Publikovali článek o svém obrazovém modelu GLIDE, který byl natrénován na stovkách milionů fotografií. Pokud jde o fotorealismus, překonává jejich předchozí model „DALL-E“.
V tomto příspěvku se podíváme na OpenAI's GLIDE, jednu z několika fascinujících iniciativ zaměřených na vytváření a úpravu fotorealistických obrázků pomocí textově řízených difúzních modelů. Pojďme začít.
Co je to Otevřete AI Glide?
Zatímco většinu obrázků lze popsat slovy, vytváření obrázků z textových vstupů vyžaduje specializované znalosti a značné množství času.
Umožnění agentovi umělé inteligence produkovat fotorealistické obrázky z podnětů přirozeného jazyka lidem nejen umožňuje vytvářet bohatý a rozmanitý vizuální materiál s nebývalou lehkostí, ale také umožňuje jednodušší iterativní vylepšování a jemnou kontrolu nad vytvořenými obrázky.
GLIDE lze použít k úpravě stávajících fotografií pomocí textových výzev v přirozeném jazyce k vkládání nových objektů, vytváření stínů a odrazů, provádění obrazová malba, A tak dále.
Dokáže také proměnit základní kresby ve fotorealistické fotografie a má výjimečné možnosti výroby a oprav s nulovým počtem vzorků pro složité situace.
Nedávný výzkum ukázal, že modely difúze založené na pravděpodobnosti mohou také vytvářet vysoce kvalitní syntetické obrázky, zejména v kombinaci s přístupem, který vyvažuje rozmanitost a věrnost.
OpenAI publikoval a model řízené difúze v květnu, což umožňuje, aby modely difúze byly podmíněny štítky klasifikátoru. GLIDE tento úspěch vylepšuje tím, že přináší řízenou difúzi k problému vytváření obrázků podmíněných textem.
Po trénování modelu difúze GLIDE s 3.5 miliardami parametrů pomocí textového kodéru, aby se přizpůsobil popisům v přirozeném jazyce, výzkumníci testovali dvě alternativní strategie navádění: navádění CLIP a navádění bez klasifikátoru.
CLIP je škálovatelná technika pro učení společných reprezentací textu a obrázků, která poskytuje skóre založené na tom, jak blízko je obrázek k titulku.
Tým použil tuto strategii ve svých modelech difúze nahrazením klasifikátoru modelem CLIP, který modely „řídí“. Mezitím je navádění bez klasifikátorů strategií pro směrování modelů difúze, která nezahrnuje trénování samostatného klasifikátoru.
Architektura GLIDE
Architektura GLIDE se skládá ze tří komponent: Ablated Diffusion Model (ADM) trénovaný pro generování obrázku 64 × 64, textového modelu (transformátoru), který ovlivňuje generování obrázku prostřednictvím textové výzvy, a modelu převzorkování, který převádí naše malé 64 × 64. obrázky na lépe interpretovatelné 256 x 256 pixelů.
První dvě složky spolupracují na řízení procesu generování obrázků tak, aby vhodně odrážely textovou výzvu, zatímco druhá komponenta je nutná k tomu, aby obrázky, které vytváříme, byly snáze pochopitelné. Projekt GLIDE byl inspirován a zpráva zveřejněná v roce 2021 který ukázal, že techniky ADM překonaly současné populární, nejmodernější generativní modely, pokud jde o kvalitu vzorku obrazu.
Pro ADM autoři GLIDE použili stejný model ImageNet 64 x 64 jako Dhariwal a Nichol, ale s 512 kanály místo 64. Model ImageNet má v důsledku toho zhruba 2.3 miliardy parametrů.
Tým GLIDE, na rozdíl od Dhariwala a Nichola, chtěl mít větší přímou kontrolu nad procesem generování obrazu, a tak zkombinoval vizuální model s transformátorem umožňujícím pozornost. GLIDE vám dává určitou kontrolu nad výstupem procesu generování obrázků zpracováním textových vstupních výzev.
Toho je dosaženo trénováním modelu transformátoru na vhodně velké datové sadě fotografií a popisků (podobně jako v projektu DALL-E).
Text je zpočátku zakódován do série K tokenů, aby byl podmíněn. Poté se tokeny načtou do modelu transformátoru. Výstup transformátoru je pak možné využít dvěma způsoby. U modelu ADM se místo vložení třídy používá konečné vložení tokenu.
Za druhé, konečná vrstva vložení tokenů – řada vektorů vlastností – je promítnuta nezávisle na rozměrech pro každou vrstvu pozornosti v modelu ADM a zřetězena do každého kontextu pozornosti.
Ve skutečnosti to modelu ADM umožňuje vytvořit obrázek z nových kombinací podobných textových tokenů jedinečným a fotorealistickým způsobem, založeným na jeho naučeném porozumění vstupním slovům a jejich souvisejícím obrázkům. Tento transformátor pro kódování textu obsahuje 1.2 miliardy parametrů a využívá 24 zbytkových bloků o šířce 2048.
A konečně, model difúze upsampleru obsahuje přibližně 1.5 miliardy parametrů a liší se od základního modelu v tom, že jeho textový kodér je menší, se šířkou 1024 a 384 základních kanálů, ve srovnání se základním modelem. Tento model, jak název napovídá, pomáhá při upgradu vzorku za účelem zlepšení interpretovatelnosti pro stroje i lidi.
Difúzní model
GLIDE generuje obrázky pomocí své vlastní verze ADM (ADM-G pro „guided“). Model ADM-G je modifikací difúzního modelu U-net. Difúzní model U-net se dramaticky liší od běžnějších technik syntézy obrazu, jako jsou VAE, GAN a transformátory.
Vybudují Markovův řetězec kroků difúze, aby do dat postupně vkládali náhodný šum, a pak se naučili zvrátit proces difúze a znovu sestavit požadované vzorky dat ze samotného šumu. Funguje ve dvou fázích: dopředná a zpětná difúze.
Metoda dopředné difúze, daná datovým bodem ze skutečné distribuce vzorku, přidává do vzorku nepatrné množství šumu v předem nastavené sérii kroků. Jak se kroky zvětšují a blíží se nekonečnu, vzorek ztrácí všechny rozpoznatelné charakteristiky a sekvence začíná připomínat izotropní Gaussovu křivku.
Během zpětné difúze fáze, model difúze učí se zvrátit vliv přidaného šumu na obrázky a přivést vytvořený obraz zpět do původního tvaru tím, že se pokusí připodobnit původnímu rozložení vstupního vzorku.
Dokončený model tak mohl učinit se skutečným vstupem Gaussova šumu a výzvou. Metoda ADM-G se liší od předchozí v tom, že model, buď CLIP, nebo přizpůsobený transformátor, ovlivňuje fázi zpětné difúze tím, že využívá tokeny textové výzvy, které jsou vloženy.
Schopnosti plachtění
1. Generování obrazu
Nejoblíbenějším a nejrozšířenějším využitím GLIDE bude pravděpodobně syntéza obrazu. Přestože jsou obrázky skromné a GLIDE má potíže se zvířecími/lidskými formami, potenciál pro produkci jednorázových obrázků je téměř nekonečný.
Dokáže vytvářet fotografie zvířat, celebrit, krajin, budov a mnoho dalšího, a to v různých uměleckých stylech i fotorealisticky. Autoři výzkumníků tvrdí, že GLIDE je schopen interpretovat a adaptovat širokou škálu textových vstupů do vizuálního formátu, jak je vidět na ukázkách níže.
2. Klouzavé malování
Automatické malování fotografií GLIDE je pravděpodobně nejfascinující použití. GLIDE může vzít existující obrázek jako vstup, zpracovat jej s ohledem na textovou výzvu pro umístění, která je třeba změnit, a poté snadno provádět aktivní úpravy těchto částí.
Pro dosažení ještě lepších výsledků je nutné jej používat ve spojení s modelem úprav, jako je SDEdit. V budoucnu mohou být aplikace, které využívají možnosti, jako jsou tyto, zásadní pro vývoj přístupů ke změně obrázků bez kódu.
Proč investovat do čističky vzduchu?
Nyní, když jsme prošli procesem, měli byste pochopit základy toho, jak GLIDE funguje, stejně jako šíři jeho možností při vytváření obrázků a úpravách v obraze.
Napsat komentář