Difúzní modely zachvátily zeměkouli bouří s vydáním Dall-E 2, Imagen od Googlu, Stabilní difúze, a Střední cesta, podněcuje inovace a rozšiřuje hranice strojového učení.
Tyto modely dokážou vytvořit téměř neomezené množství obrázků ze slovních výzev, včetně obrázků fotorealistických, magických, futuristických a samozřejmě roztomilých obrázků.
Tyto schopnosti přetvářejí to, co pro lidi znamená propojení s křemíkem, což nám dává možnost vytvořit prakticky jakýkoli obrázek, jaký si dokážeme představit.
Jak se tyto modely vyvinou nebo převezme další generativní paradigma, lidé budou schopni vytvářet obrazy, filmy a další pohlcující zážitky pouze myšlenkou.
V tomto příspěvku budeme diskutovat o difuzní model, stabilní difuze, jak to funguje, a mimo jiné výukový program pro malování modelu difuze.
Co je model difúze?
Modely strojového učení, které mohou vytvářet nová data z trénovacích dat, se označují jako generativní modely. Mezi další generativní modely patří modely založené na toku, variační autokodéry a generativní adversariální sítě (GAN).
Každý může vytvářet obrázky vynikající kvality. Difúzní modely se učí obnovovat data obrácením tohoto procesu přidávání šumu po poškození trénovacích dat přidáním šumu. Jinak řečeno, difúzní modely jsou schopny vytvořit koherentní obrázky ze šumu.
Difúzní modely se učí vnášením šumu do obrázků, jehož odstranění si model později osvojí. Aby bylo možné vytvořit realistické vizuály, model poté aplikuje tuto techniku odšumování na náhodná semena.
Díky úpravě procesu výroby obrázků lze tyto modely použít ve spojení s vedením textu na obrázek k vytvoření téměř neomezeného počtu obrázků pouze z textu. Semínka mohou být nasměrována pomocí vstupů z vložení, jako je CLIP, aby poskytly silné možnosti převodu textu na obrázek.
Difúzní modely mohou provádět různé úkoly, včetně vytváření obrazu, odšumování obrazu, malování, překreslování a bitové difúze.
Nyní, co je stabilní difúze?
Stable Diffusion je model strojového učení pro tvorbu textových obrázků poskytovaný společností Stabilita.AI. Je schopen generovat obrázky z textu.
Složky stabilní difúze
Stabilní difúze je systém složený z několika komponent a konceptů. Není to jeden model. Když se podíváme za kapotu, první věc, kterou vidíme, je, že existuje komponenta pro porozumění textu, která převádí textové informace na číselnou reprezentaci, která zachycuje koncepty textu.
Tento textový kodér můžeme nazvat Transformer jazykový model (technicky: textový kodér modelu CLIP). Vezme vstupní text a vygeneruje seznam celých čísel (vektor) pro každé slovo/token v textu. Tato data jsou poté dodávána do Image Generator, který se skládá z několika komponent.
V generátoru obrázků jsou dva kroky:
1. Tvůrce obrazových informací
Hlavní složkou stabilní difúze je tento prvek. Je to místo, kde dochází k většině zlepšení výkonu oproti dřívějším verzím.
Tato součást prochází několika fázemi, aby poskytla obrazová data. Tvůrce obrazové informace operuje pouze v rámci obrazového informačního prostoru (nebo latentního prostoru).
Díky této vlastnosti je rychlejší než dřívější difúzní modely, které pracovaly v prostoru pixelů. Technicky vzato se tato komponenta skládá z plánovacího algoritmu a UNet nervová síť.
Proces, který probíhá v této složce, se nazývá „difúze“. Vysoce kvalitní obraz je nakonec vytvořen jako výsledek postupného zpracování informací (další komponentou, obrazovým dekodérem).
2. Obrazový dekodér
Pomocí dat, která obdržel od výrobce informací, vytváří obrazový dekodér obraz. Provede se pouze jednou, aby se na konci operace vytvořil hotový pixelový obrázek.
Výukový program Stable Diffusion Impainting
Obrazová malba Stable Diffusion je technika vyplnění chybějících nebo poškozených oblastí obrazu. Účelem malby obrazu je zakrýt skutečnost, že obraz byl restaurován.
Tato technika se často používá k odstranění nežádoucích věcí z obrazu nebo k obnovení poškozených oblastí historických fotografií. Stable Diffusion Inpainting je relativně nový způsob malby, který přináší slibné účinky.
Podle níže uvedených pokynů můžete začít prozkoumávat malování a upravovat stávající fotografie, pokud chcete vyzkoušet malování se stabilním šířením:
- Přejděte na Huggingface Stabilní difúzní natírání
- Nahrajte svůj vlastní obrázek
- Vymažte část obrázku, kterou je třeba vyměnit.
- Zde zadejte výzvu (co chcete přidat místo toho, co odebíráte)
- Vyberte „spustit“
Ve videu nahoře nahrajeme obrázek se třemi citrony a vyměníme je za jablka. Osobně doporučuji vyzkoušet s vlastními fotografiemi a podněty.
Proč investovat do čističky vzduchu?
Obecně platí, že rovnoměrná difúzní malba je vynikající metodou pro vytváření falešných obrázků nebo videí, které se zdají být extrémně skutečné. Jak postupujeme směrem k novému technologickému pokroku, bude stále těžší a těžší rozlišovat mezi autentickými a podvodnými, jak se technologie vyvíjejí.
Swahir
První poločas s druhým poločasem absolutně nesouvisí. Bylo by opravdu skvělé, kdyby autor vysvětlil, jak inpaint funguje v rámci modelu, který vysvětlil dříve, mohl poskytnout náhled. Ale ne! To by vyžadovalo skutečné porozumění, spíše než shromažďování a zpracovávání náhodného textu.