Difúzne modely zachvátili svet búrkou s vydaním Dall-E 2, Imagen od Google, Stabilná difúziaa Stredná cesta, podnecuje inovácie a rozširuje hranice strojového učenia.
Tieto modely dokážu vytvárať takmer neobmedzené množstvo obrázkov zo slovných výziev, vrátane fotorealistických, magických, futuristických a samozrejme roztomilých obrázkov.
Tieto schopnosti prehodnocujú, čo pre ľudí znamená prepojenie s kremíkom, čo nám dáva možnosť vytvoriť prakticky akýkoľvek obrázok, aký si dokážeme predstaviť.
Keď sa tieto modely vyvinú alebo prevezme ďalšia generatívna paradigma, ľudia budú schopní produkovať obrázky, filmy a iné pohlcujúce zážitky iba myšlienkou.
V tomto príspevku budeme diskutovať o difúzny model, stabilná difúzia, ako to funguje, a okrem iného návod na maľovanie modelu difúzie.
Čo je to model difúzie?
Modely strojového učenia, ktoré dokážu vytvárať nové údaje z tréningových údajov, sa označujú ako generatívne modely. Medzi ďalšie generatívne modely patria modely založené na toku, variačné automatické kódovače a generatívne siete protivníkov (GAN).
Každý môže vytvárať obrázky vynikajúcej kvality. Difúzne modely sa učia obnoviť dáta obrátením tohto procesu pridávania šumu po poškodení trénovacích dát pridaním šumu. Inak povedané, difúzne modely sú schopné vytvárať koherentné obrázky zo šumu.
Difúzne modely sa učia vnášaním šumu do obrázkov, ktorého odstránenie si model neskôr osvojí. Aby bolo možné vytvoriť realistické vizuálne prvky, model potom aplikuje túto techniku odšumovania na náhodné semená.
Podmienením procesu výroby obrázkov je možné tieto modely použiť v spojení s vedením textu na obrázok na generovanie takmer neobmedzeného počtu obrázkov len z textu. Semená môžu byť nasmerované pomocou vstupov z vložení, ako je CLIP, aby sa poskytli silné možnosti prevodu textu na obrázok.
Difúzne modely môžu vykonávať rôzne úlohy vrátane vytvárania obrazu, odšumovania obrazu, premaľovania, premaľovania a bitovej difúzie.
Teraz, čo je stabilná difúzia?
Stable Diffusion je model strojového učenia pre tvorbu obrázkov na báze textu, ktorý poskytuje Stabilita.AI. Je schopný generovať obrázky z textu.
Komponenty stabilnej difúzie
Stabilná difúzia je systém pozostávajúci z niekoľkých komponentov a konceptov. Nejde o jeden model. Keď sa pozrieme za kapotu, prvá vec, ktorú vidíme, je, že existuje komponent na porozumenie textu, ktorý prevádza textové informácie na číselnú reprezentáciu, ktorá zachytáva koncepty textu.
Tento textový kódovač môžeme nazvať Transformer jazykový model (technicky: textový kódovač modelu CLIP). Zoberie vstupný text a vygeneruje zoznam celých čísel (vektor) pre každé slovo/token v texte. Tieto údaje sa potom dodajú do generátora obrázkov, ktorý sa skladá z niekoľkých komponentov.
V generátore obrázkov sú dva kroky:
1. Tvorca obrazových informácií
Hlavnou zložkou stabilnej difúzie je tento prvok. Je to miesto, kde sa vykonáva väčšina vylepšení výkonu oproti predchádzajúcim verziám.
Tento komponent prechádza niekoľkými fázami, aby poskytol obrazové údaje. Tvorca obrazovej informácie pôsobí iba v rámci obrazového informačného priestoru (alebo latentného priestoru).
Vďaka tejto vlastnosti je rýchlejšia ako predchádzajúce modely difúzie, ktoré fungovali v priestore pixelov. Technicky povedané, tento komponent sa skladá z plánovacieho algoritmu a UNet neurónové sieť.
Proces, ktorý prebieha v tomto komponente, sa označuje ako „difúzia“. Vysokokvalitný obraz sa nakoniec vytvorí ako výsledok postupného spracovania informácií (ďalším komponentom, obrazovým dekodérom).
2. Obrazový dekodér
Obrazový dekodér na základe údajov, ktoré dostal od výrobcu informácií, vytvorí obraz. Vykoná sa len raz, aby sa na konci operácie vytvoril hotový pixelový obrázok.
Návod na nanášanie stabilnej difúzie
Stabilná difúzna maľba obrazu je technika vypĺňania chýbajúcich alebo poškodených oblastí obrazu. Účelom maľby obrazu je zakryť skutočnosť, že obraz bol reštaurovaný.
Táto technika sa často používa na odstránenie nežiaducich vecí z obrazu alebo na obnovu poškodených oblastí historických fotografií. Stabilná difúzna maľba je relatívne nedávny spôsob maľby, ktorý prináša sľubné účinky.
Podľa nižšie uvedených pokynov môžete začať skúmať maľovanie a upravovať existujúce fotografie, ak si chcete vyskúšať maľovanie so stabilným šírením:
- Prejdite na Huggingface Stabilné difúzne maľovanie
- Nahrajte svoj vlastný obrázok
- Vymažte časť obrázka, ktorú je potrebné nahradiť.
- Tu zadajte výzvu (čo chcete pridať namiesto toho, čo odstraňujete)
- Vyberte „spustiť“
Vo videu hore nahrajeme obrázok s tromi citrónmi a vymeníme ich za jablká. Osobne odporúčam vyskúšať si to s vlastnými fotografiami a pokynmi.
záver
Vo všeobecnosti je maľovanie rovnomernou difúziou vynikajúcou metódou na vytváranie falošných obrázkov alebo videí, ktoré sa zdajú byť mimoriadne skutočné. Ako sa posúvame smerom k novému technologickému pokroku, s postupujúcim technologickým pokrokom bude čoraz ťažšie rozlíšiť medzi autentickými a podvodnými.
Swahir
Prvý polčas absolútne nesúvisí s druhým polčasom. Bolo by naozaj skvelé, keby autor vysvetlil, ako funguje inpaint v rámci modelu, ktorý vysvetlil predtým, mohol poskytnúť náhľad. Ale nie! To by si vyžadovalo skutočné pochopenie, a nie zhromažďovanie a spracovanie náhodného textu.