Difuzijski modeli zaludili su svijet puštanjem u promet Dall-E 2, Googleov Imagen, Stabilna difuzijai Sredina putovanja, pokrećući inovacije i šireći granice strojnog učenja.
Ovi modeli mogu proizvesti gotovo neograničen broj slika iz riječi, uključujući fotorealistične, magične, futurističke i, naravno, slatke slike.
Ove mogućnosti ponovno zamišljaju što za ljude znači povezivanje sa silicijem, dajući nam mogućnost da napravimo praktički bilo koju sliku koju možemo zamisliti.
Kako se ovi modeli razvijaju ili sljedeća generativna paradigma preuzima, ljudi će moći proizvesti slike, filmove i druga impresivna iskustva samo s mišlju.
U ovom ćemo članku raspravljati o difuzijski model, stabilna difuzija, kako radi i model difuzije u vodiču za slikanje, između ostalog.
Što je difuzijski model?
Modeli strojnog učenja koji mogu stvoriti nove podatke iz podataka o obuci nazivaju se generativnim modelima. Ostali generativni modeli uključuju modele temeljene na protoku, varijacijske autokodere i generativne kontradiktorne mreže (GAN).
Svaki može generirati slike izvrsne kvalitete. Difuzijski modeli uče oporaviti podatke preokrećući ovaj proces dodavanja šuma nakon što oštete podatke obuke dodavanjem šuma. Drugim riječima, difuzijski modeli mogu stvoriti koherentne slike iz buke.
Difuzijski modeli uče uvođenjem šuma u slike, koje model kasnije svladava uklanjanjem. Kako bi proizveo realistične slike, model zatim primjenjuje ovu tehniku uklanjanja šuma na nasumične početne vrijednosti.
Uvjetovanjem procesa proizvodnje slike, ovi se modeli mogu koristiti u kombinaciji s navođenjem teksta u sliku za generiranje gotovo neograničenog broja slika samo iz teksta. Sjeme se može usmjeravati unosima iz ugrađivanja kao što je CLIP kako bi se dobile snažne mogućnosti pretvaranja teksta u sliku.
Difuzijski modeli mogu obavljati različite zadatke, uključujući stvaranje slike, uklanjanje šuma sa slike, in-painting, out-painting i difuziju bitova.
Sada, što je stabilna difuzija?
Stable Diffusion je model strojnog učenja za stvaranje slika temeljenih na tekstu koji nudi Stabilnost.AI. Sposoban je generirati slike iz teksta.
Komponente stabilne difuzije
Stabilna difuzija je sustav koji se sastoji od nekoliko komponenti i koncepata. To nije jedan model. Kada pogledamo iza haube, prvo što vidimo je da postoji komponenta za razumijevanje teksta koja pretvara tekstualne informacije u numeričku reprezentaciju koja bilježi koncepte teksta.
Ovaj koder teksta možemo nazvati transformatorom jezični model (tehnički: koder teksta CLIP modela). Uzima ulazni tekst i generira popis cijelih brojeva (vektor) za svaku riječ/token u tekstu. Ti se podaci zatim dostavljaju Image Generatoru koji se sastoji od nekoliko komponenti.
Postoje dva koraka u generatoru slike:
1. Stvoritelj slikovnih informacija
Ovaj element je glavna komponenta u stabilnoj difuziji. Tu dolazi do najvećeg poboljšanja performansi u odnosu na ranije verzije.
Ova komponenta prolazi kroz nekoliko faza kako bi pružila slikovne podatke. Kreator slikovne informacije djeluje samo unutar slikovnog informacijskog prostora (ili latentnog prostora).
Brži je od ranijih modela difuzije koji su radili u prostoru piksela zbog ove karakteristike. Tehnički govoreći, ova se komponenta sastoji od algoritma za raspoređivanje i UNeta neuronska mreža.
Proces koji se odvija u ovoj komponenti naziva se "difuzija". Slika visoke kvalitete u konačnici se proizvodi kao rezultat obrade informacija u koracima (od strane sljedeće komponente, dekodera slike).
2. Dekoder slike
Koristeći podatke koje je primio od proizvođača informacija, dekoder slike stvara sliku. Izvršava se samo jednom kako bi se stvorila gotova pikselna slika na kraju operacije.
Vodič za oslikavanje stabilne difuzije
Stabilno difuzno slikanje slika je tehnika popunjavanja nedostajućih ili oštećenih područja slike. Svrha slikovnog slikanja je prikriti činjenicu da je slika restaurirana.
Ova se tehnika često koristi za uklanjanje neželjenih stvari sa slike ili za obnavljanje oštećenih područja povijesnih fotografija. Stable Diffusion Inpainting je relativno novi način inpaintinga koji daje obećavajuće učinke.
Slijedeći upute u nastavku počet ćete istraživati inpainting i mijenjati postojeće fotografije ako želite pokušati inpainting sa stabilnom difuzijom:
- Idi na Huggingface Stabilno difuzijsko oslikavanje
- Učitajte vlastitu sliku
- Izbrišite dio slike koji treba zamijeniti.
- Unesite svoj upit ovdje (što želite dodati umjesto onoga što uklanjate)
- Odaberite "pokreni"
U videu na vrhu postavljamo sliku s tri limuna i mijenjamo ih jabukama. Osobno preporučujem da ga isprobate s vlastitim fotografijama i uputama.
Zaključak
Općenito, ravnomjerno difuzijsko slikanje izvrsna je metoda za proizvodnju lažnih slika ili videozapisa koji izgledaju krajnje stvarni. Kako se krećemo prema novom tehnološkom napretku, bit će sve teže i teže razlikovati autentično od prijevare kako tehnologija napreduje.
Svahir
Prvo poluvrijeme je potpuno nevezano za drugo poluvrijeme. Bilo bi stvarno cool da je autor objasnio kako inpaint funkcionira u okviru modela koji je ranije objasnio, mogao dati uvid. Ali ne! To bi zahtijevalo stvarno razumijevanje, a ne prikupljanje i obradu nasumičnog teksta.