Difuzijski modeli so preplavili svet z izdajo Dall-E 2, Googlov Imagen, Stabilna difuzijain vmesna pot, ki spodbuja inovacije in širi meje strojnega učenja.
Ti modeli lahko ustvarijo skoraj neomejeno število slik iz besednih pozivov, vključno s fotorealističnimi, magičnimi, futurističnimi in seveda srčkanimi slikami.
Te zmožnosti na novo predstavljajo, kaj za ljudi pomeni povezovanje s silicijem, kar nam daje možnost, da naredimo praktično vsako sliko, ki si jo lahko zamislimo.
Ko se ti modeli razvijajo ali prevzame naslednja generativna paradigma, bodo ljudje lahko ustvarili slike, filme in druge poglobljene izkušnje le z mislijo.
V tej objavi bomo razpravljali o difuzijski model, med drugim stabilna difuzija, kako deluje, in model difuzije v vadnici za slikanje.
Kaj je difuzijski model?
Modeli strojnega učenja, ki lahko ustvarijo nove podatke iz podatkov o usposabljanju, se imenujejo generativni modeli. Drugi generativni modeli vključujejo modele, ki temeljijo na toku, variacijske samodejne kodirnike in generativna kontradiktorna omrežja (GAN).
Vsak lahko ustvari slike odlične kakovosti. Difuzijski modeli se naučijo obnoviti podatke tako, da obrnejo ta proces dodajanja šuma, potem ko z dodajanjem šuma poškodujejo podatke o usposabljanju. Povedano drugače, difuzijski modeli lahko ustvarijo koherentne slike iz hrupa.
Difuzijski modeli se učijo tako, da slikam dodajo šum, ki ga model kasneje obvlada odstranjevanje. Za ustvarjanje realističnih vizualnih podob model nato to tehniko odstranjevanja šumov uporabi za naključna semena.
S pogojevanjem postopka izdelave slik se lahko ti modeli uporabljajo v povezavi z vodenjem besedila v sliko za ustvarjanje skoraj neomejenega števila slik samo iz besedila. Začetke je mogoče usmerjati z vhodi iz vdelav, kot je CLIP, da se zagotovi močna zmogljivost pretvorbe besedila v sliko.
Difuzijski modeli lahko izvajajo različne naloge, vključno z ustvarjanjem slike, odstranjevanjem šumov na sliki, vnašanjem, prebarvanjem in bitno difuzijo.
Zdaj, kaj je stabilna difuzija?
Stable Diffusion je model strojnega učenja za ustvarjanje besedilnih slik, ki ga zagotavlja Stabilnost.AI. Sposoben je generirati slike iz besedila.
Komponente stabilne difuzije
Stabilna difuzija je sistem, sestavljen iz več komponent in konceptov. Ne gre za en sam model. Ko pogledamo za pokrovom, prva stvar, ki jo vidimo, je, da obstaja komponenta za razumevanje besedila, ki pretvori informacije o besedilu v številsko predstavitev, ki zajame koncepte besedila.
Ta kodirnik besedila lahko imenujemo transformator jezikovni model (tehnično: kodirnik besedila modela CLIP). Vzame vhodno besedilo in ustvari seznam celih števil (vektor) za vsako besedo/žeton v besedilu. Ti podatki se nato pošljejo v Image Generator, ki je sestavljen iz več komponent.
V generatorju slik sta dva koraka:
1. Ustvarjalec slikovnih informacij
Glavna komponenta v stabilni difuziji je ta element. Tam je narejena večina izboljšav v zmogljivosti v primerjavi s prejšnjimi različicami.
Ta komponenta gre skozi več stopenj, da zagotovi slikovne podatke. Ustvarjalec slikovne informacije deluje samo znotraj slikovnega informacijskega prostora (ali latentnega prostora).
Zaradi te značilnosti je hitrejši od prejšnjih difuzijskih modelov, ki so delovali v prostoru slikovnih pik. Tehnično gledano je ta komponenta sestavljena iz algoritma za razporejanje in UNeta nevronska mreža.
Proces, ki poteka v tej komponenti, se imenuje "difuzija". Visokokakovostna slika na koncu nastane kot rezultat obdelave informacij v korakih (z naslednjo komponento, slikovnim dekodirnikom).
2. Dekoder slike
S pomočjo podatkov, ki jih je prejel od proizvajalca informacij, dekoder slike ustvari sliko. Izvede se samo enkrat, da ob zaključku operacije ustvari končno sliko slikovnih pik.
Vadnica za slikanje s stabilno difuzijo
Stabilno difuzijsko slikovno slikanje je tehnika zapolnjevanja manjkajočih ali poškodovanih področij slike. Namen slikovnega slikanja je prikriti dejstvo, da je bila slika restavrirana.
Ta tehnika se pogosto uporablja za odstranitev nezaželenih stvari s slike ali za obnovitev poškodovanih območij zgodovinskih fotografij. Stabilno difuzijsko barvanje je razmeroma nov način slikanja, ki daje obetajoče učinke.
Če boste sledili spodnjim navodilom, boste začeli raziskovati slikanje in spreminjanje obstoječih fotografij, če želite poskusiti slikati slikanje s stabilno difuzijo:
- Pojdi na Huggingface Stabilno difuzijsko barvanje
- Naložite svojo sliko
- Izbrišite del slike, ki ga je treba zamenjati.
- Tukaj vnesite svoj poziv (kaj želite dodati namesto tega, kar želite odstraniti)
- Izberite "zaženi"
V videu na vrhu naložimo sliko s tremi limonami in jih zamenjamo za jabolka. Osebno priporočam, da ga preizkusite z lastnimi fotografijami in navodili.
zaključek
Na splošno je slikanje z enakomerno difuzijo odlična metoda za izdelavo ponarejenih slik ali videoposnetkov, ki se zdijo izjemno resnični. Ko se premikamo proti novemu tehnološkemu napredku, bo z napredkom tehnologije vedno težje razlikovati med pristnimi in goljufivimi.
Swahir
Prvi polčas je popolnoma nepovezan z drugim polčasom. Bilo bi res kul, če bi avtor razložil, kako deluje inpaint v okviru modela, ki ga je razložil prej, lahko dal vpogled. Vendar ne! To bi zahtevalo resnično razumevanje, namesto zbiranja in obdelave naključnega besedila.