Difuzijski modeli su olujom zahvatili globus izdavanjem Dall-E 2, Googleov Imagen, stabilna difuzija, I midjourney, podstičući inovacije i širenje granica mašinskog učenja.
Ovi modeli mogu proizvesti gotovo neograničen broj slika iz riječi, uključujući fotorealistične, magične, futurističke i, naravno, slatke slike.
Ove mogućnosti preispituju šta za ljude znači povezivanje sa silicijumom, dajući nam mogućnost da napravimo praktično bilo koju sliku koju možemo zamisliti.
Kako se ovi modeli razvijaju ili sljedeća generativna paradigma preuzme vlast, ljudi će moći proizvoditi slike, filmove i druga impresivna iskustva samo jednom mišlju.
U ovom postu ćemo razgovarati o difuzioni model, stabilnu difuziju, kako to radi, i tutorijal za slikanje modela difuzije, između ostalog.
Šta je model difuzije?
Modeli mašinskog učenja koji mogu kreirati nove podatke iz podataka obuke nazivaju se generativnim modelima. Ostali generativni modeli uključuju modele zasnovane na protoku, varijacione autoenkodere i generativne adversarijske mreže (GAN).
Svaki može generirati slike odličnog kvaliteta. Difuzijski modeli uče oporaviti podatke tako što preokrenu ovaj proces dodavanja buke nakon oštećenja podataka treninga dodavanjem buke. Drugim rečima, difuzioni modeli su u stanju da kreiraju koherentne slike iz buke.
Difuzijski modeli uče tako što unose šum u slike, koji model kasnije savladava uklanjanjem. Kako bi proizveo realistične vizuale, model zatim primjenjuje ovu tehniku uklanjanja šuma na nasumične sjemenke.
Usklađivanjem procesa proizvodnje slike, ovi modeli se mogu koristiti u kombinaciji s navođenjem teksta u sliku za generiranje gotovo neograničenog broja slika samo iz teksta. Sjeme se mogu usmjeriti unosima iz ugradnji kao što je CLIP da bi se dale snažne mogućnosti pretvaranja teksta u sliku.
Difuzijski modeli mogu obavljati različite zadatke, uključujući kreiranje slike, uklanjanje šuma, ucrtavanje, preslikavanje i difuziju bitova.
Šta je stabilna difuzija?
Stable Diffusion je model mašinskog učenja za kreiranje slika zasnovanih na tekstu koji obezbeđuje Stabilnost.AI. Sposoban je za generiranje slika iz teksta.
Komponente stabilne difuzije
stabilna difuzija je sistem koji se sastoji od nekoliko komponenti i koncepata. To nije jedan model. Kada provjerimo iza poklopca, prva stvar koju vidimo je da postoji komponenta za razumijevanje teksta koja pretvara tekstualne informacije u numerički prikaz koji bilježi koncepte teksta.
Ovaj koder teksta možemo nazvati transformatorom jezički model (tehnički: koder teksta CLIP modela). Uzima ulazni tekst i generiše listu celih brojeva (vektor) za svaku reč/token u tekstu. Ti podaci se zatim dostavljaju Image Generatoru, koji se sastoji od nekoliko komponenti.
Postoje dva koraka u generatoru slike:
1. Kreator informacija o slici
Glavna komponenta stabilne difuzije je ovaj element. Tu se postiže većina poboljšanja performansi u odnosu na ranije verzije.
Ova komponenta prolazi kroz nekoliko faza kako bi pružila podatke o slici. Kreator informacija o slici djeluje samo unutar informacijskog prostora slike (ili latentnog prostora).
Zbog ove karakteristike je brži od ranijih modela difuzije koji su radili u prostoru piksela. Tehnički gledano, ova komponenta se sastoji od algoritma za planiranje i UNet-a neuronska mreža.
Proces koji se odvija u ovoj komponenti naziva se „difuzija“. Slika visokog kvaliteta na kraju se proizvodi kao rezultat obrade informacija u koracima (sljedeća komponenta, dekoder slike).
2. Dekoder slike
Koristeći podatke koje je dobio od proizvođača informacija, dekoder slike stvara sliku. Izvodi se samo jednom da bi se kreirala gotova slika piksela na kraju operacije.
Tutorijal za Stable Diffusion Impainting
Stabilno difuzno slikanje je tehnika popunjavanja nedostajućih ili oštećenih područja slike. Svrha slikanja je da se prikrije činjenica da je slika restaurirana.
Ova tehnika se često koristi za uklanjanje neželjenih stvari sa slike ili za obnavljanje oštećenih područja povijesnih fotografija. Stabilno difuzno slikanje je relativno noviji način slikanja koji daje obećavajuće efekte.
Slijedeći upute u nastavku pomoći će vam da počnete istraživati slikanje i modificirati postojeće fotografije ako želite isprobati slikanje sa stabilnom difuzijom:
- Idi na Huggingface Stable Diffusion Impainting
- Otpremite svoju sliku
- Izbrišite dio slike koji treba zamijeniti.
- Unesite svoj upit ovdje (šta želite dodati umjesto onoga što uklanjate)
- Odaberite "pokreni"
U videu na vrhu, postavljamo sliku sa tri limuna i zamjenjujemo ih za jabuke. Lično preporučujem da ga isprobate sa svojim fotografijama i uputama.
zaključak
Općenito, slikanje u stalnoj difuziji je odlična metoda za proizvodnju lažnih slika ili video zapisa koji izgledaju izuzetno stvarni. Kako se budemo kretali prema novom tehnološkom napretku, biće sve teže i teže razlikovati autentično od lažnog kako tehnologija bude napredovala.
Swahir
Prvo poluvrijeme je potpuno nepovezano sa drugim. Bilo bi stvarno cool da je autor objasnio kako inpaint radi u okviru modela koji je ranije objasnio, mogao bi dati uvid. Ali ne! To bi zahtijevalo pravo razumijevanje, a ne prikupljanje i obradu slučajnog teksta.