Izkliedēšanas modeļi ir pārņēmuši vētru visā pasaulē, izlaižot Dall-E 2, Google attēls, Stabila difūzija, un Pusceļš, rosinot inovācijas un paplašinot mašīnmācības robežas.
Šie modeļi var radīt gandrīz neierobežotu skaitu attēlu no vārdu uzvednēm, tostarp fotoreālistiskus, maģiskus, futūristiskus un, protams, jaukus attēlus.
Šīs iespējas pārdomā, ko cilvēkiem nozīmē saskarne ar silīciju, dodot mums iespēju izveidot praktiski jebkuru attēlu, kādu vien varam iedomāties.
Šiem modeļiem attīstoties vai nākamajai ģeneratīvajai paradigmai attīstoties, cilvēki varēs radīt attēlus, filmas un citus ieskaujošus piedzīvojumus tikai ar domu.
Šajā rakstā mēs apspriedīsim difūzijas modelis, stabila difūzija, kā tā darbojas, kā arī difūzijas modeļa krāsošanas apmācība, cita starpā.
Kas ir difūzijas modelis?
Mašīnmācīšanās modeļi, kas var izveidot jaunus datus no apmācības datiem, tiek saukti par ģeneratīvajiem modeļiem. Citi ģeneratīvie modeļi ietver uz plūsmu balstītus modeļus, variācijas automātiskos kodētājus un ģeneratīvos pretrunīgos tīklus (GAN).
Katrs var radīt izcilas kvalitātes attēlus. Difūzijas modeļi mācās atgūt datus, apgriežot šo trokšņu pievienošanas procesu pēc tam, kad ir bojāti apmācības dati, pievienojot troksni. Citiem vārdiem sakot, difūzijas modeļi spēj radīt saskaņotus attēlus no trokšņa.
Difūzijas modeļi mācās, ieviešot attēlos troksni, ko modelis vēlāk apgūst noņemt. Lai radītu reālistiskus attēlus, modelis pēc tam izmanto šo trokšņa slāpēšanas paņēmienu nejaušām sēklām.
Kondicionējot attēlu ražošanas procesu, šos modeļus var izmantot kopā ar teksta pārveidošanas vadību, lai ģenerētu gandrīz neierobežotu skaitu attēlu tikai no teksta. Sēklas var vadīt, izmantojot ievadi no iegultnēm, piemēram, CLIP, lai nodrošinātu spēcīgas teksta pārveides iespējas.
Izkliedēšanas modeļi var veikt dažādus uzdevumus, tostarp attēlu izveidi, attēla trokšņa samazināšanu, krāsošanu, pārkrāsošanu un bitu difūziju.
Tagad, kas ir stabila difūzija?
Stabilā difūzija ir mašīnmācīšanās modelis teksta attēlu izveidei, ko nodrošina Stabilitāte.AI. Tas spēj ģenerēt attēlus no teksta.
Stabilas difūzijas sastāvdaļas
Stabila difūzija ir sistēma, kas sastāv no vairākiem komponentiem un jēdzieniem. Tas nav viens modelis. Kad mēs pārbaudām aiz pārsega, pirmais, ko mēs redzam, ir tas, ka ir teksta izpratnes komponents, kas pārvērš teksta informāciju ciparu attēlojumā, kas atspoguļo teksta jēdzienus.
Mēs varam saukt šo teksta kodētāju par transformatoru valodas modelis (tehniski: CLIP modeļa teksta kodētājs). Tas ņem ievades tekstu un ģenerē veselu skaitļu sarakstu (vektoru) katram teksta vārdam/marķieri. Pēc tam šie dati tiek piegādāti attēlu ģeneratoram, kas sastāv no vairākiem komponentiem.
Attēlu ģeneratorā ir divas darbības:
1. Attēla informācijas veidotājs
Stabilās difūzijas galvenā sastāvdaļa ir šis elements. Šeit tiek veikts lielākais veiktspējas uzlabojums salīdzinājumā ar iepriekšējām versijām.
Šis komponents iziet vairākus posmus, lai nodrošinātu attēla datus. Attēla informācijas veidotājs darbojas tikai attēla informācijas telpā (vai latentā telpā).
Tas ir ātrāks nekā iepriekšējie difūzijas modeļi, kas šīs īpašības dēļ darbojās pikseļu telpā. Tehniski runājot, šis komponents sastāv no plānošanas algoritma un UNet neironu tīklu.
Procesu, kas notiek šajā komponentā, sauc par “difūziju”. Augstas kvalitātes attēls tiek iegūts, jo informācija tiek apstrādāta pakāpeniski (ar nākamo komponentu, attēla dekodētāju).
2. Attēlu dekodētājs
Izmantojot datus, ko tas saņēma no informācijas ražotāja, attēla dekodētājs izveido attēlu. Tas tiek izpildīts tikai vienu reizi, lai operācijas beigās izveidotu gatavo pikseļu attēlu.
Stabilas difūzijas iminēšanas apmācība
Stabilas difūzijas attēla krāsošana ir paņēmiens, kā aizpildīt trūkstošās vai bojātās attēla vietas. Attēlu gleznošanas mērķis ir noslēpt faktu, ka attēls ir atjaunots.
Šo paņēmienu bieži izmanto, lai no attēla noņemtu nevēlamas lietas vai atjaunotu vēsturisko fotogrāfiju bojātās vietas. Stabilas difūzijas krāsošana ir salīdzinoši nesens krāsošanas veids, kas dod daudzsološus efektus.
Ja vēlaties izmēģināt iekrāsošanu ar stabilu izkliedi, izpildot tālāk sniegtos norādījumus, jūs varēsit izpētīt krāsošanu un esošo fotoattēlu modificēšanu.
- Dodieties uz Huggingface Stabila difūzija
- Augšupielādējiet savu attēlu
- Izdzēsiet to attēla daļu, kas jāaizstāj.
- Ievadiet šeit savu uzvedni (to, ko vēlaties pievienot noņemamā vietā)
- Izvēlieties "palaist"
Augšējā videoklipā mēs augšupielādējam attēlu ar trim citroniem un nomainām tos pret āboliem. Es personīgi iesaku to izmēģināt ar savām fotogrāfijām un uzvednēm.
Secinājumi
Parasti vienmērīgas difūzijas krāsošana ir lieliska metode viltotu attēlu vai videoklipu veidošanai, kas šķiet ārkārtīgi reāli. Virzoties uz jaunu tehnoloģiju attīstību, tehnoloģijām attīstoties, būs arvien grūtāk atšķirt autentiskus un krāpnieciskus.
Svahir
Pirmais puslaiks ir pilnīgi nesaistīts ar otro puslaiku. Būtu bijis ļoti forši, ja autors būtu paskaidrojis, kā darbojas inpaint viņa iepriekš izklāstītā modeļa ietvaros, varētu sniegt ieskatu. Bet nē! Tam būtu bijusi vajadzīga īsta izpratne, nevis nejauša teksta apkopošana un apstrāde.