Parasti dziļi ģeneratīvie modeļi, piemēram, GAN, VAE un autoregresīvie modeļi, risina attēla sintēzes problēmas.
Ņemot vērā to radīto datu augsto kvalitāti, ģeneratīvie pretrunīgie tīkli (GAN) pēdējos gados ir saņēmuši lielu uzmanību.
Difūzijas modeļi ir vēl viena aizraujoša studiju joma, kas ir sevi pierādījusi. Gan attēlu, gan video, gan balss ģenerēšanas jomas ir atradušas plašu pielietojumu abiem.
Difūzijas modeļi salīdzinājumā ar GAN: kas dod labākus rezultātus? Protams, tas ir izraisījis pastāvīgu diskusiju.
Skaitļošanas arhitektūrā, kas pazīstama kā GAN, divi neironu tīkli tiek apkaroti viens pret otru, lai radītu tikko sintezētus datu gadījumus, kas var tikt nodoti patiesiem datiem.
Difūzijas modeļi kļūst arvien populārāki, jo tie nodrošina apmācības stabilitāti un augstus rezultātus mūzikas un grafikas veidošanā.
Šajā rakstā tiks detalizēti apskatīts difūzijas modelis un GAN, kā arī tas, kā tie atšķiras viens no otra, un dažas citas lietas.
Tātad, kas ir ģeneratīvie pretrunīgie tīkli?
Lai radītu jaunus, mākslīgus datu gadījumus, kurus varētu sajaukt ar īstiem datiem, ģeneratīvie pretrunīgie tīkli (GAN) izmanto divus neironu tīklus un sastāda tos vienu pret otru (tātad nosaukumā “pretrunīgs”).
Tos plaši izmanto runas, video un attēlu veidošanai.
GAN mērķis ir izveidot iepriekš neatklātus datus no konkrētas datu kopas. Mēģinot no paraugiem izsecināt faktiskā, neidentificēto pamatā esošo datu sadalījuma modeli, tas tiek darīts.
Alternatīvi, šie tīkli ir netieši modeļi, kas mēģina uzzināt konkrētu statistisko sadalījumu.
Metode, ko GAN izmantoja, lai atklātu, kā sasniegt šo mērķi, bija jauna. Faktiski viņi ražo datus, spēlējot divu spēlētāju spēli, lai izstrādātu netiešu modeli.
Tālāk ir aprakstīta struktūra:
- Diskriminators, kas iegūst spēju atšķirt autentiskus un viltus datus
- ģenerators, kas uztver jaunus veidus, kā izveidot datus, var maldināt diskriminētāju.
Diskriminators rada neironu tīklu. Tāpēc ģeneratoram ir jāizveido augstas kvalitātes attēls, lai to apmānītu.
Fakts, ka šie ģeneratori netiek apmācīti, izmantojot izvades sadalījumu, ir būtiska atšķirība starp automātiskās kodēšanas modeļiem un citiem modeļiem.
Ir divi veidi, kā sadalīt modeļa zuduma funkciju:
- spēja kvantitatīvi noteikt, vai diskriminētājs precīzi paredz reālus datus
- ģenerētos datus precīzi paredz daļa.
Izmantojot vislabāko iespējamo diskriminatoru, šī zuduma funkcija tiek samazināta līdz minimumam:
Tāpēc vispārīgos modeļus var uzskatīt par attāluma minimizēšanas modeļiem un, ja diskriminators ir ideāls, par atšķirības minimizēšanu starp patieso un radīto sadalījumu.
Patiesībā var tikt izmantotas dažādas atšķirības, kā rezultātā var tikt izmantotas dažādas GAN apmācības metodes.
Mācīšanās dinamiku, kas ietver kompromisu starp ģeneratoru un diskriminatoru, ir grūti ievērot, neskatoties uz to, ka ir vienkārši pielāgot GAN zudumu funkciju.
Nav arī garantiju, ka mācīšanās saplūdīs. Rezultātā GAN modeļa apmācība ir sarežģīta, jo ir raksturīgi saskarties ar tādām problēmām kā gradientu izzušana un režīma sabrukums (ja ģenerētajos paraugos nav daudzveidības).
Tagad ir pienācis laiks difūzijas modeļiem
Problēma ar GAN apmācību konverģenci ir risināta, izstrādājot difūzijas modeļus.
Šajos modeļos tiek pieņemts, ka difūzijas process ir līdzvērtīgs informācijas zudumam, ko rada trokšņa pakāpeniski traucējumi (katrā difūzijas procesa posmā tiek pievienots Gausa troksnis).
Šāda modeļa mērķis ir noteikt, kā troksnis ietekmē paraugā esošo informāciju vai, citādi sakot, cik daudz informācijas tiek zaudēts difūzijas dēļ.
Ja modelis to var izdomāt, tam jāspēj izgūt sākotnējo paraugu un atsaukt notikušo informācijas zudumu.
Tas tiek panākts, izmantojot trokšņa slāpēšanas difūzijas modeli. Tiešās difūzijas process un reversās difūzijas process veido divus posmus.
Tiešās difūzijas process ietver pakāpenisku Gausa trokšņa (ti, difūzijas procesa) pievienošanu, līdz dati ir pilnībā piesārņoti ar troksni.
Pēc tam neironu tīkls tiek apmācīts, izmantojot reversās difūzijas metodi, lai uzzinātu nosacītās sadalījuma varbūtības, lai mainītu troksni.
Šeit jūs varat saprast vairāk par difūzijas modelis.
Difūzijas modelis pret GAN
Tāpat kā difūzijas modelis, GAN rada attēlus no trokšņa.
Modelis sastāv no ģeneratora neironu tīkla, kas sākas ar kāda informatīva kondicionēšanas mainīgā, piemēram, klases etiķetes vai teksta kodējuma, troksni.
Rezultātam vajadzētu būt kaut kam līdzīgam reālistiskam attēlam.
Lai izveidotu fotoreālistisku un augstas precizitātes attēlu paaudzes, mēs izmantojam GAN. Izmantojot difūzijas modeļus, tiek ražoti vēl reālistiskāki vizuālie attēli nekā GAN.
Savā ziņā difūzijas modeļi ir precīzāki, aprakstot faktus.
Lai gan GAN izmanto kā ievadi nejaušu troksni vai klases kondicionēšanas mainīgo un izvada reālistisku paraugu, difūzijas modeļi bieži ir lēnāki, iteratīvi un tiem ir nepieciešams daudz vairāk norādījumu.
Nav daudz iespēju kļūdīties, ja trokšņa samazināšana tiek izmantota atkārtoti, lai no trokšņa atgrieztos sākotnējā attēlā.
Katrs kontrolpunkts tiek iziets visā izveides posmā, un ar katru soli attēls var iegūt arvien vairāk informācijas.
Secinājumi
Noslēgumā jāsaka, ka dažu nozīmīgu pētījumu dēļ, kas tika publicēti tikai 2020. gados un 2021. gadā, difūzijas modeļi attēla sintēzes ziņā tagad var pārspēt GAN.
Šogad tika atklāts OpenAI DALL-E2, attēlu ražošanas modelis, kas ļauj praktizētājiem izmantot difūzijas modeļus.
Lai gan GAN ir vismodernākie, to ierobežojumi apgrūtina to mērogošanu un izmantošanu jaunos kontekstos.
Lai sasniegtu GAN līdzīgu paraugu kvalitāti, izmantojot uz varbūtību balstītus modeļus, ir ieguldīts liels darbs.
Atstāj atbildi