Sisällysluettelo[Piilottaa][Näytä]
Yleensä syvägeneratiiviset mallit, kuten GAN, VAE ja autoregressiiviset mallit, käsittelevät kuvasynteesiongelmia.
Kun otetaan huomioon luomansa tiedon korkea laatu, generatiiviset vastavuoroiset verkot (GAN) ovat saaneet paljon huomiota viime vuosina.
Diffuusiomallit ovat toinen kiehtova tutkimusala, joka on vakiinnuttanut asemansa. Kuvan, videon ja äänen luomisen alat ovat molemmat löytäneet laajaa käyttöä molemmille.
Diffuusiomallit vs. GAN: kumpi tuottaa parempia tuloksia? Tämä on luonnollisesti johtanut jatkuvaan keskusteluun.
Laskennallisessa arkkitehtuurissa, joka tunnetaan nimellä GAN, kaksi hermoverkkoihin taistellaan toisiaan vastaan tuottaakseen vasta syntetisoituja datan esiintymiä, jotka voivat siirtyä aidoksi dataksi.
Diffuusiomallit ovat tulossa yhä suositumpia, koska ne tarjoavat harjoittelun vakautta ja korkeat tulokset musiikin ja grafiikan tuottamiseen.
Tässä artikkelissa käydään läpi diffuusiomalli ja GANit yksityiskohtaisesti sekä kuinka ne eroavat toisistaan ja muutama muu seikka.
Joten mitä ovat generatiiviset vastavuoroiset verkostot?
Luodakseen uusia, keinotekoisia datan esiintymiä, jotka voidaan luulla aidoksi dataksi, generatiiviset vastakkaiset verkot (GAN) käyttävät kahta hermoverkkoa ja asettavat ne toisiaan vastaan (siten nimessä oleva "vastuullinen").
Niitä käytetään laajasti puheen, videon ja kuvien luomiseen.
GANin tavoitteena on luoda tietystä tietojoukosta aiemmin löytämätöntä dataa. Yritetään päätellä malli todellisesta, tunnistamattomasta taustalla olevan datan jakautumisesta näytteistä, tämä tekee tämän.
Vaihtoehtoisesti nämä verkot ovat implisiittisiä malleja, jotka yrittävät oppia tietyn tilastollisen jakauman.
Menetelmä, jota GAN käytti tämän tavoitteen saavuttamiseksi, oli uusi. Itse asiassa he tuottavat dataa pelaamalla kahden pelaajan peliä implisiittisen mallin kehittämiseksi.
Seuraavassa kuvataan rakennetta:
- Diskriminaattori, joka saa kyvyn erottaa aidot ja väärennetyt tiedot
- generaattori, joka poimii uusia tapoja luoda tietoja, voi huijata erottajaa.
Diskriminaattori esiintyy hermoverkkona. Siksi generaattorin on luotava korkealaatuinen kuva huijatakseen sitä.
Se, että näitä generaattoreita ei ole koulutettu käyttämällä minkäänlaista lähtöjakoa, on merkittävä ero autoenkooderimallien ja muiden mallien välillä.
On kaksi tapaa hajottaa mallin häviöfunktio:
- kyky kvantifioida, ennakoiko erottaja tarkasti todelliset tiedot
- luodut tiedot ennustetaan tarkasti osalla.
Parhaalla mahdollisella erottimella tämä häviöfunktio minimoidaan:
Yleisiä malleja voidaan siksi ajatella etäisyyden minimoimismalleina ja, jos erottelija on ihanteellinen, todellisen ja tuotetun jakauman välisen poikkeaman minimointina.
Todellisuudessa voidaan käyttää erilaisia eroja, jotka voivat johtaa erilaisiin GAN-koulutusmenetelmiin.
Oppimisdynamiikkaa, joka sisältää kompromissin generaattorin ja erottimen välillä, on haastavaa seurata, vaikka GAN-häviöfunktiota on helppo säätää.
Ei myöskään ole takeita siitä, että oppiminen lähentyy. Tämän seurauksena GAN-mallin opettaminen on vaikeaa, koska on tyypillistä törmätä ongelmiin, kuten katoaviin gradienteihin ja tilan romahtamiseen (kun luoduissa näytteissä ei ole diversiteettiä).
Nyt on diffuusiomallien aika
GAN-koulutuskonvergenssin ongelma on ratkaistu kehittämällä diffuusiomalleja.
Näissä malleissa oletetaan, että diffuusioprosessi vastaa tiedon menetystä, jonka aiheuttaa kohinan progressiivinen häiriö (Gaussin kohina lisätään diffuusioprosessin jokaisessa vaiheessa).
Tällaisen mallin tarkoituksena on määrittää, kuinka kohina vaikuttaa näytteessä olevaan informaatioon, tai toisin sanoen kuinka paljon tietoa häviää diffuusion vuoksi.
Jos malli pystyy selvittämään tämän, sen pitäisi pystyä hakemaan alkuperäinen näyte ja kumoamaan tapahtunut tiedon menetys.
Tämä saavutetaan vaimentavan diffuusiomallin avulla. Eteenpäin diffuusioprosessi ja käänteinen diffuusioprosessi muodostavat kaksi vaihetta.
Eteenpäin suuntautuva diffuusioprosessi sisältää asteittain Gaussin kohinan (eli diffuusioprosessin) lisäämisen, kunnes data on täysin melun saastuttama.
Sen jälkeen hermoverkkoa opetetaan käyttämällä käänteisdiffuusiomenetelmää ehdollisten jakautumistodennäköisyyksien oppimiseksi kohinan kääntämiseksi.
Täältä voit ymmärtää enemmän diffuusio malli.
Diffuusiomalli vs GAN
Kuten diffuusiomalli, GAN:t tuottavat kuvia kohinasta.
Malli koostuu generaattorin neuroverkosta, joka alkaa jonkin informatiivisen ehdollisen muuttujan, kuten luokkatunnisteen tai tekstikoodauksen, kohinalla.
Tuloksena pitäisi sitten olla jotain, joka muistuttaa realistista kuvaa.
Käytämme GANeja luodaksemme fotorealistisia ja korkealaatuisia kuvasukupolvia. Hajautusmalleja käyttämällä tuotetaan jopa realistisempia visuaalisia kuvia kuin GAN.
Diffuusiomallit ovat tavallaan tarkempia tosiasioiden kuvaamisessa.
Vaikka GAN ottaa syötteenä satunnaisen kohinan tai luokan ehdollistavan muuttujan ja tuottaa realistisen näytteen, diffuusiomallit ovat usein hitaampia, iteratiivisia ja tarvitsevat paljon enemmän ohjausta.
Virheelle ei ole paljon varaa, kun kohinaa käytetään toistuvasti tavoitteena palata kohinasta alkuperäiseen kuvaan.
Jokainen tarkistuspiste käy läpi koko luomisvaiheen, ja jokaisessa vaiheessa kuva saattaa saada enemmän ja enemmän tietoa.
Yhteenveto
Yhteenvetona voidaan todeta, että johtuen muutamista merkittävistä vasta 2020- ja 2021-luvuilla julkaistuista tutkimuksista diffuusiomallit voivat nyt ylittää GAN-mallit kuvasynteesin suhteen.
Tänä vuonna OpenAI lanseerattiin DALL-E2, kuvantuotantomalli, jonka avulla harjoittajat voivat käyttää diffuusiomalleja.
Vaikka GAN-verkot ovat huippuluokkaa, niiden rajoitukset tekevät niiden skaalaamisesta ja käyttämisestä uusissa yhteyksissä haastavaa.
GAN-tyyppisen näytelaadun saavuttamiseksi todennäköisyyspohjaisilla malleilla on tehty paljon työtä.
Jätä vastaus