Üldiselt lahendavad sügavad generatiivsed mudelid nagu GAN-id, VAE-d ja autoregressiivsed mudelid kujutise sünteesiprobleeme.
Arvestades nende loodud andmete kõrget kvaliteeti, on generatiivsed võistlevad võrgud (GAN-id) saanud viimastel aastatel palju tähelepanu.
Difusioonimudelid on veel üks põnev uurimisvaldkond, mis on ennast tõestanud. Kujutise, video ja hääle genereerimise valdkonnad on leidnud mõlema jaoks laialdast kasutust.
Difusioonimudelid vs. GAN-id: kumb annab paremaid tulemusi? Loomulikult on see kaasa toonud jätkuva arutelu.
Arvutusarhitektuuris, mida nimetatakse GAN-iks, on kaks närvivõrgud võideldakse üksteise vastu, et luua äsja sünteesitud andmeeksemplare, mis võivad edasi anda ehtsaid andmeid.
Difusioonmudelid muutuvad üha populaarsemaks, kuna need tagavad treeningu stabiilsuse ja kõrged tulemused muusika ja graafika tootmisel.
Selles artiklis käsitletakse üksikasjalikult difusioonimudelit ja GAN-e, samuti seda, kuidas need erinevad üksteisest ja mõned muud asjad.
Niisiis, mis on generatiivsed võistlevad võrgud?
Selleks, et luua uusi kunstlikke andmeeksemplare, mida võib ekslikult pidada ehtsateks andmeteks, kasutavad generatiivsed võistlevad võrgud (GAN-id) kahte närvivõrku ja asetavad need üksteise vastu (seega nimes "vaenulik").
Neid kasutatakse laialdaselt kõne, video ja piltide loomiseks.
GAN-i eesmärk on luua konkreetsest andmekogumist varem avastamata andmeid. Proovides tuletada proovide põhjal tegeliku, identifitseerimata aluseks olevate andmete jaotuse mudelit, teeb see seda.
Teise võimalusena on need võrgud kaudsed mudelid, mis püüavad õppida konkreetset statistilist jaotust.
Meetod, mida GAN kasutas selle eesmärgi saavutamiseks, oli uudne. Tegelikult toodavad nad andmeid, mängides kahe mängijaga mängu, et luua kaudne mudel.
Järgmine kirjeldab struktuuri:
- diskrimineerija, mis omandab võime eristada autentseid ja võltsandmeid
- generaator, mis otsib uusi viise andmete loomiseks, võib diskrimineerija petta.
Diskriminaator kujutab endast närvivõrku. Seetõttu peab generaator selle petmiseks looma kvaliteetse pildi.
Asjaolu, et neid generaatoreid ei õpetata kasutama väljundjaotust, on oluline erinevus autoencoder mudelite ja muude mudelite vahel.
Mudeli kadufunktsiooni dekomponeerimiseks on kaks võimalust:
- võime kvantifitseerida, kas diskrimineerija näeb tegelikke andmeid täpselt ette
- genereeritud andmeid ennustab täpselt osa.
Parimal võimalikul diskrimineerijal on see kadufunktsioon minimeeritud:
Üldisi mudeleid võib seetõttu pidada kauguse minimeerimise mudeliteks ja kui diskrimineerija on ideaalne, siis tõelise ja toodetud jaotuse vahelise erinevuse minimeerimiseks.
Tegelikkuses võib kasutada erinevaid lahknevusi ja tulemuseks on erinevad GAN-i koolitusmeetodid.
Õppimise dünaamikat, mis hõlmab generaatori ja diskrimineerija vahelist kompromissi, on keeruline järgida, hoolimata sellest, et GAN-ide kadufunktsiooni on lihtne reguleerida.
Samuti pole kindlust, et õppimine ühtlustub. Seetõttu on GAN-mudeli väljaõpetamine keeruline, kuna tavaliselt esineb probleeme, nagu gradientide kadumine ja režiimi kokkuvarisemine (kui genereeritud proovides pole mitmekesisust).
Nüüd on aeg difusioonimudelite jaoks
GAN-ide koolituse konvergentsi probleemi on lahendatud difusioonimudelite väljatöötamise kaudu.
Need mudelid eeldavad, et difusiooniprotsess on samaväärne müra progresseeruvatest häiretest põhjustatud teabekaoga (hajutusprotsessi igal etapil lisatakse Gaussi müra).
Sellise mudeli eesmärk on kindlaks teha, kuidas müra mõjutab valimis leiduvat teavet või teisiti öeldes, kui palju teavet hajumise tõttu kaob.
Kui mudel suudab selle välja mõelda, peaks see suutma hankida algse näidise ja tühistama tekkinud teabekao.
See saavutatakse müra summutava difusioonimudeli abil. Edasisi difusiooniprotsess ja vastupidine difusiooniprotsess moodustavad kaks etappi.
Edasine difusiooniprotsess hõlmab Gaussi müra (st difusiooniprotsessi) järkjärgulist lisamist, kuni andmed on täielikult müraga saastunud.
Seejärel koolitatakse närvivõrku pöörddifusioonimeetodi abil, et õppida müra ümberpööramiseks tingimuslikke jaotuse tõenäosusi.
Siit saate rohkem aru saada difusioonimudel.
Difusioonimudel vs GAN
Nagu difusioonmudel, toodavad GAN-id mürast pilte.
Mudel koosneb generaatori närvivõrgust, mis algab mõne informatiivse konditsioneerimismuutuja, näiteks klassi sildi või tekstikodeeringu müraga.
Tulemuseks peaks siis olema midagi realistlikku pilti.
Fotorealistlike ja kõrge kvaliteediga piltide põlvkondade loomiseks kasutame GAN-e. Hajutusmudelite abil toodetakse isegi realistlikumaid visuaale kui GAN-id.
Teatud mõttes on difusioonimudelid faktide kirjeldamisel täpsemad.
Kuigi GAN kasutab sisendiks juhuslikku müra või klassi konditsioneerimismuutujat ja väljastab realistliku valimi, on difusioonimudelid sageli aeglasemad, iteratiivsed ja vajavad palju rohkem juhiseid.
Kui müra vähendamist kasutatakse korduvalt eesmärgiga naasta mürast algse pildi juurde, pole palju eksimisruumi.
Iga kontrollpunkt läbitakse kogu loomisetapi jooksul ja iga sammuga võib pilt saada üha rohkem teavet.
Järeldus
Kokkuvõtteks võib öelda, et tänu vähestele olulistele uuringutele, mis avaldati alles 2020. ja 2021. aastal, võivad difusioonimudelid nüüd pildisünteesi osas GAN-e edestada.
Sel aastal käivitati OpenAI DALL-E2, piltide tootmise mudel, mis võimaldab praktikutel kasutada difusioonimudeleid.
Kuigi GAN-id on tipptasemel, muudavad nende piirangud nende skaleerimise ja kasutamise uutes kontekstides keeruliseks.
GAN-laadse proovikvaliteedi saavutamiseks tõenäosuspõhiste mudelite abil on selle nimel palju tööd tehtud.
Jäta vastus