Apskritai gilieji generaciniai modeliai, tokie kaip GAN, VAE ir autoregresyvūs modeliai, sprendžia vaizdo sintezės problemas.
Atsižvelgiant į aukštą jų kuriamų duomenų kokybę, pastaraisiais metais generatyvieji priešingi tinklai (GAN) sulaukė daug dėmesio.
Difuzijos modeliai yra dar viena patraukli studijų sritis, kuri įsitvirtino. Vaizdo, vaizdo ir balso generavimo sritys buvo plačiai naudojamos abiem.
Difuzijos modeliai prieš GAN: kas duoda geresnių rezultatų? Natūralu, kad tai paskatino nuolatinę diskusiją.
Skaičiavimo architektūroje, vadinamoje GAN, du neuroniniai tinklai yra kovojama vienas prieš kitą, kad būtų sukurti naujai susintetinti duomenų, kurie gali būti perduoti tikriems duomenims, egzemplioriai.
Difuziniai modeliai tampa vis populiaresni, nes užtikrina treniruočių stabilumą ir aukštus rezultatus kuriant muziką ir grafiką.
Šiame straipsnyje bus išsamiai aprašytas difuzijos modelis ir GAN, taip pat kaip jie skiriasi vienas nuo kito ir keletas kitų dalykų.
Taigi, kas yra generatyvieji priešpriešiniai tinklai?
Siekiant sukurti naujus, dirbtinius duomenų egzempliorius, kurie gali būti supainioti su tikrais duomenimis, generatyvieji priešingi tinklai (GAN) naudoja du neuroninius tinklus ir supriešina juos (taigi pavadinime yra „priešingas“).
Jie plačiai naudojami kalbai, vaizdo įrašams ir paveikslams kurti.
GAN tikslas yra sukurti anksčiau neatrastus duomenis iš konkretaus duomenų rinkinio. Bandant iš pavyzdžių nustatyti tikrojo, neidentifikuoto pagrindinių duomenų pasiskirstymo modelį, tai daroma.
Kitaip tariant, šie tinklai yra numanomi modeliai, bandantys sužinoti konkretų statistinį pasiskirstymą.
Metodas, kurį GAN naudojo, kad sužinotų, kaip pasiekti šį tikslą, buvo naujas. Tiesą sakant, jie gamina duomenis žaisdami dviejų žaidėjų žaidimą, kad sukurtų numanomą modelį.
Toliau aprašoma struktūra:
- Diskriminatorius, įgyjantis galimybę atskirti autentiškus ir netikrus duomenis
- generatorius, renkantis naujus duomenų kūrimo būdus, gali apgauti diskriminatorių.
Diskriminatorius yra neuroninis tinklas. Todėl generatorius turi sukurti aukštos kokybės paveikslėlį, kad jį apgautų.
Tai, kad šie generatoriai nėra apmokyti naudojant jokį išvesties paskirstymą, yra reikšmingas skirtumas tarp automatinio kodavimo modelių ir kitų modelių.
Yra du būdai, kaip išskaidyti modelio praradimo funkciją:
- gebėjimas kiekybiškai įvertinti, ar diskriminatorius tiksliai numato tikrus duomenis
- sugeneruotus duomenis tiksliai nuspėja dalis.
Naudojant geriausią įmanomą diskriminatorių, ši praradimo funkcija sumažinama iki minimumo:
Todėl bendrieji modeliai gali būti laikomi atstumo mažinimo modeliais ir, jei diskriminatorius yra idealus, kaip tikrojo ir sukurto pasiskirstymo skirtumo mažinimas.
Iš tikrųjų gali būti naudojami skirtingi skirtumai, dėl kurių gali būti naudojami įvairūs GAN mokymo metodai.
Mokymosi dinamiką, kuri apima kompromisą tarp generatoriaus ir diskriminatoriaus, sunku sekti, nepaisant to, kad lengva reguliuoti GAN praradimo funkciją.
Taip pat nėra garantijų, kad mokymasis susilies. Dėl to GAN modelio mokymas yra sudėtingas, nes paprastai susiduriama su tokiomis problemomis kaip dingstantys gradientai ir režimo žlugimas (kai sugeneruoti pavyzdžiai nėra skirtingi).
Dabar atėjo laikas difuzijos modeliams
GAN mokymo konvergencijos problema buvo išspręsta kuriant difuzijos modelius.
Šiuose modeliuose daroma prielaida, kad difuzijos procesas yra lygiavertis informacijos praradimui, kurį sukelia laipsniški triukšmo trukdžiai (kiekviename sklaidos proceso etape pridedamas Gauso triukšmas).
Tokio modelio tikslas – nustatyti, kaip triukšmas veikia imtyje esančią informaciją, arba, kitaip tariant, kiek informacijos prarandama dėl sklaidos.
Jei modelis gali tai išsiaiškinti, jis turėtų sugebėti gauti pradinį pavyzdį ir anuliuoti įvykusį informacijos praradimą.
Tai pasiekiama naudojant triukšmo slopinimo difuzijos modelį. Pirminės difuzijos procesas ir atvirkštinis difuzijos procesas sudaro du etapus.
Į priekį sklaidos procesas apima laipsnišką Gauso triukšmo (ty difuzijos) pridėjimą, kol duomenys visiškai užteršti triukšmu.
Vėliau neuroninis tinklas mokomas naudojant atvirkštinės difuzijos metodą, kad išmoktų sąlygines paskirstymo tikimybes, kad pakeistų triukšmą.
Čia galite sužinoti daugiau apie difuzijos modelis.
Difuzijos modelis vs GAN
Kaip ir difuzijos modelis, GAN sukuria nuotraukas iš triukšmo.
Modelis sudarytas iš generatoriaus neuroninio tinklo, kuris prasideda kai kurių informatyvaus kondicionavimo kintamųjų, pvz., klasės etiketės arba teksto kodavimo, triukšmu.
Tada rezultatas turėtų būti kažkas panašaus į tikrovišką vaizdą.
Norėdami sukurti fotorealistiškų ir aukštos kokybės nuotraukų kartas, naudojame GAN. Net tikroviškesni vaizdai nei GAN sukuriami naudojant difuzijos modelius.
Tam tikra prasme difuzijos modeliai tiksliau apibūdina faktus.
Nors GAN kaip įvestį pasirenka atsitiktinį triukšmą arba klasės kondicionavimo kintamąjį ir išveda tikrovišką pavyzdį, difuzijos modeliai dažnai yra lėtesni, pasikartojantys ir jiems reikia daug daugiau nurodymų.
Nėra daug vietos klaidoms, kai triukšmo slopinimas taikomas pakartotinai, siekiant iš triukšmo grįžti prie pradinio vaizdo.
Kiekvienas kontrolinis taškas praeina per visą kūrimo etapą, ir su kiekvienu žingsniu paveikslėlis gali gauti vis daugiau informacijos.
Išvada
Apibendrinant galima pasakyti, kad dėl kelių reikšmingų tyrimų, kurie buvo paskelbti tik 2020 ir 2021 m., difuzijos modeliai dabar gali pranokti GAN vaizdo sintezės požiūriu.
Šiais metais startavo OpenAI DALL-E2, vaizdo gamybos modelis, leidžiantis praktikams naudoti difuzijos modelius.
Nors GAN yra pažangiausi, dėl jų apribojimų sudėtinga juos išplėsti ir naudoti naujuose kontekstuose.
Norint pasiekti GAN panašią mėginio kokybę naudojant tikimybe pagrįstus modelius, buvo įdėta daug darbo.
Palikti atsakymą