Viimastel aastatel on generatiivsed mudelid, mida nimetatakse difusioonimudeliteks, muutunud üha populaarsemaks ja sellel on hea põhjus.
Maailm on näinud, milleks on difusioonimudelid võimelised, näiteks ületama pildisünteesi GAN-e, tänu mõnele 2020. ja 2021. aastatel avaldatud olulisele väljaandele.
Praktikud nägid viimati difusioonimudelite kasutamist aastal DALL-E2, OpenAI pildiloome mudel, mis avaldati eelmisel kuul.
Paljud masinõppe praktikud on kahtlemata uudishimulikud difusioonimudelite sisemise toimimise vastu, arvestades nende hiljutist edu.
Selles postituses vaatleme difusioonimudelite teoreetilist alust, nende disaini, eeliseid ja palju muud. Hakkame minema.
Mis on difusioonimudel?
Alustuseks selgitame välja, miks seda mudelit nimetatakse difusioonimudeliks.
Füüsikatundides termodünaamikaga seotud sõna nimetatakse difusiooniks. Süsteem ei ole tasakaalus, kui ühes kohas on palju materjali, näiteks lõhna.
Süsteemi tasakaalu saavutamiseks peab toimuma difusioon. Lõhna molekulid hajuvad kogu süsteemis kõrgema kontsentratsiooniga piirkonnast, muutes süsteemi kogu ulatuses ühtlaseks.
Kõik muutub lõpuks difusiooni tõttu homogeenseks.
Difusioonimudeleid motiveerib see termodünaamiline mittetasakaalu tingimus. Difusioonimudelid kasutavad Markovi ahelat, mis on muutujate jada, kus iga muutuja väärtus sõltub eelneva sündmuse olekust.
Pildistades lisame sellele järjestikku teatud hulga müra kogu edasisuunalise difusioonifaasi jooksul.
Pärast mürarikkama pildi salvestamist jätkame seeria järgmise pildi loomisega, lisades täiendavat müra.
Seda protseduuri tehakse mitu korda. Selle meetodi paar korda kordamisel tekib puhas mürapilt.
Kuidas siis sellest segasest pildist pilti luua?
Difusiooniprotsess pööratakse ümber, kasutades a Närvivõrgus. Samu võrke ja samu kaalusid kasutatakse tagurpidi difusiooniprotsessis pildi loomiseks punktist t kuni t-1.
Selle asemel, et lasta võrgul pilti ette näha, võib ülesande veelgi lihtsustamiseks proovida igal sammul ennustada müra, mis tuleb pildilt eemaldada.
Iga stsenaariumi korral on närvivõrgu disain tuleb valida viisil, mis säilitab andmete mõõtmelisuse.
Sukeldu sügavuti difusioonimudelisse
Difusioonimudeli komponendid on edasisuunaline protsess (tuntud ka kui difusiooniprotsess), mille käigus lähtepunkt (sageli kujutis) tekitatakse järk-järgult müra, ja pöördprotsess (tuntud ka kui pöörddifusiooniprotsess), mille käigus tekib müra. teisendatakse sihtjaotusest tagasi valimiks.
Kui müratase on piisavalt madal, saab edasises protsessis diskreetimisahela üleminekute määramiseks kasutada tingimuslikke Gaussi. Edaspidise protsessi lihtne parameetrite määramine tuleneb nende teadmiste sidumisest Markovi eeldusega:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Siin 1 ....T on dispersioonigraafik (kas õpitud või fikseeritud), mis tagab piisavalt kõrge T korral, et xT on praktiliselt isotroopne Gaussi graafik.
Vastupidine protsess on see, kus toimub difusioonimudeli maagia. Mudel õpib seda difusiooniprotsessi koolituse ajal ümber pöörama, et toota värskeid andmeid. Mudel õpib ühisjaotuse as (x0:T) puhta Gaussi müra võrrandiga alustamise tulemus
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
kus avastatakse Gaussi üleminekute ajast sõltuvad parameetrid. Eelkõige pange tähele, kuidas Markovi sõnastus väidab, et antud pöörddifusioonisiirde jaotus sõltub eranditult eelnevast ajaetapist (või järgnevast ajast, olenevalt sellest, kuidas te seda vaatate):
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))
Mudelikoolitus
Difusioonimudeli treenimiseks kasutatakse Markovi vastupidist mudelit, mis maksimeerib treeningandmete tõenäosust. Praktiliselt öeldes on koolitus analoogne negatiivse logaritmi tõenäosuse variatsiooni ülemise piiri vähendamisega.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Mudelid
Nüüd peame pärast eesmärgifunktsiooni matemaatilise aluste loomist otsustama, kuidas oma difusioonimudelit rakendada. Ainus edasisuunamisprotsessi jaoks vajalik otsus on dispersioonigraafiku kindlaksmääramine, mille väärtused protseduuri ajal tavaliselt tõusevad.
Kaalume tugevalt Gaussi jaotuse parameetrite ja mudeli arhitektuuri kasutamist pöördprotseduuri jaoks.
Meie disaini ainus tingimus on, et nii sisendil kui ka väljundil on samad mõõtmed. See rõhutab difusioonimudelite tohutut vabadust.
Allpool käsitleme neid valikuid põhjalikumalt.
Protsess edasi
Peame esitama edasisuunamisprotsessiga seotud hälvete ajakava. Seadsime need konkreetselt ajast sõltuvateks konstantideks ja eirasime võimalust, et neid saab õppida. Kronoloogiline ajakava alates
β1 = 10-4 kuni βT = 0.02.
Lt muutub meie õpitavate parameetrite kogumi suhtes konstandiks fikseeritud dispersioonigraafiku tõttu, mis võimaldab meil seda treeningu ajal eirata, olenemata valitud konkreetsetest väärtustest.
Pöördprotsess
Nüüd käsitleme pöördprotsessi määratlemiseks vajalikke otsuseid. Pidage meeles, kuidas me kirjeldasime Markovi vastupidiseid üleminekuid Gaussi üleminekutena:
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))
Nüüd, kui oleme tuvastanud funktsionaalsed tüübid. Hoolimata asjaolust, et parameetrite määramiseks on keerukamaid tehnikaid, me lihtsalt seadsime
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Teisisõnu, me käsitleme mitme muutujaga Gaussi erinevat sama dispersiooniga Gaussi tulemust, dispersiooniväärtust, mis võib aja jooksul kõikuda. Need kõrvalekalded on seatud nii, et need vastaksid edastamisprotsessi kõrvalekallete ajakavale.
Selle uue koostise tulemusena, meil on:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Selle tulemuseks on allpool näidatud alternatiivne kaotusfunktsioon, mille autorid leidsid, et see annab ühtlasema koolituse ja paremaid tulemusi:
Llihtne(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Samuti loovad autorid seosed selle difusioonimudelite sõnastuse ja Langevinil põhinevate skoori sobitavate generatiivsete mudelite vahel. Nagu lainepõhise kvantfüüsika ja maatriksipõhise kvantmehaanika sõltumatu ja paralleelse arendamise puhul, mis paljastas sama nähtuse kaks võrreldavat formulatsiooni, näib, et difusioonimudelid ja skooripõhised mudelid võivad olla sama mündi kaks külge.
Võrgu arhitektuur
Hoolimata asjaolust, et meie kondenseeritud kadude funktsiooni eesmärk on treenida mudelit Σθ, pole me veel selle mudeli arhitektuuri üle otsustanud. Pidage meeles, et mudelil peavad lihtsalt olema samad sisend- ja väljundmõõtmed.
Arvestades seda piirangut, pole ilmselt ootamatu, et U-Neti-laadseid arhitektuure kasutatakse sageli pildi hajutamise mudelite loomiseks.
Pöördprotsessi käigus tehakse arvukalt muudatusi, kasutades pidevat tingimuslikku Gaussi jaotust. Pidage meeles, et pöördprotseduuri eesmärk on luua täisarvuliste pikslite väärtustest koosnev pilt. Seetõttu on vaja kindlaks määrata diskreetsed (logaritmilised) tõenäosused iga potentsiaalse piksli väärtuse jaoks kõigi pikslite kohta.
See saavutatakse, määrates pöörddifusiooniahela viimasele üleminekule eraldi diskreetse dekoodri. teatud kujutise võimaluse hindamine x0 antud x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ kui x = 1 x + 1 255 kui x < 1 δ−(x) = −∞ kui x = −1 x − 1 255 kui x > −1
kus ülaindeks I tähistab ühe koordinaadi eraldamist ja D tähistab andmetes olevate mõõtmete arvu.
Selle punkti eesmärk on määrata kindlaks iga täisarvu väärtuse tõenäosus konkreetse piksli jaoks, arvestades selle piksli potentsiaalsete väärtuste jaotust ajas muutuvas t = 1.
Lõplik eesmärk
Teadlaste sõnul saadi suurimad tulemused pildi mürakomponendi prognoosimisest teatud ajahetkel. Lõpuks kasutavad nad järgmist eesmärki:
Llihtne(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Järgmisel pildil on meie difusioonimudeli koolitus- ja proovivõtuprotseduurid lühidalt kujutatud:
Difusioonimudeli eelised
Nagu juba märgitud, on difusioonimudelite uuringute hulk viimasel ajal mitmekordistunud. Difusioonimudelid pakuvad nüüd tipptasemel pildikvaliteeti ja on inspireeritud mittetasakaalulisest termodünaamikast.
Difusioonimudelid pakuvad lisaks tipptasemel pildikvaliteedile ka mitmeid muid eeliseid, näiteks ei nõua võistlevat koolitust.
Võistleva väljaõppe puudused on laialt teada, seetõttu eelistatakse sageli valida mittekonkureerivaid alternatiive, millel on samaväärne jõudlus ja koolituse tõhusus.
Hajutusmudelid pakuvad ka mastaapsuse ja paralleelsuse eeliseid koolituse tõhususe osas.
Kuigi näib, et difusioonimudelid toovad tulemusi näiliselt tühjast küljest, on nende tulemuste aluseks mitmed läbimõeldud ja huvitavad matemaatilised otsused ja nüansid ning valdkonna parimaid tavasid alles arendatakse.
Järeldus
Kokkuvõtteks näitavad teadlased kvaliteetseid pildisünteesi tulemusi, kasutades difusioonitõenäosuslikke mudeleid, mis on latentsete muutujate mudelite klass, mis on motiveeritud mittetasakaalulise termodünaamika ideedest.
Nad on saavutanud tohutuid asju tänu oma tipptasemel tulemustele ja mittekonkureerivale koolitusele ning arvestades nende lapsekingamist, võib järgmistel aastatel oodata rohkem edusamme.
Eelkõige on avastatud, et difusioonimudelid on täiustatud mudelite, nagu DALL-E 2, funktsionaalsuse jaoks üliolulised.
Siin pääsete juurde kogu uuringule.
Jäta vastus