Pastaraisiais metais generatyvieji modeliai, vadinami „difuzijos modeliais“, tapo vis populiaresni ir dėl geros priežasties.
Pasaulis pamatė, ką gali difuzijos modeliai, pvz., pranokti GAN vaizdo sintezės srityje, dėka kelių žymių leidinių, išleistų tik 2020 m. ir 2021 m.
Praktikai neseniai matė difuzijos modelių naudojimą DALL-E2, OpenAI vaizdo kūrimo modelis, kuris buvo paskelbtas praėjusį mėnesį.
Daugelis mašininio mokymosi specialistų neabejotinai domisi vidine difuzijos modelių veikla, atsižvelgiant į jų pastarojo meto sėkmės bangą.
Šiame įraše apžvelgsime teorinius difuzijos modelių pagrindus, jų dizainą, pranašumus ir daug daugiau. Eime.
Kas yra difuzijos modelis?
Pradėkime nuo to, kodėl šis modelis vadinamas difuzijos modeliu.
Žodis, susijęs su termodinamika fizikos pamokose, vadinamas difuzija. Sistema nėra pusiausvyroje, jei vienoje vietoje yra didelė medžiagos, pavyzdžiui, kvapo, koncentracija.
Kad sistema pasiektų pusiausvyrą, turi įvykti difuzija. Kvapo molekulės pasklinda visoje sistemoje iš didesnės koncentracijos srities, todėl sistema visoje sistemoje yra vienoda.
Viskas ilgainiui tampa vienalytė dėl difuzijos.
Difuzijos modelius motyvuoja ši termodinaminė nepusiausvyros sąlyga. Difuzijos modeliai naudoja Markovo grandinę, kuri yra kintamųjų serija, kurioje kiekvieno kintamojo reikšmė priklauso nuo ankstesnio įvykio būsenos.
Fotografuodami mes paeiliui pridedame tam tikrą triukšmo kiekį per visą tiesioginės difuzijos fazę.
Išsaugoję triukšmingesnį vaizdą, pradedame kurti tolesnį serijos vaizdą, įvesdami papildomą triukšmą.
Ši procedūra atliekama keletą kartų. Pakartojus šį metodą kelis kartus gaunamas gryno triukšmo vaizdas.
Kaip tada galime sukurti paveikslą iš šio netvarkingo vaizdo?
Difuzijos procesas apverčiamas naudojant a neuroninis tinklas. Tie patys tinklai ir tie patys svoriai naudojami atgalinės difuzijos procese, kad būtų sukurtas vaizdas nuo t iki t-1.
Užuot leidus tinklui numatyti vaizdą, galima bandyti numatyti triukšmą kiekviename žingsnyje, kuris turi būti pašalintas iš vaizdo, kad būtų dar labiau supaprastinta užduotis.
Bet kokiu atveju, neuroninio tinklo projektavimas turi būti parinkti taip, kad būtų išlaikytas duomenų matmuo.
Giliai pasinerkite į difuzijos modelį
Difuzijos modelio komponentai yra pirminis procesas (taip pat žinomas kaip difuzijos procesas), kurio metu atskaitos taškas (dažnai vaizdas) yra palaipsniui triukšmingas, ir atvirkštinis procesas (taip pat žinomas kaip atvirkštinės difuzijos procesas), kurio metu triukšmas. atgal į pavyzdį iš tikslinio paskirstymo.
Kai triukšmo lygis yra pakankamai žemas, sąlyginiai Gaussians gali būti naudojami siekiant nustatyti mėginių ėmimo grandinės perėjimus į priekį. Sujungus šias žinias su Markovo prielaida, galima lengvai nustatyti pirminio proceso parametrus:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Čia 1 ....T yra dispersijos grafikas (išmoktas arba fiksuotas), užtikrinantis, kad esant pakankamai dideliam T, xT iš esmės yra izotropinis Gauso.
Priešingas procesas yra tada, kai vyksta difuzijos modelio magija. Modelis išmoksta pakeisti šį difuzijos procesą treniruočių metu, kad gautų naujus duomenis. Modelis išmoksta bendrą pasiskirstymą kaip (x0:T) rezultatas, pradedant nuo gryno Gauso triukšmo lygties
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
kur atrandami nuo laiko priklausomi Gauso perėjimų parametrai. Visų pirma atkreipkite dėmesį į tai, kaip Markovo formuluotė teigia, kad tam tikras atvirkštinės difuzijos perėjimo pasiskirstymas priklauso tik nuo ankstesnio laiko žingsnio (arba vėlesnio laiko žingsnio, priklausomai nuo to, kaip į jį žiūrite):
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))
Modelių mokymas
Atvirkštinis Markovo modelis, kuris maksimaliai padidina mokymo duomenų tikimybę, naudojamas difuzijos modeliui išmokyti. Praktiškai kalbant, mokymas yra analogiškas neigiamos log tikimybės variacinės viršutinės ribos mažinimui.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
modeliai
Dabar turime nuspręsti, kaip įgyvendinti mūsų difuzijos modelį, nustačius matematinius mūsų tikslo funkcijos pagrindus. Vienintelis sprendimas, reikalingas išankstiniam procesui, yra dispersijos tvarkaraščio nustatymas, kurio vertės procedūros metu paprastai didėja.
Mes labai svarstome galimybę naudoti Gauso skirstinio parametrizavimą ir modelio architektūrą atvirkštinei procedūrai.
Vienintelė mūsų dizaino sąlyga yra ta, kad tiek įvesties, tiek išvesties matmenys būtų vienodi. Tai pabrėžia didžiulę laisvės, kurią suteikia difuzijos modeliai, laipsnį.
Toliau išsamiau aptarsime šias parinktis.
Pirmyn procesas
Turime pateikti nukrypimų tvarkaraštį, susijusį su išankstiniu procesu. Mes specialiai nustatėme jas kaip nuo laiko priklausančias konstantas ir neatsižvelgėme į galimybę, kad jas galima išmokti. Chronologinis tvarkaraštis nuo
β1 = 10−4 iki βT = 0.02.
Lt tampa konstanta mūsų išmokstamų parametrų rinkinio atžvilgiu dėl fiksuoto dispersijos grafiko, leidžiančio treniruočių metu jo nepaisyti, nepaisant konkrečių pasirinktų verčių.
Atvirkštinis procesas
Dabar apžvelgsime sprendimus, kurių reikia norint apibrėžti atvirkštinį procesą. Prisiminkite, kaip apibūdinome atvirkštinius Markovo perėjimus kaip Gauso:
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))
Dabar, kai nustatėme funkcinius tipus. Nepaisant to, kad yra sudėtingesnių parametrų nustatymo metodų, mes tiesiog nustatėme
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Kitaip tariant, daugiamatis Gausas yra atskirų gausų, turinčių tą pačią dispersiją, rezultatas, dispersijos reikšmė, kuri laikui bėgant gali svyruoti. Šie nukrypimai nustatomi taip, kad atitiktų persiuntimo proceso nukrypimų tvarkaraštį.
Dėl šios naujos formuluotės, mes turime:
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t)) :=N (xt-1; µθ (xt, t), σ2 t I)
Dėl to atsiranda alternatyvi praradimo funkcija, parodyta žemiau, kuri, autorių nuomone, suteikia nuoseklesnius mokymus ir geresnius rezultatus:
Lpaprastas(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Autoriai taip pat atkreipia ryšį tarp šios difuzijos modelių formuluotės ir Langevin pagrįstų balų atitikimo generatyvinių modelių. Kaip ir nepriklausomas ir lygiagretus bangomis pagrįstos kvantinės fizikos ir matricos kvantinės mechanikos plėtojimas, atskleidęs dvi panašias tų pačių reiškinių formules, atrodo, kad difuzijos modeliai ir balais pagrįsti modeliai gali būti dvi tos pačios monetos pusės.
Tinklo architektūra
Nepaisant to, kad mūsų kondensuotų nuostolių funkcija siekia parengti modelį Σθ, vis dar neapsisprendėme dėl šio modelio architektūros. Atminkite, kad modelio įvesties ir išvesties matmenys tiesiog turi būti tokie patys.
Atsižvelgiant į šį apribojimą, tikriausiai nėra netikėta, kad U-Net tipo architektūros dažnai naudojamos kuriant vaizdo sklaidos modelius.
Atvirkštinio proceso metu atliekama daug pakeitimų, naudojant nuolatinius sąlyginius Gauso skirstinius. Atminkite, kad atvirkštinės procedūros tikslas yra sukurti paveikslėlį, sudarytą iš sveikųjų pikselių reikšmių. Todėl būtina nustatyti kiekvienos potencialios pikselio reikšmės diskrečią (logo) tikimybę per visus pikselius.
Tai pasiekiama paskutiniam atvirkštinės difuzijos grandinės perėjimui priskiriant atskirą atskirą dekoderį. įvertinant tam tikro vaizdo tikimybę x0 duotas x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ jei x = 1 x + 1 255, jei x < 1 δ−(x) = −∞, jei x = −1 x − 1 255, jei x > −1
kur viršutinis indeksas I žymi vienos koordinatės ištraukimą, o D – duomenų matmenų skaičių.
Šiuo metu tikslas yra nustatyti kiekvieno konkretaus pikselio sveikojo skaičiaus reikšmės tikimybę, atsižvelgiant į galimų to pikselio reikšmių pasiskirstymą laikui bėgant t=1.
Galutinis tikslas
Pasak mokslininkų, didžiausi rezultatai buvo gauti numatant vaizdo triukšmo komponentą tam tikru laiku. Galų gale jie siekia šio tikslo:
Lpaprastas(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Toliau pateiktame paveikslėlyje glaustai pavaizduotos mūsų difuzijos modelio mokymo ir mėginių ėmimo procedūros:
Difuzijos modelio privalumai
Kaip jau buvo minėta, difuzijos modelių tyrimų skaičius pastaruoju metu išaugo. Difuzijos modeliai dabar užtikrina naujausią vaizdo kokybę ir yra įkvėpti nepusiausvyros termodinamikos.
Difuzijos modeliai suteikia daugybę kitų privalumų, be pažangiausios vaizdo kokybės, pavyzdžiui, nereikalauja priešpriešinio mokymo.
Konkurencinio mokymo trūkumai yra plačiai žinomi, todėl dažnai geriau rinktis neprieštaraujančias alternatyvas, kurių našumas ir mokymo efektyvumas yra lygiaverčiai.
Difuzijos modeliai taip pat suteikia mastelio ir lygiagretumo pranašumus mokymo efektyvumo požiūriu.
Nors atrodo, kad difuzijos modeliai sukuria rezultatus, atrodo, iš oro, šių rezultatų pagrindas yra daug apgalvotų ir įdomių matematinių sprendimų ir subtilybių, o geriausia pramonės praktika vis dar kuriama.
Išvada
Apibendrinant galima teigti, kad mokslininkai demonstruoja aukštos kokybės vaizdo sintezės rezultatus, naudodami difuzijos tikimybinius modelius – latentinių kintamųjų modelių klasę, motyvuotą nepusiausvyros termodinamikos idėjomis.
Dėl pažangiausių rezultatų ir nepriešingo mokymo jie pasiekė milžiniškų dalykų ir, atsižvelgiant į jų kūdikystę, ateinančiais metais galima tikėtis daugiau pažangos.
Visų pirma buvo nustatyta, kad difuzijos modeliai yra labai svarbūs pažangių modelių, tokių kaip DALL-E 2, funkcionalumui.
Čia galite pasiekti visą tyrimą.
Palikti atsakymą