F'dawn l-aħħar snin, mudelli ġenerattivi msejħa "mudelli ta 'diffużjoni" saru dejjem aktar popolari, u b'kawża tajba.
Id-dinja rat x’inhuma l-mudelli ta’ diffużjoni kapaċi, bħalma huma l-GANs li jaqbżu s-sinteżi tal-istampi, grazzi għal ftit pubblikazzjonijiet storiċi magħżula ppubblikati biss fl-2020s u l-2021s.
Il-prattikanti l-aktar reċentement raw l-użu ta 'mudelli ta' diffużjoni fi DALL-E2, il-mudell tal-ħolqien tal-immaġni ta 'OpenAI li ġie ppubblikat ix-xahar li għadda.
Ħafna prattikanti tat-Tagħlim tal-Machine huma bla dubju kurjużi dwar il-ħidma interna tal-Mudelli tad-Diffużjoni minħabba ż-żieda riċenti ta 'suċċess tagħhom.
F'din il-kariga, ser inħarsu lejn is-sisien teoretiċi tal-Mudelli tad-Diffużjoni, id-disinn tagħhom, il-vantaġġi tagħhom, u ħafna aktar. Ejja mmorru.
X'inhu l-mudell tad-Diffużjoni?
Nibdew billi nifhmu għaliex dan il-mudell jissejjaħ mudell ta 'diffużjoni.
Kelma relatata mat-termodinamika fil-klassijiet tal-fiżika tissejjaħ diffużjoni. Sistema mhix f'ekwilibriju jekk ikun hemm konċentrazzjoni kbira ta 'materjal, bħal riħa, f'post wieħed.
Id-diffużjoni trid isseħħ biex is-sistema tidħol fl-ekwilibriju. Il-molekuli tar-riħa jinfirxu fis-sistema kollha minn reġjun ta 'konċentrazzjoni ogħla, u jagħmlu s-sistema uniformi kollha.
Kollox eventwalment isir omoġenju minħabba t-tixrid.
Mudelli ta 'diffużjoni huma motivati minn din il-kundizzjoni ta' non-ekwilibriju termodinamika. Mudelli ta 'tixrid jużaw katina Markov, li hija serje ta' varjabbli fejn il-valur ta 'kull varjabbli jiddependi fuq l-istat ta' l-avveniment preċedenti.
Meta tieħu stampa, aħna suċċessivament inżidu ammont partikolari ta 'storbju magħha matul il-fażi ta' diffużjoni 'l quddiem.
Wara li naħżnu l-immaġni aktar storbjuża, nipproċedu biex noħolqu l-immaġni sussegwenti fis-serje billi nintroduċu ħoss addizzjonali.
Diversi drabi, din il-proċedura ssir. Stampa ta 'storbju pur tirriżulta mir-repetizzjoni ta' dan il-metodu għal ftit drabi.
Kif allura nistgħu noħolqu stampa minn din l-immaġni imbarazzata?
Il-proċess ta 'diffużjoni huwa maqlub bl-użu ta' a newrali netwerk. L-istess netwerks u l-istess piżijiet jintużaw fil-proċess ta 'diffużjoni b'lura biex tinħoloq l-istampa minn t sa t-1.
Minflok ma jħalli n-netwerk jantiċipa l-istampa, wieħed jista’ jipprova jbassar l-istorbju f’kull pass, li jrid jitneħħa mill-immaġni, sabiex jissimplifika aktar il-kompitu.
Fi kwalunkwe xenarju, il- disinn tan-netwerk newrali għandhom jintgħażlu b'mod li jżomm id-dimensjoni tad-dejta.
Għaddas fil-fond fil-Mudell tad-Diffużjoni
Il-komponenti ta 'mudell ta' diffużjoni huma proċess 'il quddiem (magħruf ukoll bħala proċess ta' diffużjoni), li fih datum (ħafna drabi immaġni) huwa storbju gradwalment, u proċess b'lura (magħruf ukoll bħala proċess ta 'diffużjoni inversa), li fih il-ħoss huwa ikkonvertit lura f'kampjun mid-distribuzzjoni fil-mira.
Meta l-livell tal-ħoss ikun baxx biżżejjed, Gaussians kundizzjonali jistgħu jintużaw biex jistabbilixxu t-tranżizzjonijiet tal-katina tal-kampjunar fil-proċess 'il quddiem. Parametrizzazzjoni faċli tal-proċess 'il quddiem tirriżulta mill-akkoppjar ta' dan l-għarfien mas-suppożizzjoni ta' Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Hawnhekk waħda….T hija skeda tal-varjanza (jew mitgħallma jew fissa) li tiżgura, għal T għoli biżżejjed, li xT huwa prattikament Gaussian iżotropiku.
Il-proċess oppost huwa fejn isseħħ il-maġija tal-mudell tad-diffużjoni. Il-mudell jitgħallem ireġġa 'lura dan il-proċess ta' diffużjoni waqt it-taħriġ sabiex jipproduċi data ġdida. Il-mudell jitgħallem id-distribuzzjoni konġunta bħala (x0:T) ir-riżultat tal-bidu bl-ekwazzjoni tal-ħoss Gaussian pur
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
fejn il-parametri li jiddependu fuq il-ħin tat-tranżizzjonijiet Gauss huma skoperti. B'mod partikolari, ħu nota ta' kif il-formulazzjoni ta' Markov tiddikjara li distribuzzjoni ta' transizzjoni ta' diffużjoni inversa partikolari tiddependi esklussivament fuq il-pass taż-żmien preċedenti (jew il-pass taż-żmien sussegwenti, skont kif tħares lejha):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Taħriġ Mudell
Mudell Markov invers li jimmassimizza l-probabbiltà tad-dejta tat-taħriġ jintuża biex iħarreġ mudell ta 'diffużjoni. Prattikament, it-taħriġ huwa analogu għat-tnaqqis tal-limitu ta 'fuq varjazzjoni fuq il-probabbiltà ta' log negattiv.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Mudelli
Issa rridu niddeċiedu kif inwettqu l-Mudell tad-Diffużjoni tagħna wara li nistabbilixxu s-sisien matematiċi tal-funzjoni tal-għan tagħna. L-unika deċiżjoni meħtieġa għall-proċess 'il quddiem hija li tiddetermina l-iskeda tal-varjanza, li l-valuri tagħha tipikament jogħlew matul il-proċedura.
Aħna nikkunsidraw bil-qawwa l-użu tal-parametrizzazzjoni tad-distribuzzjoni Gaussjana u l-arkitettura tal-mudell għall-proċedura inversa.
L-unika kundizzjoni tad-disinn tagħna hija li kemm l-input kif ukoll l-output għandhom l-istess dimensjonijiet. Dan jenfasizza l-grad enormi ta' libertà li jipprovdu l-Mudelli ta' Diffużjoni.
Hawn taħt, ser nidħlu aktar fil-fond dwar dawn l-għażliet.
Proċess 'il quddiem
Irridu nipprovdu l-iskeda tal-varjanza fir-rigward tal-proċess 'il quddiem. Aħna speċifikament stabbilixxewhom biex ikunu kostanti li jiddependu mill-ħin u injorajna l-possibbiltà li jistgħu jiġu mgħallma. Skeda kronoloġika minn
β1 = 10−4 sa βT = 0.02.
Lt isir kostanti fir-rigward tas-sett tagħna ta 'parametri li jistgħu jitgħallmu minħabba l-iskeda ta' varjanza fissa, li tippermettilna ma nagħtux kas tagħha waqt it-taħriġ irrispettivament mill-valuri speċifiċi magħżula.
Proċess Reverse
Issa nimxu fuq id-deċiżjonijiet meħtieġa biex niddefinixxu l-proċess invers. Ftakar kif iddeskrivejna t-tranżizzjonijiet ta' Markov b'lura bħala Gaussian:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Issa li identifikajna t-tipi funzjonali. Minkejja l-fatt li hemm tekniki aktar kumplessi biex jiġu parametrizzati, aħna biss issettjaw
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Fi kliem ieħor, inqisu li l-Gaussian multivarjat huwa r-riżultat ta 'Gaussians separati bl-istess varjanza, valur ta' varjanza li jista 'jvarja maż-żmien. Dawn id-devjazzjonijiet huma ssettjati biex jaqblu mal-iskeda tad-devjazzjonijiet tal-proċess tat-trażmissjoni.
Bħala riżultat ta 'din il-formulazzjoni ġdida, għandna:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Dan jirriżulta fil-funzjoni ta' telf alternattiva murija hawn taħt, li l-awturi sabu li tipproduċi taħriġ aktar konsistenti u riżultati superjuri:
Lsempliċi(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
L-awturi wkoll jiġbdu konnessjonijiet bejn din il-formulazzjoni ta 'mudelli ta' diffużjoni u mudelli ġenerattivi tat-tqabbil tal-punteġġ ibbażati fuq Langevin. Bħal fl-iżvilupp indipendenti u parallel tal-fiżika kwantistika bbażata fuq il-mewġ u l-mekkanika kwantistika bbażata fuq matriċi, li żvelaw żewġ formulazzjonijiet komparabbli tal-istess fenomeni, jidher li l-Mudelli ta 'Diffużjoni u l-mudelli Ibbażati fuq Score jistgħu jkunu żewġ naħat tal-istess munita.
Arkitettura tan-Netwerk
Minkejja l-fatt li l-funzjoni tagħna ta 'telf kondensat timmira li tħarreġ mudell Σθ, għadna ma ddeċidniex fuq l-arkitettura ta 'dan il-mudell. Żomm f'moħħok li l-mudell sempliċement irid ikollu l-istess dimensjonijiet ta 'input u output.
Minħabba dan ir-restrizzjoni, huwa probabbli mhux mistenni li arkitetturi bħal U-Net jintużaw ta 'spiss biex jinħolqu mudelli ta' diffużjoni ta 'stampa.
Bosta bidliet isiru tul ir-rotta tal-proċess invers waqt li jintużaw distribuzzjonijiet Gaussian kundizzjonali kontinwi. Ftakar li l-għan tal-proċedura b'lura huwa li tinħoloq stampa magħmula minn valuri ta' pixel interi. Id-determinazzjoni ta' probabbiltajiet diskreti (log) għal kull valur potenzjali tal-pixel fuq il-pixels kollha hija għalhekk meħtieġa.
Dan jitwettaq billi jiġi assenjat decoder diskret separat għall-aħħar transizzjoni tal-katina tad-diffużjoni inversa. stima taċ-ċans ta 'ċerta immaġini x0 mogħtija x1
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ jekk x = 1 x + 1 255 jekk x < 1 δ−(x) = −∞ jekk x = −1 x − 1 255 jekk x > −1
fejn is-superscript I tindika l-estrazzjoni ta' koordinata waħda u D tindika n-numru ta' dimensjonijiet fid-dejta.
L-għan f'dan il-punt huwa li tiġi stabbilita l-probabbiltà ta' kull valur sħiħ għal pixel speċifiku minħabba d-distribuzzjoni tal-valuri potenzjali għal dak il-pixel fil-ħin li jvarja. t=1.
Għan Finali
L-akbar riżultati, skont ix-xjenzati, ġew mit-tbassir tal-komponent tal-istorbju ta 'stampa f'ċertu pass ta' żmien. Fl-aħħar, huma jużaw l-għan li ġej:
Lsempliċi(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Fl-immaġni li ġejja, il-proċeduri ta 'taħriġ u teħid ta' kampjuni għall-mudell ta 'diffużjoni tagħna huma mpinġi b'mod konċiż:
Benefiċċji tal-Mudell ta' Diffużjoni
Kif kien diġà indikat, l-ammont ta 'riċerka dwar mudelli ta' diffużjoni immultiplika reċentement. Mudelli ta’ Diffużjoni issa jagħtu kwalità ta’ immaġini ta’ l-aktar avvanzata u huma ispirati minn termodinamika mhux ta’ ekwilibriju.
Mudelli ta 'diffużjoni jipprovdu varjetà ta' vantaġġi oħra minbarra li jkollhom kwalità ta 'stampa avvanzata, bħal ma jeħtieġu taħriġ avversarju.
L-iżvantaġġi tat-taħriġ kontradittorju huma magħrufa ħafna, għalhekk ħafna drabi huwa preferibbli li jintgħażlu alternattivi mhux kontradittorji b'rendiment ekwivalenti u effettività tat-taħriġ.
Mudelli ta 'tixrid jipprovdu wkoll il-vantaġġi ta' skalabbiltà u parallelizability f'termini ta 'effettività tat-taħriġ.
Għalkemm il-Mudelli tad-Diffużjoni jidhru li jiġġeneraw riżultati li jidhru mill-agħar, il-bażi għal dawn ir-riżultati hija stabbilita minn għadd ta 'deċiżjonijiet u rqaq matematiċi maħsub u interessanti, u l-aħjar prattiki tal-industrija għadhom qed jiġu żviluppati.
konklużjoni
Bħala konklużjoni, ir-riċerkaturi juru sejbiet ta 'sinteżi ta' stampi ta 'kwalità għolja li jutilizzaw mudelli probabilistiċi ta' diffużjoni, klassi ta 'mudelli varjabbli latenti motivati minn ideat minn termodinamika mhux ta' ekwilibriju.
Kisbu affarijiet tremendi grazzi għar-riżultati tal-Istat tal-Art u t-taħriġ mhux avversarju u minħabba l-bidu tagħhom, jistgħu jkunu antiċipati aktar avvanzi fis-snin li ġejjin.
B'mod partikolari, ġie skopert li l-mudelli tad-diffużjoni huma kruċjali għall-funzjonalità ta 'mudelli avvanzati bħal DALL-E 2.
Hawnhekk tista' taċċessa r-riċerka sħiħa.
Ħalli Irrispondi