Yn ystod y blynyddoedd diwethaf, mae modelau cynhyrchiol o'r enw “modelau tryledu” wedi dod yn fwyfwy poblogaidd, a chydag achos da.
Mae'r byd wedi gweld yr hyn y gall modelau tryledu ei wneud, megis perfformio'n well na GANs ar synthesis lluniau, diolch i ychydig o gyhoeddiadau nodedig a gyhoeddwyd yn y 2020au a'r 2021au yn unig.
Yn fwyaf diweddar gwelodd ymarferwyr y defnydd o fodelau tryledu yn DALL-E2, Model creu delwedd OpenAI a gyhoeddwyd y mis diwethaf.
Heb os, mae llawer o ymarferwyr Dysgu Peiriannau yn chwilfrydig am weithrediad mewnol Modelau Tryledu o ystyried eu llwyddiant diweddar.
Yn y swydd hon, byddwn yn edrych ar seiliau damcaniaethol Modelau Tryledu, eu dyluniad, eu manteision, a llawer mwy. Gadewch i ni fynd ati.
Beth yw'r model Tryledu?
Gadewch i ni ddechrau trwy ddarganfod pam y cyfeirir at y model hwn fel model trylediad.
Gelwir gair sy'n gysylltiedig â thermodynameg mewn dosbarthiadau ffiseg yn trylediad. Nid yw system mewn ecwilibriwm os oes crynodiad mawr o ddefnydd, fel arogl, mewn un lleoliad.
Rhaid tryledu er mwyn i'r system fynd i mewn i gydbwysedd. Mae moleciwlau'r arogl yn ymledu trwy'r system o ranbarth â chrynodiad uwch, gan wneud y system yn unffurf drwyddi draw.
Mae popeth yn dod yn homogenaidd yn y pen draw oherwydd trylediad.
Mae modelau trylediad yn cael eu hysgogi gan y cyflwr thermodynamig an-ecwilibriwm hwn. Mae modelau trylediad yn defnyddio cadwyn Markov, sef cyfres o newidynnau lle mae gwerth pob newidyn yn dibynnu ar gyflwr y digwyddiad blaenorol.
Gan gymryd llun, rydym yn olynol yn ychwanegu swm penodol o sŵn ato trwy gydol y cyfnod tryledu ymlaen.
Ar ôl storio'r ddelwedd fwy swnllyd, awn ymlaen i greu'r ddelwedd ddilynol yn y gyfres trwy gyflwyno sŵn ychwanegol.
Sawl gwaith, gwneir y weithdrefn hon. Mae llun sŵn pur yn deillio o ailadrodd y dull hwn ychydig o weithiau.
Sut felly gallwn ni greu llun o'r ddelwedd anniben hon?
Mae'r broses tryledu yn cael ei wrthdroi gan ddefnyddio a rhwydwaith nefol. Defnyddir yr un rhwydweithiau a'r un pwysau yn y broses tryledu yn ôl i greu'r darlun o t i t-1.
Yn hytrach na gadael i'r rhwydwaith ragweld y llun, gellir ceisio rhagweld y sŵn ar bob cam, y mae'n rhaid ei dynnu o'r ddelwedd, er mwyn symleiddio'r dasg ymhellach.
Mewn unrhyw senario, mae'r dylunio rhwydwaith niwral rhaid eu dewis mewn ffordd sy'n cynnal dimensiwn data.
Plymio'n Ddwfn i Fodel Tryledu
Mae cydrannau model trylediad yn broses ymlaen (a elwir hefyd yn broses tryledu), lle mae datwm (delwedd yn aml) yn cael ei seinio'n raddol, a phroses wrthdroi (a elwir hefyd yn broses tryledu gwrthdro), lle mae sŵn yn trosi yn ôl yn sampl o'r dosbarthiad targed.
Pan fydd lefel y sŵn yn ddigon isel, gellir defnyddio Gaussians amodol i sefydlu'r trawsnewidiadau cadwyn samplu yn y broses ymlaen. Mae paramedriad hawdd o'r broses ymlaen yn deillio o gyplysu'r wybodaeth hon â rhagdybiaeth Markov:
q(x1:T |x0):= YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Yma pump….Mae T yn atodlen amrywiant (naill ai wedi'i dysgu neu'n sefydlog) sy'n sicrhau, ar gyfer T digon uchel, bod xT bron yn Gaussian isotropig.
Y broses gyferbyn yw lle mae hud model tryledu yn digwydd. Mae'r model yn dysgu i wrthdroi'r broses tryledu hon yn ystod hyfforddiant er mwyn cynhyrchu data ffres. Mae'r model yn dysgu'r dosbarthiad ar y cyd fel (x0:T) canlyniad dechrau gyda'r hafaliad sŵn Gaussian pur
(xT):=N(xT,0,I).
pθ(x0:T ):= p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ( xt, t))
lle darganfyddir paramedrau amser-ddibynnol y trawsnewidiadau Gaussaidd. Yn benodol, sylwch ar sut mae fformiwleiddiad Markov yn nodi bod dosbarthiad trawsnewid trylediad gwrthdro penodol yn dibynnu'n gyfan gwbl ar y cam amser blaenorol (neu'r cam amser dilynol, yn dibynnu ar sut rydych chi'n edrych arno):
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Hyfforddiant Model
Defnyddir model Markov o chwith sy'n cynyddu tebygolrwydd y data hyfforddi i'r eithaf i hyfforddi model tryledu. Yn ymarferol, mae hyfforddiant yn cyfateb i leihau'r arffin uchaf amrywiadwy ar y tebygolrwydd log negyddol.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modelau
Mae angen i ni nawr benderfynu sut i weithredu ein Model Tryledu ar ôl sefydlu seiliau mathemategol ein swyddogaeth nod. Yr unig benderfyniad sydd ei angen ar gyfer y broses ymlaen yw pennu'r rhestr amrywiadau, y mae ei gwerthoedd fel arfer yn codi yn ystod y weithdrefn.
Rydym yn ystyried yn gryf defnyddio paramedriad dosbarthiad Gaussian a phensaernïaeth enghreifftiol ar gyfer y weithdrefn wrthdroi.
Unig amod ein dyluniad yw bod gan y mewnbwn a'r allbwn yr un dimensiynau. Mae hyn yn tanlinellu'r graddau enfawr o ryddid y mae Diffusion Models yn ei ddarparu.
Isod, byddwn yn mynd i fwy o ddyfnder am yr opsiynau hyn.
Proses Ymlaen
Rhaid inni ddarparu’r amserlen amrywiadau mewn perthynas â’r broses ymlaen. Fe wnaethom eu gosod yn benodol i fod yn gysonion amser-ddibynnol a diystyru'r posibilrwydd y gellir eu dysgu. Rhestr gronolegol o
β1 = 10−4 i βT = 0.02.
Lt yn dod yn gyson o ran ein set o baramedrau dysgadwy oherwydd yr amserlen amrywiant sefydlog, gan ganiatáu inni ei ddiystyru yn ystod hyfforddiant waeth beth fo'r gwerthoedd penodol a ddewiswyd.
Proses Gwrthdroi
Awn yn awr dros y penderfyniadau sydd eu hangen i ddiffinio'r broses o'r chwith. Cofiwch sut y bu i ni ddisgrifio trawsnewidiadau cefn Markov fel Gaussian:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Nawr ein bod wedi nodi'r mathau swyddogaethol. Er gwaethaf y ffaith bod technegau mwy cymhleth i baramedrau, rydym yn gosod
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
I'w roi mewn ffordd arall, rydym yn ystyried y Gaussiaid amrywedd yn ganlyniad Gaussiaid ar wahân gyda'r un amrywiant, gwerth amrywiant a all amrywio dros amser. Mae'r gwyriadau hyn wedi'u gosod i gyd-fynd â'r amserlen ar gyfer anfon gwyriadau ymlaen yn y broses.
O ganlyniad i'r ffurfiad newydd hwn, mae gennym ni:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t) :=N (xt−1; µθ (xt, t), σ2 t I)
Mae hyn yn arwain at y swyddogaeth colled arall a ddangosir isod, y canfu'r awduron ei bod yn cynhyrchu hyfforddiant mwy cyson a chanlyniadau gwell:
Syml(θ):= Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Mae'r awduron hefyd yn tynnu cysylltiadau rhwng y ffurfiad hwn o fodelau tryledu a modelau cynhyrchiol sy'n cyfateb i sgôr yn seiliedig ar Langevin. Yn yr un modd â datblygiad annibynnol a chyfochrog ffiseg cwantwm tonnau a mecaneg cwantwm seiliedig ar fatrics, a ddatgelodd ddau fformiwleiddiad tebyg o'r un ffenomenau, mae'n ymddangos y gall Modelau Tryledu a modelau Seiliedig ar Sgoriau fod yn ddwy ochr i'r un geiniog.
Pensaernïaeth Rhwydwaith
Er gwaethaf y ffaith bod ein swyddogaeth colli cyddwys yn anelu at hyfforddi model Σθ, nid ydym wedi penderfynu ar bensaernïaeth y model hwn o hyd. Cofiwch fod yn rhaid i'r model gael yr un dimensiynau mewnbwn ac allbwn.
O ystyried y cyfyngiad hwn, mae'n debyg nad yw'n annisgwyl bod pensaernïaeth tebyg i U-Net yn cael eu defnyddio'n aml i greu modelau tryledu lluniau.
Gwneir nifer o newidiadau ar hyd llwybr y broses wrthdroi tra'n defnyddio dosraniadau Gaussian amodol parhaus. Cofiwch mai nod y weithdrefn wrthdroi yw creu llun sy'n cynnwys gwerthoedd picsel cyfanrif. Felly mae angen pennu tebygolrwydd (log) arwahanol ar gyfer pob gwerth picsel posibl dros bob picsel.
Cyflawnir hyn trwy neilltuo datgodiwr arwahanol ar wahân i drawsnewidiad olaf y gadwyn tryledu gwrthdro. amcangyfrif siawns delwedd arbennig x0 rhoddir x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ os x = 1 x + 1 255 os x < 1 δ−(x) = −∞ os x = −1 x − 1 255 os x > −1
lle mae uwchysgrif I yn dynodi echdynnu un cyfesuryn a D yn dynodi nifer y dimensiynau yn y data.
Yr amcan ar y pwynt hwn yw sefydlu'r tebygolrwydd y bydd gwerth pob cyfanrif ar gyfer picsel penodol o ystyried dosbarthiad gwerthoedd posibl ar gyfer y picsel hwnnw yn y newid amser t=1.
Amcan Terfynol
Daeth y canlyniadau mwyaf, yn ôl gwyddonwyr, o ragweld elfen sŵn llun ar gyfnod penodol o amser. Yn y diwedd, maent yn defnyddio'r nod canlynol:
Syml(θ):= Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Yn y ddelwedd ganlynol, mae'r gweithdrefnau hyfforddi a samplu ar gyfer ein model tryledu wedi'u darlunio'n gryno:
Manteision y Model Tryledu
Fel y nodwyd eisoes, mae maint yr ymchwil ar fodelau tryledu wedi cynyddu'n ddiweddar. Mae Modelau Tryledu bellach yn darparu ansawdd delwedd o'r radd flaenaf ac yn cael eu hysbrydoli gan thermodynameg nad yw'n gydbwysedd.
Mae Modelau Tryledu yn darparu amrywiaeth o fanteision eraill yn ogystal â chael ansawdd llun blaengar, megis nad oes angen hyfforddiant gwrthwynebus.
Mae anfanteision hyfforddiant gwrthwynebus yn hysbys iawn, felly mae'n aml yn well dewis dewisiadau eraill nad ydynt yn wrthwynebus gyda pherfformiad cyfatebol ac effeithiolrwydd hyfforddiant.
Mae modelau trylediad hefyd yn darparu manteision scalability a parallelizability o ran effeithiolrwydd hyfforddiant.
Er ei bod yn ymddangos bod Modelau Tryledu yn cynhyrchu canlyniadau sy'n ymddangos yn allan o awyr denau, gosodir y sail ar gyfer y canlyniadau hyn gan nifer o benderfyniadau mathemategol meddylgar a diddorol a chynnil, ac mae arferion gorau'r diwydiant yn dal i gael eu datblygu.
Casgliad
I gloi, mae ymchwilwyr yn dangos canfyddiadau synthesis llun o ansawdd uchel gan ddefnyddio modelau tebygolrwydd trylediad, dosbarth o fodelau newidiol cudd wedi'u cymell gan syniadau o thermodynameg anghyfartal.
Maent wedi cyflawni pethau aruthrol diolch i'w canlyniadau o'r radd flaenaf a'u hyfforddiant anwrthwynebol ac o ystyried eu babandod, mae'n bosibl y bydd mwy o ddatblygiadau yn y blynyddoedd i ddod.
Yn benodol, darganfuwyd bod modelau trylediad yn hanfodol i ymarferoldeb modelau uwch fel DALL-E 2.
Yma gallwch gael mynediad at yr ymchwil gyflawn.
Gadael ymateb