Anns na bliadhnachan mu dheireadh, tha modalan ginealach ris an canar "modalan sgaoilidh" air a bhith a 'sìor fhàs mòr-chòrdte, agus le adhbhar math.
Tha an saoghal air faicinn dè na modalan sgaoilidh a tha comasach, leithid a bhith a’ coileanadh nas fheàrr na GANs air synthesis dhealbhan, le taing do ghrunn fhoillseachaidhean sònraichte a chaidh fhoillseachadh dìreach anns na 2020n & 2021n.
O chionn ghoirid chunnaic cleachdaichean cleachdadh mhodalan sgaoilidh ann an DALL-E2, Modail cruthachadh ìomhaigh OpenAI a chaidh fhoillseachadh air a’ mhìos a chaidh.
Tha mòran de luchd-cleachdaidh Ionnsachadh Inneal gun teagamh fiosrach mu obrachadh a-staigh Modalan Sgaoileadh leis an àrdachadh soirbheachais a th’ aca o chionn ghoirid.
Anns an dreuchd seo, bheir sinn sùil air bunaitean teòiridheach Modalan Sgaoileadh, an dealbhadh, na buannachdan aca, agus mòran a bharrachd. Rachamaid air adhart.
Dè a th’ ann am modail Sgaoileadh?
Feuch an tòisich sinn le bhith a’ faighinn a-mach carson a tha am modail seo air ainmeachadh mar mhodail sgaoilidh.
Canar eadar-sgaoileadh ri facal co-cheangailte ri thermodynamics ann an clasaichean fiosaig. Chan eil siostam ann an co-chothromachd ma tha cruinneachadh mòr de stuth, mar fhàile, ann an aon àite.
Feumaidh sgaoileadh a bhith ann airson an siostam a dhol a-steach gu cothromachd. Bidh moileciuilean an fhàile a’ sgaoileadh air feadh an t-siostaim bho sgìre le dùmhlachd nas àirde, a’ dèanamh an siostam èideadh air feadh an t-saoghail.
Aig a’ cheann thall bidh a h-uile dad aon-ghnèitheach mar thoradh air sgaoileadh.
Tha modalan sgaoilidh air am brosnachadh leis an t-suidheachadh neo-chothromach thermodynamic seo. Bidh modalan sgaoilidh a 'cleachdadh slabhraidh Markov, a tha na shreath de chaochladairean far a bheil luach gach caochladair an urra ri staid an tachartais roimhe.
A’ togail dealbh, bidh sinn an dèidh a chèile a’ cur tomhas sònraichte de dh’ fhuaim ris tron ìre sgaoilidh air adhart.
Às deidh dhuinn an ìomhaigh nas fuaimneach a stòradh, bidh sinn a’ dol air adhart gu bhith a’ cruthachadh an ìomhaigh às deidh sin san t-sreath le bhith a’ toirt a-steach fuaim a bharrachd.
Iomadh uair, tha am modh-obrach seo air a dhèanamh. Tha dealbh fìor fhuaim mar thoradh air a bhith ag ath-aithris an dòigh seo grunn thursan.
Ciamar mar sin a chruthaicheas sinn dealbh bhon ìomhaigh mhì-chliùiteach seo?
Tha am pròiseas sgaoilidh air a thionndadh air ais le bhith a’ cleachdadh a lìon neònach. Bithear a’ cleachdadh na h-aon lìonraidhean agus na h-aon cuideaman anns a’ phròiseas sgaoilidh air ais gus an dealbh a chruthachadh bho t gu t-1.
An àite a bhith a 'leigeil leis an lìonra a bhith a' sùileachadh an dealbh, faodaidh aon feuchainn ri ro-innse a dhèanamh air an fhuaim aig gach ceum, a dh'fheumar a thoirt air falbh bhon ìomhaigh, gus an obair a dhèanamh nas sìmplidhe.
Ann an suidheachadh sam bith, tha an dealbhadh lìonra neural feumar a thaghadh ann an dòigh a chumas meudachd dàta.
Dàibheadh domhainn a-steach do mhodail sgaoilidh
Tha na pàirtean de mhodail sgaoilidh mar phròiseas air adhart (ris an canar cuideachd pròiseas sgaoilidh), anns a bheil datum (gu tric ìomhaigh) air a chluinntinn mean air mhean, agus pròiseas air ais (ris an canar cuideachd pròiseas sgaoilidh cùil), anns a bheil fuaim. air a thionndadh air ais gu sampall bhon sgaoileadh targaid.
Nuair a tha an ìre fuaim ìosal gu leòr, faodar Gaussians le cùmhnant a chleachdadh gus eadar-ghluasadan slabhraidh samplachaidh a stèidheachadh sa phròiseas air adhart. Tha parameterization furasta den phròiseas air adhart mar thoradh air a bhith a’ ceangal an eòlais seo ri barail Markov:
q(x1:T |x0):=YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
seo aon….Is e clàr caochlaideachd a th’ ann an T (an dara cuid ionnsaichte no stèidhichte) a nì cinnteach, airson T àrd gu leòr, gur e Gaussian isotropic a th’ ann an xT cha mhòr.
Is e am pròiseas mu choinneamh far a bheil draoidheachd modail sgaoilidh a’ tachairt. Bidh am modail ag ionnsachadh a’ phròiseas sgaoilidh seo a thionndadh air ais rè trèanadh gus dàta ùr a thoirt gu buil. Bidh am modail ag ionnsachadh an sgaoileadh còmhla mar (x0:T) mar thoradh air tòiseachadh leis a’ cho-aontar fuaim fìor-ghlan Gaussian
(xT):=N(xT,0,i).
pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ( xt, t))
far a bheilear a’ lorg crìochan ùine eadar-ghluasad Gaussian. Gu sònraichte, thoir an aire mar a tha cruth Markov ag ràdh gu bheil cuairteachadh gluasaid tionndaidh cùil sònraichte an urra ris a’ cheum-ama roimhe (no ceum-ùine às deidh sin, a rèir mar a choimheadas tu air):
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Trèanadh modail
Thathas a’ cleachdadh modal cùil Markov a tha a’ meudachadh coltachd an dàta trèanaidh gus modal sgaoilidh a thrèanadh. Gu practaigeach, tha trèanadh co-chosmhail ri bhith a’ lughdachadh a’ chrìoch àrd caochlaideach air coltachd log àicheil.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T) q(x1:T | x0) = Eq − log p(xT) − X t≥1 log pθ(xt−1|xt) q (xt | xt−1) =: L
modailean
Feumaidh sinn a-nis co-dhùnadh ciamar a chuireas sinn ar Modail Sgaoileadh an gnìomh às deidh dhuinn bunaitean matamataigeach ar gnìomh amasan a stèidheachadh. Is e an aon cho-dhùnadh a tha a dhìth airson a’ phròiseas air adhart a bhith a’ dearbhadh a’ chlàr caochlaideachd, aig a bheil luachan mar as trice ag èirigh tron mhodh-obrachaidh.
Tha sinn gu làidir a’ beachdachadh air parameterization cuairteachaidh Gaussian agus ailtireachd modail a chleachdadh airson a’ mhodh cùil.
Is e an aon chumha den dealbhadh againn gu bheil na h-aon tomhasan aig an dà chuid cuir a-steach agus toradh. Tha seo a’ daingneachadh an ìre mhòr de shaorsa a tha Diffusion Models a’ toirt seachad.
Gu h-ìosal, thèid sinn nas doimhne mu na roghainnean sin.
Pròiseas air adhart
Feumaidh sinn an clàr caochlaideachd a thoirt seachad a thaobh a’ phròiseas air adhart. Shuidhich sinn gu sònraichte iad gu bhith nan stèidheachdan a bha an urra ri ùine agus thug sinn an aire don chomas gun gabh an ionnsachadh. Clàr a rèir eachdraidh bho
β1 = 10−4 Gu βT = 0.02.
Lt gu bhith seasmhach a thaobh ar seata de pharamadairean ionnsachadh mar thoradh air a’ chlàr caochlaideachd stèidhichte, a’ leigeil leinn dìmeas a dhèanamh air rè trèanadh ge bith dè na luachan sònraichte a chaidh a thaghadh.
Pròiseas air ais
Bidh sinn a-nis a’ dol thairis air na co-dhùnaidhean a dh’ fheumar gus am pròiseas cùil a mhìneachadh. Cuimhnich mar a thug sinn cunntas air na h-eadar-ghluasadan cùil Markov mar Gaussian:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
A-nis gu bheil sinn air na seòrsaichean gnìomh a chomharrachadh. A dh 'aindeoin gu bheil dòighean nas toinnte ann airson parameterize, tha sinn dìreach a' suidheachadh
Σθ(xt, t) = σ 2 t I
σ 2 t = tha
Gus a chuir ann an dòigh eile, tha sinn den bheachd gu bheil an Gaussian ioma-chaochlaideach mar thoradh air Gaussians air leth leis an aon chaochladh, luach caochladair a dh’ fhaodas atharrachadh thar ùine. Tha na claonaidhean sin air an suidheachadh gus a bhith co-ionnan ris a’ chlàr-ama airson gluasadan pròiseas air adhart.
Mar thoradh air an cruthachadh ùr seo, Tha againn:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
Tha seo a’ leantainn gu gnìomh call eile a chithear gu h-ìosal, a lorg na h-ùghdaran a thug a-mach trèanadh nas cunbhalaiche agus builean nas fheàrr:
Lsimple(θ):= Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Bidh na h-ùghdaran cuideachd a’ tarraing cheanglaichean eadar an cruthachadh seo de mhodalan sgaoilidh agus modalan ginealachd stèidhichte air sgòr Langevin. Coltach ri leasachadh neo-eisimeileach agus co-shìnte air fiosaig cuantamach stèidhichte air tonn agus meacanaig cuantamach stèidhichte air matrix, a nochd dà fhoirmle coimeasach de na h-aon iongantasan, tha e coltach gum faod Modalan Sgaoileadh agus modalan stèidhichte air sgòr a bhith dà thaobh den aon bhonn.
Ailtireachd Lìonra
A dh'aindeoin 's gu bheil ar gnìomh call dlùth ag amas air modail a thrèanadh Σθ, chan eil sinn fhathast air co-dhùnadh a dhèanamh air ailtireachd a’ mhodail seo. Cumaibh cuimhne gum feum na h-aon tomhasan cuir a-steach is toraidh a bhith aig a’ mhodail.
Leis a’ bhacadh seo, is dòcha nach eil e ris nach robh dùil gu bheil ailtirean coltach ri U-Net gu tric air an cleachdadh gus modalan sgaoilidh dhealbhan a chruthachadh.
Thathas a’ dèanamh mòran atharrachaidhean air slighe a’ phròiseas cùil fhad ‘s a thathar a’ cleachdadh sgaoilidhean Gaussian le cumhachan leantainneach. Cuimhnich gur e amas a’ mhodh-obrachaidh air ais dealbh a chruthachadh air a dhèanamh suas de luachan picteil iomlan. Mar sin tha e riatanach a bhith a’ dearbhadh coltas fa leth (log) airson gach luach piogsail a dh’fhaodadh a bhith ann thairis air a h-uile piogsail.
Tha seo air a choileanadh le bhith a’ sònrachadh decoder fa leth don eadar-ghluasad mu dheireadh aig an t-sreath sgaoilidh cùil. a’ toirt tuairmse air cothrom dealbh sònraichte x0 Leis x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ ma tha x = 1 x + 1 255 ma tha x < 1 δ−(x) = −∞ ma tha x = −1 x − 1 255 ma tha x > −1
far a bheil an superscript I a’ comharrachadh tarraing aon cho-chomharran agus D a’ comharrachadh an àireamh de mheudan san dàta.
Is e an amas aig an ìre seo a bhith a’ dearbhadh dè cho coltach ‘s a tha gach luach iomlan airson piogsail sònraichte le bhith a’ cuairteachadh luachan a dh’fhaodadh a bhith ann airson a’ phiogsail sin anns an atharrachadh ùine. t=1.
Amas Deireannach
Thàinig na builean as motha, a rèir luchd-saidheans, bho bhith a’ ro-innse na pàirt fuaim de dhealbh aig àm sònraichte. Aig a 'cheann thall, bidh iad a' cleachdadh an amas a leanas:
Lsimple(θ):= Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Anns an ìomhaigh a leanas, tha na modhan trèanaidh is samplachaidh airson ar modal sgaoilidh air an sealltainn gu pongail:
Buannachdan Modail Sgaoileadh
Mar a chaidh ainmeachadh roimhe, tha an ìre de rannsachadh air modalan sgaoilidh air a dhol suas o chionn ghoirid. Tha Modalan Sgaoileadh a-nis a’ lìbhrigeadh càileachd ìomhaigh ùr-nodha agus tha iad air am brosnachadh le thermodynamics neo-chothromach.
Tha Modalan Sgaoileadh a’ toirt seachad grunn bhuannachdan eile a bharrachd air càileachd dhealbhan ùr-nodha, leithid gun a bhith feumach air trèanadh dùbhlanach.
Tha eòlas farsaing air na h-eas-bhuannachdan a tha an lùib trèanadh nàimhdeil, agus mar sin tha e gu tric nas fheàrr roghainnean neo-nàimhdeil a thaghadh le coileanadh co-ionann agus èifeachdas trèanaidh.
Bidh modalan sgaoilidh cuideachd a’ toirt seachad buannachdan scalability agus co-shìnteachd a thaobh èifeachdas trèanaidh.
Ged a tha coltas gu bheil Modalan Sgaoileadh a’ gineadh builean a rèir choltais a-mach à èadhar tana, tha grunn cho-dhùnaidhean matamataigeach smaoineachail is inntinneach air an cur sìos le grunn cho-dhùnaidhean inntinneach agus inntinneach, agus tha deagh chleachdaidhean gnìomhachais fhathast gan leasachadh.
Co-dhùnadh
Ann an co-dhùnadh, tha luchd-rannsachaidh a’ nochdadh toraidhean synthesis dhealbhan àrd-inbhe a’ cleachdadh mhodalan probabilistic sgaoilidh, clas de mhodalan caochlaideach falaichte air am brosnachadh le beachdan bho thermodynamics neo-chothromach.
Tha iad air rudan fìor mhath a choileanadh mar thoradh air na builean ùr-nodha aca agus an trèanadh neo-nàimhdeil agus leis gu bheil iad òg, is dòcha gum bi dùil ri tuilleadh adhartais anns na bliadhnaichean ri teachd.
Gu sònraichte, chaidh a lorg gu bheil modalan sgaoilidh deatamach airson gnìomhachd mhodalan adhartach leithid DALL-E 2.
seo gheibh thu cothrom air an rannsachadh iomlan.
Leave a Reply