Sa kinatibuk-an, ang lawom nga generative nga mga modelo sama sa GANs, VAEs, ug autoregressive nga mga modelo nagdumala sa mga problema sa synthesis sa imahe.
Tungod sa taas nga kalidad sa datos nga ilang gihimo, ang mga generative adversarial network (GANs) nakadawat og daghang pagtagad sa bag-ohay nga mga tuig.
Ang mga modelo sa pagsabwag usa pa ka makaiikag nga natad sa pagtuon nga nagtukod sa kaugalingon. Ang mga natad sa imahe, video, ug tingog nga henerasyon parehas nga nakit-an nga daghang gamit alang sa duha.
Mga modelo sa pagsabwag batok sa mga GAN: Unsa ang Naghatag Mas Maayo nga mga Resulta? Siyempre, kini mitultol sa nagpadayon nga panaghisgot.
Sa computational nga arkitektura nga nailhan nga GAN, duha neural networks nakig-away batok sa usag usa aron makahimo og bag-ong gi-synthesize nga mga instance sa datos nga mahimong ipasa alang sa tinuod nga datos.
Ang mga modelo sa pagsabwag nahimong mas ug mas popular tungod kay kini naghatag og kalig-on sa pagbansay ug taas nga mga resulta alang sa paghimo og musika ug mga graphic.
Kini nga artikulo moagi sa modelo sa pagsabwag ug mga GAN sa detalye, ingon man kung giunsa kini magkalainlain sa usag usa ug pipila pa nga mga butang.
Busa, unsa ang Generative Adversarial Networks?
Aron makahimo og bag-o, artipisyal nga mga instance sa datos nga mahimong masayop sa tinuod nga datos, ang generative adversarial networks (GANs) naggamit ug duha ka neural networks ug nagbutang kanila batok sa usag usa (busa ang "adversarial" sa ngalan).
Kini kaylap nga gigamit alang sa pagsulti, video, ug paghimo og litrato.
Ang katuyoan sa GAN mao ang paghimo kaniadto nga wala mahibal-an nga datos gikan sa usa ka piho nga datos. Ang pagsulay sa pag-infer sa usa ka modelo sa aktuwal, wala mailhi nga nagpahiping pag-apod-apod sa datos gikan sa mga sampol, gibuhat kini.
Sa laing bahin, kini nga mga network kay mga implicit nga mga modelo nga misulay sa pagkat-on sa usa ka piho nga statistical distribution.
Ang pamaagi nga gigamit sa GAN aron mahibal-an kung giunsa kini nga katuyoan mao ang nobela. Sa tinuud, naghimo sila og datos pinaagi sa pagdula og duha ka magdudula nga dula aron makahimo og usa ka implicit nga modelo.
Ang mosunod naghulagway sa istruktura:
- usa ka Diskriminator nga nakakuha sa abilidad sa paglainlain tali sa tinuod ug peke nga datos
- ang usa ka generator nga mopili ug bag-ong mga paagi sa paghimog datos makalingla sa tigpihigpihig.
Ang discriminator nagpakita nga usa ka neural network. Busa, ang generator kinahanglan nga maghimo usa ka litrato nga adunay taas nga kalidad aron malingla kini.
Ang kamatuoran nga kini nga mga generator wala gibansay gamit ang bisan unsang pag-apod-apod sa output usa ka hinungdanon nga kalainan tali sa mga modelo sa autoencoder ug uban pang mga modelo.
Adunay duha ka paagi sa pag-decompose sa pagkawala sa function sa modelo:
- ang abilidad sa pag-ihap kung ang nagpihigpihig tukma nga nakakita sa tinuod nga datos
- ang namugna nga datos tukma nga gitagna sa usa ka bahin.
Sa labing maayo nga mahimo nga diskriminator, kini nga pagkawala nga function maminusan:
Ang mga generic nga modelo mahimo nga isipon nga mga modelo sa pagminus sa gilay-on ug, kung maayo ang diskriminator, ingon nga pagminus sa kalainan tali sa tinuod ug gihimo nga pag-apod-apod.
Sa tinuud, ang lainlaing mga kalainan mahimong magamit ug moresulta sa lainlaing mga pamaagi sa pagbansay sa GAN.
Ang mga dinamika sa pagkat-on, nga naglakip sa usa ka trade-off tali sa generator ug sa discriminator, mahagiton nga sundon, bisan pa sa yano nga pag-adjust sa pagkawala sa function sa GANs.
Wala usab mga kasiguruhan nga ang pagkat-on maghiusa. Ingon usa ka sangputanan, ang pagbansay sa usa ka modelo sa GAN lisud, tungod kay kasagaran nga magdagan sa mga problema sama sa pagkawala sa mga gradient ug pagkahugno sa mode (kung wala’y kalainan sa mga nahimo nga sample).
Karon, panahon na alang sa Diffusion Models
Ang problema sa convergence sa pagbansay sa mga GAN nasulbad pinaagi sa pagpauswag sa mga modelo sa pagsabwag.
Kini nga mga modelo nagtuo nga ang usa ka proseso sa pagsabwag katumbas sa pagkawala sa impormasyon nga dala sa progresibong interference sa kasaba (usa ka gaussian noise ang idugang sa matag timestep sa proseso sa pagsabwag).
Ang katuyoan sa ingon nga modelo mao ang pagtino kung giunsa ang epekto sa kasaba sa kasayuran nga naa sa sample, o, sa pagbutang niini sa lain nga paagi, kung pila ang nawala nga kasayuran tungod sa pagsabwag.
Kung mahibal-an kini sa usa ka modelo, kinahanglan nga makuha niini ang orihinal nga sample ug i-undo ang pagkawala sa kasayuran nga nahitabo.
Nahimo kini pinaagi sa usa ka denoising diffusion model. Usa ka proseso sa pagsabwag sa unahan ug usa ka proseso sa pagsabwag balik ang naglangkob sa duha ka mga lakang.
Ang proseso sa pagsabwag sa unahan naglakip sa anam-anam nga pagdugang sa Gaussian nga kasaba (pananglitan, ang proseso sa pagsabwag) hangtud nga ang datos hingpit nga mahugawan sa kasaba.
Ang neural network pagkahuman gibansay gamit ang reverse diffusion nga pamaagi aron mahibal-an ang mga probabilidad sa pag-apod-apod sa kondisyon aron mabalik ang kasaba.
Dinhi mas masabtan nimo ang bahin sa modelo sa pagsabwag.
Diffusion Model Vs GANs
Sama sa usa ka modelo sa pagsabwag, ang mga GAN naghimo og mga hulagway gikan sa kasaba.
Ang modelo gilangkoban sa usa ka generator neural network, nga nagsugod sa kasaba sa pipila ka informative conditioning variable, sama sa label sa klase o text encoding.
Ang resulta kinahanglan nga usa ka butang nga susama sa usa ka realistiko nga imahe.
Aron makamugna og photorealistic ug high-fidelity nga mga henerasyon sa hulagway, naggamit kami og mga GAN. Bisan ang mas realistiko nga mga biswal kaysa mga GAN gihimo gamit ang mga modelo sa pagsabwag.
Sa usa ka paagi, ang mga modelo sa pagsabwag mas tukma sa paghulagway sa mga kamatuoran.
Samtang ang usa ka GAN nagkuha ingon nga input random noise o usa ka variable sa pagkondisyon sa klase ug nagpagawas usa ka realistiko nga sample, ang mga modelo sa pagsabwag sa kasagaran mas hinay, nagbalikbalik, ug nanginahanglan labi pa nga giya.
Wala’y daghang lugar alang sa sayup kung ang denoising gigamit balik-balik nga adunay katuyoan nga ibalik ang orihinal nga imahe gikan sa kasaba.
Ang matag checkpoint gipaagi sa tibuok yugto sa paglalang, ug sa matag lakang, ang hulagway mahimong makakuha ug dugang ug dugang impormasyon.
Panapos
Sa konklusyon, Tungod sa pipila ka hinungdanon nga panukiduki nga gipatik lamang kaniadtong 2020s ug 2021, ang mga modelo sa pagsabwag mahimo na karon nga molabaw sa mga GAN sa mga termino sa synthesis sa litrato.
Karong tuiga, gilusad ang OpenAI DALL-E2, usa ka modelo sa produksiyon sa imahe nga nagtugot sa mga practitioner sa paggamit sa mga modelo sa pagsabwag.
Bisan tuod ang mga GAN mga cutting-edge, ang ilang mga pagpugong naghimo niini nga mahagiton sa pagsukod ug paggamit niini sa bag-ong mga konteksto.
Aron makab-ot ang sama sa GAN nga sample nga kalidad gamit ang posibilidad nga nakabase sa mga modelo, daghang trabaho ang gibutang niini.
Leave sa usa ka Reply