Feem ntau, cov qauv sib sib zog nqus zoo li GANs, VAEs, thiab cov qauv autoregressive daws teeb meem duab synthesis.
Muab qhov zoo ntawm cov ntaub ntawv lawv tsim, generative adversarial networks (GANs) tau txais kev saib xyuas ntau hauv xyoo tas los no.
Diffusion qauv yog lwm qhov kev kawm txaus nyiam uas tau tsim nws tus kheej. Cov teb ntawm cov duab, video, thiab lub suab tsim tau ob qho tib si pom kev siv ntau rau ob qho tib si.
Diffusion qauv vs. GANs: Yam twg ua tau zoo dua? Lawm, qhov no tau ua rau muaj kev sib tham tsis tu ncua.
Nyob rau hauv lub computer architecture hu ua GAN, ob neural networks tau tawm tsam ib leeg los tsim cov xwm txheej tshiab ntawm cov ntaub ntawv uas tuaj yeem dhau mus rau cov ntaub ntawv tiag.
Diffusion qauv tau txais ntau thiab nrov dua vim lawv muab kev cob qhia kev ruaj ntseg thiab cov txiaj ntsig siab rau kev tsim suab paj nruag thiab duab.
Kab lus no yuav dhau los ntawm cov qauv diffusion thiab GANs hauv kev nthuav dav, nrog rau qhov lawv txawv ntawm ib leeg thiab ob peb yam.
Yog li, dab tsi yog Generative Adversarial Networks?
Txhawm rau tsim cov ntaub ntawv tshiab, cov ntaub ntawv cuav uas yuav ua yuam kev rau cov ntaub ntawv tiag, generative adversarial networks (GANs) siv ob lub neural networks thiab pit lawv tawm tsam ib leeg (yog li "tus yeeb ncuab" hauv lub npe).
Lawv feem ntau siv rau kev hais lus, yees duab, thiab tsim duab.
GAN lub hom phiaj yog los tsim cov ntaub ntawv yav dhau los uas tsis tau tshawb pom los ntawm cov ntaub ntawv tshwj xeeb. Sim ua kom pom tus qauv ntawm qhov tseeb, tsis paub cov ntaub ntawv hauv qab kev faib tawm los ntawm cov qauv, ua qhov no.
Xwb hais tias, cov tes hauj lwm no yog cov qauv implicit uas sim kawm txog ib qho kev faib tawm.
Txoj kev GAN siv los tshawb nrhiav kom ua tiav lub hom phiaj no yog qhov tshiab. Qhov tseeb, lawv tsim cov ntaub ntawv los ntawm kev ua si ntawm ob tus neeg ua si los tsim ib qho qauv implicit.
Cov hauv qab no piav qhia txog tus qauv:
- ib tug Discriminator uas tau txais lub peev xwm los sib txawv ntawm cov ntaub ntawv tseeb thiab cuav
- lub tshuab hluav taws xob uas khaws txoj hauv kev tshiab los tsim cov ntaub ntawv tuaj yeem ua rau tus neeg ntxub ntxaug.
Cov kev ntxub ntxaug poses li neural network. Yog li ntawd, lub tshuab hluav taws xob yuav tsum tau tsim ib daim duab nrog cov khoom zoo los ua kom yuam kev.
Qhov tseeb tias cov tshuab hluav taws xob no tsis raug cob qhia siv cov kev faib tawm yog qhov sib txawv ntawm cov qauv autoencoder thiab lwm cov qauv.
Muaj ob txoj hauv kev los decompose qhov poob haujlwm ntawm tus qauv:
- lub peev xwm los ntsuas yog tias tus neeg ntxub ntxaug pom tseeb cov ntaub ntawv tiag tiag
- generated cov ntaub ntawv yog raug kwv yees los ntawm ib feem.
Ntawm qhov ua tau zoo tshaj qhov kev ntxub ntxaug, qhov kev poob haujlwm no raug txo qis:
Cov qauv dav dav tuaj yeem xav tias yog qhov kev ncua deb ntawm cov qauv thiab, yog tias qhov kev ntxub ntxaug yog qhov zoo tagnrho, raws li kev sib txawv minimization ntawm qhov tseeb thiab tsim tawm.
Qhov tseeb tiag, kev sib txawv sib txawv tuaj yeem ua haujlwm thiab ua rau muaj ntau yam kev qhia GAN.
Cov kev kawm muaj zog, uas suav nrog kev lag luam tawm ntawm lub tshuab hluav taws xob thiab tus neeg saib tsis taus, yog qhov nyuaj ua raws, txawm hais tias nws yooj yim los kho qhov poob ntawm GANs.
Kuj tsis muaj kev lees paub tias kev kawm yuav sib koom ua ke. Yog li ntawd, kev cob qhia tus qauv GAN yog qhov nyuaj, vim tias nws yog qhov zoo rau kev khiav hla cov teeb meem xws li ploj gradients thiab hom kev sib tsoo (thaum tsis muaj ntau haiv neeg hauv cov qauv tsim).
Tam sim no, nws yog lub sijhawm rau Diffusion Models
Qhov teeb meem nrog GANs 'kev cob qhia convergence tau hais los ntawm kev txhim kho cov qauv diffusion.
Cov qauv no xav tias cov txheej txheem diffusion yog sib npaug rau cov ntaub ntawv poob los ntawm lub suab nrov ntawm kev cuam tshuam loj heev (ib lub suab nrov gaussian ntxiv rau txhua lub sijhawm ntawm cov txheej txheem diffusion).
Lub hom phiaj ntawm cov qauv no yog los txiav txim siab seb lub suab nrov cuam tshuam li cas cov ntaub ntawv tam sim no hauv cov qauv, lossis, muab tso rau lwm txoj hauv kev, ntau npaum li cas cov ntaub ntawv ploj vim yog qhov sib txawv.
Yog tias tus qauv tuaj yeem txiav txim siab qhov no, nws yuav tsum tuaj yeem khaws cov qauv qub thiab rov ua cov ntaub ntawv poob uas tshwm sim.
Qhov no yog ua tiav los ntawm tus qauv denoising diffusion. Cov txheej txheem rau pem hauv ntej diffusion thiab rov qab diffusion txheej txheem ua rau ob kauj ruam.
Cov txheej txheem diffusion rau pem hauv ntej yuav maj mam ntxiv Gaussian suab nrov (piv txwv li, cov txheej txheem diffusion) kom txog thaum cov ntaub ntawv muaj suab nrov tag nrho.
Lub neural network tau kawm tom qab siv txoj kev rov qab diffusion los kawm txog qhov muaj feem cuam tshuam kev faib tawm kom thim rov qab lub suab nrov.
Ntawm no koj tuaj yeem nkag siab ntau ntxiv txog qhov qauv diffusion.
Diffusion Model Vs GANs
Zoo li tus qauv diffusion, GANs tsim cov duab los ntawm lub suab nrov.
Tus qauv yog tsim los ntawm lub tshuab hluav taws xob neural network, uas pib nrog lub suab nrov ntawm qee cov ntaub ntawv hloov pauv hloov pauv, xws li daim ntawv teev npe hauv chav kawm lossis cov ntawv nyeem.
Qhov tshwm sim yuav tsum yog ib yam dab tsi uas zoo li cov duab tiag tiag.
Txhawm rau tsim cov duab tiag tiag thiab cov duab siab ncaj ncees, peb ntiav GANs. Txawm tias muaj tseeb pom ntau dua li GANs yog tsim los siv cov qauv diffusion.
Ib txoj hauv kev, cov qauv diffusion yog qhov tseeb dua los piav qhia qhov tseeb.
Thaum GAN siv raws li cov suab nrov nrov lossis cov chav kawm hloov pauv hloov pauv thiab tso tawm cov qauv tseeb, cov qauv sib txawv feem ntau qeeb qeeb, rov ua dua, thiab xav tau kev taw qhia ntau ntxiv.
Tsis muaj ntau chav rau kev ua yuam kev thaum denoising yog siv ntau zaus nrog lub hom phiaj rov qab mus rau qhov qub duab los ntawm lub suab nrov.
Txhua qhov chaw kuaj xyuas tau dhau mus thoob plaws lub sijhawm tsim, thiab nrog txhua kauj ruam, daim duab yuav tau txais cov ntaub ntawv ntau ntxiv.
xaus
Hauv kev xaus, Vim muaj qee qhov kev tshawb fawb tseem ceeb uas tsuas yog luam tawm hauv xyoo 2020 thiab 2021, cov qauv sib txawv tam sim no tuaj yeem ua tau zoo dua GANs ntawm cov duab synthesis.
Xyoo no, OpenAI launched DALL-E2, ib qho qauv tsim duab uas tso cai rau cov kws kho mob los ua cov qauv diffusion.
Txawm hais tias GANs yog qhov nyuaj, lawv cov kev txwv ua rau nws nyuaj rau ntsuas thiab siv lawv hauv cov ntsiab lus tshiab.
Txhawm rau kom ua tiav GAN zoo li tus qauv zoo siv cov qauv zoo li cov qauv, ntau txoj haujlwm tau muab tso rau hauv nws.
Sau ntawv cia Ncua