Në përgjithësi, modelet gjeneruese të thella si GAN, VAE dhe modelet autoregresive trajtojnë problemet e sintezës së imazhit.
Duke pasur parasysh cilësinë e lartë të të dhënave që ata krijojnë, rrjetet gjeneruese kundërshtare (GAN) kanë marrë shumë vëmendje vitet e fundit.
Modelet e difuzionit janë një tjetër fushë interesante e studimit që është vendosur. Fushat e krijimit të imazhit, videos dhe zërit kanë gjetur përdorim të gjerë për të dyja.
Modelet e difuzionit kundrejt GAN-ve: Cili prodhon rezultate më të mira? Natyrisht, kjo ka çuar në një diskutim të vazhdueshëm.
Në arkitekturën llogaritëse të njohur si GAN, dy rrjetet nervore luftohen kundër njëri-tjetrit për të prodhuar raste të reja të sintetizuara të të dhënave që mund të kalojnë për të dhëna të vërteta.
Modelet e difuzionit po bëhen gjithnjë e më të njohura pasi ato ofrojnë stabilitet trajnimi dhe rezultate të larta për prodhimin e muzikës dhe grafikës.
Ky artikull do të shqyrtojë në detaje modelin e difuzionit dhe GAN-et, si dhe se si ato ndryshojnë nga njëri-tjetri dhe disa gjëra të tjera.
Pra, çfarë janë Rrjetet Gjenerative Adversarial?
Për të krijuar raste të reja, artificiale të të dhënave që mund të ngatërrohen si të dhëna të vërteta, rrjetet kundërshtare gjeneruese (GAN) përdorin dy rrjete nervore dhe i vendosin ato kundër njëri-tjetrit (pra "kundërshtarja" në emër).
Ato përdoren gjerësisht për krijimin e të folurit, videove dhe fotografive.
Objektivi i GAN është të krijojë të dhëna të pazbuluara më parë nga një grup të dhënash specifike. Përpjekja për të nxjerrë një model të shpërndarjes aktuale, të paidentifikuar të të dhënave themelore nga mostrat, e bën këtë.
Përndryshe, këto rrjete janë modele të nënkuptuara që përpiqen të mësojnë një shpërndarje specifike statistikore.
Metoda e përdorur nga GAN për të zbuluar se si të arrihej ky qëllim ishte e re. Në fakt, ata prodhojnë të dhëna duke luajtur një lojë me dy lojtarë për të zhvilluar një model të nënkuptuar.
Më poshtë përshkruan strukturën:
- një diskriminues që fiton aftësinë për të bërë dallimin midis të dhënave autentike dhe të rreme
- një gjenerator që zgjedh mënyra të reja për të krijuar të dhëna mund të mashtrojë diskriminuesin.
Diskriminuesi paraqitet si një rrjet nervor. Prandaj, gjeneratori duhet të krijojë një fotografi me cilësi të lartë për ta mashtruar atë.
Fakti që këta gjeneratorë nuk janë të trajnuar duke përdorur ndonjë shpërndarje dalëse është një dallim domethënës midis modeleve të autoenkoderit dhe modeleve të tjera.
Ekzistojnë dy mënyra për të zbërthyer funksionin e humbjes së modelit:
- aftësia për të përcaktuar sasinë nëse diskriminuesi parashikon me saktësi të dhënat reale
- të dhënat e gjeneruara parashikohen me saktësi nga një pjesë.
Në diskriminuesin më të mirë të mundshëm, ky funksion i humbjes minimizohet më pas:
Prandaj, modelet gjenerike mund të mendohen si modele të minimizimit të distancës dhe, nëse diskriminuesi është ideal, si minimizim i divergjencës midis shpërndarjes së vërtetë dhe asaj të prodhuar.
Në realitet, divergjenca të ndryshme mund të përdoren dhe të rezultojnë në metoda të ndryshme trajnimi GAN.
Dinamika e të mësuarit, e cila përfshin një shkëmbim ndërmjet gjeneratorit dhe diskriminuesit, është sfiduese për t'u ndjekur, pavarësisht se është e thjeshtë për të rregulluar funksionin e humbjes së GAN-ve.
Gjithashtu nuk ka garanci se mësimi do të konvergojë. Si rezultat, trajnimi i një modeli GAN është i vështirë, pasi është tipike të hasësh probleme si zhdukja e gradientëve dhe kolapsi i modalitetit (kur nuk ka diversitet në mostrat e krijuara).
Tani, është koha për Modelet e Difuzionit
Problemi me konvergjencën e trajnimit të GAN-ve është trajtuar përmes zhvillimit të modeleve të difuzionit.
Këto modele supozojnë se një proces difuzioni është i barabartë me humbjen e informacionit të shkaktuar nga ndërhyrja progresive e zhurmës (një zhurmë gaussian shtohet në çdo hap të procesit të difuzionit).
Qëllimi i një modeli të tillë është të përcaktojë se si zhurma ndikon në informacionin e pranishëm në mostër, ose, për ta thënë ndryshe, sa informacion humbet për shkak të difuzionit.
Nëse një model mund ta kuptojë këtë, ai duhet të jetë në gjendje të marrë mostrën origjinale dhe të zhbëjë humbjen e informacionit që ka ndodhur.
Kjo realizohet nëpërmjet një modeli të difuzionit denoising. Një proces i difuzionit përpara dhe një proces i kundërt i difuzionit përbëjnë dy hapat.
Procesi i difuzionit përpara përfshin shtimin gradual të zhurmës Gaussian (dmth procesi i difuzionit) derisa të dhënat të kontaminohen plotësisht nga zhurma.
Rrjeti nervor më pas trajnohet duke përdorur metodën e difuzionit të kundërt për të mësuar probabilitetet e shpërndarjes së kushtëzuar për të kthyer zhurmën.
Këtu mund të kuptoni më shumë rreth modeli i difuzionit.
Modeli i Difuzionit kundër GAN-ve
Ashtu si një model difuzioni, GAN-të prodhojnë fotografi nga zhurma.
Modeli përbëhet nga një rrjet nervor gjenerator, i cili fillon me zhurmën e disa ndryshoreve të kushtëzimit informues, të tillë si një etiketë klase ose një kodim teksti.
Rezultati atëherë duhet të jetë diçka që i ngjan një imazhi realist.
Për të krijuar gjenerata fotorealiste dhe me besnikëri të lartë, ne përdorim GAN. Vizuale edhe më realiste se GAN-et prodhohen duke përdorur modele difuzioni.
Në një farë mënyre, modelet e difuzionit janë më të sakta në përshkrimin e fakteve.
Ndërsa një GAN merr si hyrje zhurmën e rastësishme ose një variabël të kushtëzimit të klasës dhe nxjerr një mostër realiste, modelet e difuzionit janë shpesh më të ngadalta, përsëritëse dhe kanë nevojë për shumë më tepër udhëzime.
Nuk ka shumë vend për gabime kur denoising zbatohet në mënyrë të përsëritur me qëllim të kthimit në imazhin origjinal nga zhurma.
Çdo pikë kontrolli kalohet përgjatë fazës së krijimit dhe me çdo hap, fotografia mund të fitojë gjithnjë e më shumë informacion.
Përfundim
Si përfundim, për shkak të disa kërkimeve domethënëse që u botuan vetëm në vitet 2020 dhe 2021, modelet e difuzionit tani mund të tejkalojnë GAN-et për sa i përket sintezës së figurës.
Këtë vit, OpenAI filloi DALL-E2, një model i prodhimit të imazhit që lejon praktikuesit të përdorin modele difuzioni.
Megjithëse GAN-et janë më të avancuara, kufizimet e tyre e bëjnë të vështirë shkallëzimin dhe përdorimin e tyre në kontekste të reja.
Për të arritur cilësinë e mostrës si GAN duke përdorur modele të bazuara në gjasat, është bërë shumë punë në të.
Lini një Përgjigju