Edukien aurkibidea[Ezkutatu][Erakutsi]
Orokorrean, GANak, VAEak eta eredu autorregresiboak bezalako sorkuntza-eredu sakonek irudien sintesi arazoak kudeatzen dituzte.
Sortzen dituzten datuen kalitate handia kontuan hartuta, azken urteotan arreta handia jaso dute generative adversarial networkek (GAN).
Hedapen-ereduak finkatu den beste ikasketa-esparru liluragarri bat dira. Irudiaren, bideoaren eta ahotsaren sorreraren alorrek erabilera zabala aurkitu dute bientzat.
Difusio-ereduak vs. GANak: Zein da emaitza hobeak sortzen? Berez, horrek etengabeko eztabaida ekarri du.
GAN izenez ezagutzen den arkitektura konputazionalean, bi neural sareak elkarren aurka borrokatzen dira datu sintetizatu berriak sortzeko, benetako datuetarako pasa daitezkeenak.
Hedapen-ereduak gero eta ezagunagoak dira musika eta grafikoak ekoizteko entrenamendu-egonkortasuna eta emaitza handiak ematen baitituzte.
Artikulu honek difusio-eredua eta GAN-ak zehatz-mehatz aztertuko ditu, baita elkarrengandik nola desberdintzen diren eta beste gauza batzuk ere.
Beraz, zer dira Sortzaileen aurkako sareak?
Benetako datuekin nahas daitezkeen datu-instantzia berri eta artifizialak sortzeko, sormen-sare-kontrako sareek (GAN) bi sare neuronal erabiltzen dituzte eta elkarren aurka jartzen dituzte (horrela, izenean "aurkaria" da).
Asko erabiltzen dira hitzak, bideoak eta irudiak sortzeko.
GANen helburua datu multzo zehatz batetik aurretik aurkitu gabeko datuak sortzea da. Laginetatik benetako azpiko datuen banaketaren eredu bat ondorioztatzen saiatzean, hori egiten da.
Bestela esanda, sare hauek banaketa estatistiko zehatz bat ikasten saiatzen diren eredu inplizituak dira.
Helburu hori nola lortu jakiteko GANek erabili zuen metodoa berritzailea izan zen. Izan ere, datuak ekoizten dituzte bi jokalariko joko batean jolastuz, eredu inplizitu bat garatzeko.
Jarraian, egitura deskribatzen da:
- Datu benetakoak eta faltsuak bereizteko gaitasuna lortzen duen diskriminatzailea
- datuak sortzeko modu berriak jasotzen dituen sorgailu batek diskriminatzailea engainatu dezake.
Diskriminatzaileak sare neuronal gisa planteatzen du. Hori dela eta, sorgailuak kalitate handiko irudi bat sortu behar du hura engainatzeko.
Sorgailu hauek irteera-banaketarik erabiliz trebatu ez izateak bereizketa nabarmena da autokodetzaile ereduen eta beste eredu batzuen artean.
Ereduaren galera funtzioa deskonposatzeko bi modu daude:
- diskriminatzaileak datu errealak zehaztasunez aurreikusten dituen kuantifikatzeko gaitasuna
- sortutako datuak zati batek zehaztasunez aurreikusten ditu.
Diskriminatzaile onenean, galera-funtzio hori minimizatzen da:
Eredu generikoak, beraz, distantzia minimizatzeko eredu gisa har daitezke eta, diskriminatzailea ideala bada, egiazko eta ekoiztutako banaketaren arteko dibergentzia-minimizazio gisa.
Egia esan, dibergentzia desberdinak erabil daitezke eta GAN prestakuntza-metodo desberdinak sor daitezke.
Ikaskuntza-dinamikak, sorgailuaren eta diskriminatzailearen arteko trukea barne hartzen dituena, zaila da jarraitzea, GANen galera-funtzioa doitzea erraza izan arren.
Ikaskuntza bat egingo duenik ere ez dago ziurtatzen. Ondorioz, zaila da GAN eredu bat entrenatzea, ohikoa baita desagertzen diren gradienteak eta moduaren kolapsoa bezalako arazoak (sortutako laginetan aniztasunik ez dagoenean).
Orain, Difusio Ereduen garaia da
GANen prestakuntza-konbergentziaren arazoari difusio-ereduen garapenari aurre egin zaio.
Eredu hauek difusio-prozesu bat zarataren interferentzia progresiboak eragindako informazio-galeren baliokidea dela suposatzen dute (difusio-prozesuaren aldi bakoitzean zarata gausiano bat gehitzen da).
Eredu horren helburua zaratak laginean dagoen informazioari nola eragiten dion zehaztea da, edo, bestela esanda, difusioaren ondorioz zenbat informazio galtzen den zehaztea.
Eredu batek hori asmatzen badu, jatorrizko lagina berreskuratu eta gertatutako informazio-galera desegin beharko luke.
Hau denoising difusio eredu baten bidez lortzen da. Aurrerako difusio-prozesu batek eta alderantzizko difusio-prozesu batek osatzen dituzte bi urratsak.
Aurrerako difusio-prozesuak pixkanaka zarata gaussarra gehitzea dakar (hau da, difusio-prozesua) datuak zaratak guztiz kutsatu arte.
Neurona-sarea alderantzizko difusio-metodoa erabiliz entrenatzen da, zarata alderantzikatzeko baldintzazko banaketa probabilitateak ikasteko.
Hemen buruz gehiago uler dezakezu difusio eredua.
Hedapen eredua Vs GANak
Difusio-eredu bat bezala, GANek zaratatik ateratzen ditu argazkiak.
Eredua sare neuronal sortzaile batek osatzen du, eta baldintzatzaile informatiboen aldagai batzuen zaratarekin hasten da, hala nola klase etiketa edo testu kodeketa batekin.
Emaitza, orduan, irudi errealista baten antza duen zerbait izan behar du.
Irudi-belaunaldi fotorealistak eta fideltasun handikoak sortzeko, GANak erabiltzen ditugu. GANak baino are bisual errealistagoak difusio ereduak erabiliz ekoizten dira.
Nolabait esateko, difusio-ereduak zehatzagoak dira gertaerak deskribatzerakoan.
GAN batek sarrerako zarata aleatorio gisa edo klase baldintzatzaile gisa hartzen duen eta lagin errealista bat ateratzen duen bitartean, difusio-ereduak sarritan motelagoak, errepikakorrak dira eta orientazio askoz gehiago behar dute.
Ez dago errorerako tarte handirik denoising-a behin eta berriz aplikatzen denean zaratatik jatorrizko irudira itzultzeko helburuarekin.
Kontrol-puntu bakoitza sorkuntza-fasean zehar igarotzen da, eta urrats bakoitzarekin, irudiak gero eta informazio gehiago lor dezake.
Ondorioa
Ondorioz, 2020ko eta 2021eko hamarkadetan soilik argitaratu ziren ikerketa esanguratsu gutxi direla eta, difusio-ereduek gaur egun GANak gaindi ditzakete argazki-sintesiari dagokionez.
Aurten, OpenAI abian jarri da DALL-E2, irudiak ekoizteko eredua, profesionalei difusio ereduak erabiltzeko aukera ematen diena.
GAN-ak punta-puntakoak diren arren, haien mugak zaila egiten dute horiek testuinguru berrietan eskalatzea eta erabiltzea.
GAN antzeko laginaren kalitatea lortzeko, probabilitatean oinarritutako ereduak erabiliz, lan handia egin da.
Utzi erantzun bat