Ĝenerale, profundaj generaj modeloj kiel GANoj, VAEoj kaj aŭtoregresaj modeloj pritraktas bildsintezproblemojn.
Konsiderante la altan kvaliton de la datumoj kiujn ili kreas, generaj kontraŭaj retoj (GAN) ricevis multe da atento en la lastaj jaroj.
Disvastigo-modeloj estas alia fascina studokampo, kiu starigis sin. La kampoj de bildo, video kaj voĉgenerado ambaŭ trovis ampleksan uzon por ambaŭ.
Disvastigo-modeloj kontraŭ GANoj: Kiu Produktas Pli bonajn Rezultojn? Kompreneble, tio kondukis al daŭra diskuto.
En la komputila arkitekturo konata kiel la GAN, du Neŭraj retoj estas batalitaj unu kontraŭ la alia por produkti lastatempe sintezitajn kazojn de datenoj kiuj povas pasi por aŭtentaj datenoj.
Disvastaj modeloj fariĝas pli kaj pli popularaj ĉar ili provizas trejnan stabilecon kaj altajn rezultojn por produkti muzikon kaj grafikojn.
Ĉi tiu artikolo trarigardos la disvastigmodelon kaj GANojn detale, same kiel kiel ili diferencas unu de la alia kaj kelkajn aliajn aferojn.
Do, kio estas Generativaj Kontraŭaj Retoj?
Por krei novajn, artefaritajn kazojn de datenoj kiuj eble estos konfuzitaj kun aŭtentaj datenoj, generaj kontraŭulretoj (GANoj) utiligas du neŭralajn retojn kaj metas ilin unu kontraŭ la alian (tiel la "kontraŭulo" en la nomo).
Ili estas vaste uzataj por kreado de paroloj, filmetoj kaj bildoj.
La celo de GAN estas krei antaŭe nemalkovritajn datumojn de specifa datumaro. Provi konkludi modelon de la fakta, neidentigita subesta distribuo de datumoj el la specimenoj, faras tion.
Alternative dirite, tiuj retoj estas implicaj modeloj kiuj provas lerni specifan statistikan distribuon.
La metodo kiun GAN uzis por malkovri kiel plenumi ĉi tiun celon estis nova. Fakte, ili produktas datumojn ludante du-ludantan ludon por evoluigi implican modelon.
La sekvanta priskribas la strukturon:
- Diskriminacio kiu akiras la kapablon diferenci inter aŭtentaj kaj falsaj datumoj
- generatoro kiu prenas novajn manierojn krei datumojn povas trompi la diskriminaciiston.
La diskriminanto pozas kiel neŭrala reto. Tial, la generatoro bezonas krei bildon kun altkvalita por trompi ĝin.
La fakto ke tiuj generatoroj ne estas trejnitaj uzante ajnan produktaĵdistribuon estas signifa distingo inter aŭtokodilaj modeloj kaj aliaj modeloj.
Ekzistas du manieroj malkomponi la perdfunkcion de la modelo:
- la kapablo kvantigi ĉu la diskriminanto precize antaŭvidas realajn datumojn
- generitaj datumoj estas precize antaŭdiritaj de parto.
Sur la plej bona realigebla diskriminacio, tiu perdfunkcio tiam estas minimumigita:
Senmarkaj modeloj povas tial esti opiniitaj de kiel distancaj minimumigmodeloj kaj, se la diskriminanto estas ideala, kiel diverĝminimumigo inter la vera kaj produktita distribuo.
En realeco, malsamaj diverĝoj povas esti utiligitaj kaj rezultigi diversajn GAN-trejnadmetodojn.
La lerndinamikoj, kiuj inkluzivas kompromison inter la generatoro kaj la diskriminanto, malfacilas sekvi, malgraŭ ke estas simple ĝustigi la perdan funkcion de GANoj.
Ankaŭ ne estas garantioj, ke lernado konverĝos. Kiel rezulto, trejni GAN-modelon estas malfacila, ĉar estas tipe kuri trans problemojn kiel malaperantaj gradientoj kaj reĝimkolapso (kiam ekzistas neniu diverseco en la generitaj provaĵoj).
Nun, estas tempo por Disvastigo-Modeloj
La problemo kun la trejna konverĝo de GANs estis traktita tra la evoluo de difuzmodeloj.
Tiuj modeloj supozas ke difuzprocezo estas ekvivalenta al informperdo kaŭzita de la progresema interfero de bruo (gaŭsa bruo estas aldonita ĉe ĉiu tempopaŝo de la difuzprocezo).
La celo de tia modelo estas determini kiel bruo influas la informojn ĉeestantajn en la provaĵo, aŭ, por diri ĝin alimaniere, kiom multe da informoj estas perditaj pro difuzo.
Se modelo povas eltrovi tion, ĝi devus povi preni la originan specimenon kaj malfari la informperdon kiu okazis.
Tio estas plenumita per senbruiga difuzmodelo. Antaŭa difuzprocezo kaj inversa difuzprocezo konsistigas la du ŝtupojn.
La antaŭa disvastigprocezo implikas iom post iom aldoni gaŭsan bruon (te, la difuzprocezo) ĝis la datenoj estas tute poluitaj per bruo.
La neŭrala reto poste estas trejnita uzante la inversan difuzmetodon por lerni la kondiĉajn distribuprobablecojn por inversigi la bruon.
Ĉi tie vi povas kompreni pli pri la disvastiga modelo.
Disvastigo-Modelo Vs GANoj
Kiel difuza modelo, GANoj produktas bildojn el bruo.
La modelo konsistas el generatora neŭrala reto, kiu komenciĝas per la bruo de iu informa kondiĉiga variablo, kiel ekzemple klasetikedo aŭ tekstokodigado.
La rezulto tiam devus esti io, kiu similas al realisma bildo.
Por krei fotorealismajn kaj altfidelajn bildgeneraciojn, ni uzas GANojn. Eĉ pli realismaj bildoj ol GANoj estas produktitaj uzante difuzmodelojn.
Iasence, disvastigmodeloj estas pli precizaj priskribante la faktojn.
Dum GAN prenas kiel enigaĵon hazardan bruon aŭ klaskondiĉan variablon kaj eligas realisman provaĵon, difuzmodeloj ofte estas pli malrapidaj, ripetaj, kaj bezonas multe pli da gvidado.
Ne estas multe da loko por eraro kiam senbruado estas aplikata plurfoje kun la celo reveni al la origina bildo de la bruo.
Ĉiu kontrolpunkto estas trapasita dum la krea etapo, kaj kun ĉiu paŝo, la bildo povus akiri pli kaj pli da informoj.
konkludo
En konkludo, Pro malmultaj signifaj esploroj kiuj estis nur publikigitaj en la 2020-aj jaroj kaj 2021, disvastigmodeloj nun povas superi GAN-ojn laŭ bilda sintezo.
Ĉi-jare, OpenAI lanĉis DALL-E2, bildoproduktadmodelo kiu permesas al terapiistoj utiligi difuzmodelojn.
Kvankam GANoj estas avangardaj, iliaj limoj igas ĝin malfacila grimpi kaj uzi ilin en novaj kuntekstoj.
Por atingi GAN-similan specimenan kvaliton uzante verŝajne-bazitajn modelojn, multe da laboro estis metita en ĝin.
Lasi Respondon