Almennt séð taka djúp kynslóðarlíkön eins og GAN, VAE og sjálfvirk líkön með myndmyndunarvandamálum.
Í ljósi mikils gæða gagna sem þeir búa til hafa generative adversarial networks (GANs) fengið mikla athygli á undanförnum árum.
Dreifingarlíkön eru annað heillandi fræðasvið sem hefur fest sig í sessi. Sviðin mynd-, myndbands- og raddsköpunar hafa bæði fengið mikla notkun fyrir þau bæði.
Dreifingarlíkön vs GAN: Hver skilar betri árangri? Auðvitað hefur þetta leitt til áframhaldandi umræðu.
Í reikniarkitektúrnum þekktur sem GAN, tveir taugakerfi Barist er gegn hvert öðru til að framleiða nýlega samsett tilvik af gögnum sem geta borist fyrir ósvikin gögn.
Dreifingarlíkön verða sífellt vinsælli þar sem þau veita þjálfunarstöðugleika og háan árangur til að framleiða tónlist og grafík.
Þessi grein mun fara ítarlega í gegnum dreifingarlíkanið og GAN, svo og hvernig þau eru frábrugðin hvert öðru og nokkrum öðrum hlutum.
Svo, hvað eru Generative Adversarial Networks?
Til þess að búa til ný, gervi tilvik af gögnum sem gætu verið skakkt fyrir ósvikin gögn, nota generative adversarial networks (GANs) tvö tauganet og setja þau upp á móti hvort öðru (þar af leiðandi „andstæðingurinn“ í nafninu).
Þau eru mikið notuð til að búa til tal, myndband og mynda.
Markmið GAN er að búa til áður óuppgötvuð gögn úr tilteknu gagnasafni. Reynt er að álykta líkan af raunverulegri, óþekktum undirliggjandi gagnadreifingu úr sýnunum, gerir þetta.
Að öðrum kosti eru þessi net óbein líkön sem reyna að læra ákveðna tölfræðilega dreifingu.
Aðferðin sem GAN notaði til að uppgötva hvernig á að ná þessu markmiði var nýstárleg. Reyndar framleiða þeir gögn með því að spila tveggja manna leik til að þróa óbeint líkan.
Eftirfarandi lýsir uppbyggingunni:
- mismununaraðili sem öðlast getu til að greina á milli ósvikinna og fölsuðra gagna
- rafall sem tekur upp nýjar leiðir til að búa til gögn getur blekkt mismununaraðilann.
Mismununarmaðurinn gerir sig sem tauganet. Þess vegna þarf rafallinn að búa til mynd með háum gæðum til að plata hana.
Sú staðreynd að þessir rafala eru ekki þjálfaðir með því að nota neina framleiðsludreifingu er verulegur greinarmunur á sjálfkóðunarlíkönum og öðrum gerðum.
Það eru tvær leiðir til að sundra tapfalli líkansins:
- getu til að mæla ef mismununaraðili sér nákvæmlega fyrir raunveruleg gögn
- mynduð gögn eru nákvæmlega spáð fyrir um hluta.
Á besta mögulega mismununartækinu er þessi tapaðgerð síðan lágmarkuð:
Þess vegna má líta á almenn líkön sem fjarlægðarlágmörkunarlíkön og, ef aðgreiningarmaðurinn er tilvalinn, sem mismunalágmörkun milli raunverulegrar og framleiddrar dreifingar.
Í raun og veru getur mismunandi mismunur verið notaður og leitt til ýmissa GAN þjálfunaraðferða.
Námshreyfingin, sem felur í sér skiptingu á milli rafallsins og mismunans, er krefjandi að fylgja eftir, þrátt fyrir að það sé einfalt að stilla tapvirkni GANs.
Það eru heldur engar tryggingar fyrir því að nám muni renna saman. Þess vegna er erfitt að þjálfa GAN líkan, þar sem það er dæmigert að rekast á vandamál eins og halla sem hverfa og hamshrun (þegar það er enginn fjölbreytileiki í mynduðu sýnunum).
Nú er kominn tími á Diffusion Models
Vandamálið með samleitni þjálfunar GANs hefur verið brugðist við með þróun dreifingarlíkana.
Þessi líkön gera ráð fyrir að dreifingarferli jafngildi upplýsingatapi sem stafar af stigvaxandi truflun hávaða (gausshljóði er bætt við í hverju tímaþrepum dreifingarferlisins).
Tilgangur slíks líkans er að ákvarða hvernig hávaði hefur áhrif á upplýsingarnar sem eru til staðar í úrtakinu, eða, með öðrum hætti, hversu miklar upplýsingar glatast vegna dreifingar.
Ef líkan getur fundið út úr þessu ætti það að geta náð í upprunalega sýnishornið og afturkallað upplýsingatapið sem varð.
Þetta er gert með afneitandi dreifingarlíkani. Framdreifingarferli og öfugt dreifingarferli mynda þrepin tvö.
Framvirka dreifingarferlið felur í sér að Gauss hávaða er smám saman bætt við (þ.e. dreifingarferlinu) þar til gögnin eru algjörlega menguð af hávaða.
Tauganetið er síðan þjálfað með því að nota öfuga dreifingaraðferð til að læra skilyrta dreifingarlíkur til að snúa við hávaða.
Hér getur þú skilið meira um dreifingarlíkan.
Dreifingarlíkan vs GAN
Eins og dreifingarlíkan, framleiða GAN myndir úr hávaða.
Líkanið er byggt upp af taugakerfi rafala, sem byrjar með hávaða frá einhverri upplýsandi skilyrðingarbreytu, eins og flokksmerki eða textakóðun.
Útkoman ætti þá að vera eitthvað sem líkist raunhæfri mynd.
Til að búa til myndraunsæjar og nákvæmar myndakynslóðir notum við GAN. Jafnvel raunhæfara myndefni en GAN eru framleidd með dreifingarlíkönum.
Á vissan hátt eru dreifingarlíkön nákvæmari við að lýsa staðreyndum.
Þó að GAN taki sem inntak tilviljunarkennd hávaða eða flokksskilyrðingarbreytu og gefur frá sér raunhæft sýnishorn, eru dreifingarlíkön oft hægari, endurtekin og þurfa miklu meiri leiðbeiningar.
Það er ekki mikið pláss fyrir villur þegar sléttun er beitt ítrekað með það að markmiði að fara aftur í upprunalegu myndina frá hávaða.
Hvert eftirlitsstöð er farið í gegnum allt sköpunarstigið og með hverju skrefi gæti myndin fengið meiri og meiri upplýsingar.
Niðurstaða
Að lokum, Vegna fárra marktækra rannsókna sem voru aðeins birtar á 2020 og 2021, geta dreifingarlíkön nú staðið sig betur en GANs hvað varðar myndmyndun.
Á þessu ári var OpenAI hleypt af stokkunum DALL-E2, myndframleiðslulíkan sem gerir iðkendum kleift að nota dreifingarlíkön.
Þrátt fyrir að GAN séu í fremstu röð, gera takmarkanir þeirra það krefjandi að stækka og nota þau í nýju samhengi.
Til þess að ná GAN-eins og sýnishornsgæði með því að nota líkur byggðar á líkönum hefur mikil vinna verið lögð í það.
Skildu eftir skilaboð