Orodha ya Yaliyomo[Ficha][Onyesha]
Kwa ujumla, miundo ya kina kama vile GAN, VAE, na miundo inayojiendesha yenyewe hushughulikia matatizo ya usanisi wa picha.
Kwa kuzingatia ubora wa juu wa data wanayounda, mitandao ya uhasama inayozalisha (GANs) imepokea umakini mkubwa katika miaka ya hivi karibuni.
Mitindo ya mtawanyiko ni uwanja mwingine wa kuvutia wa utafiti ambao umejiimarisha. Sehemu za picha, video, na utengenezaji wa sauti zote zimepata matumizi makubwa kwa zote mbili.
Miundo ya mtawanyiko dhidi ya GANs: Ni Nini Hutoa Matokeo Bora? Kwa kawaida, hii imesababisha mjadala unaoendelea.
Katika usanifu wa hesabu unaojulikana kama GAN, mbili mitandao ya neural hupiganiwa dhidi ya kila mmoja na mwingine ili kutoa mifano mpya ya data ambayo inaweza kupita kwa data halisi.
Miundo ya usambaaji inazidi kuwa maarufu kwa vile hutoa uthabiti wa mafunzo na matokeo ya juu ya kutengeneza muziki na michoro.
Nakala hii itapitia mfano wa uenezaji na GAN kwa undani, na vile vile hutofautiana kutoka kwa kila mmoja na vitu vingine vichache.
Kwa hivyo, Mitandao ya Matangazo ya Uzalishaji ni nini?
Ili kuunda matukio mapya, ya bandia ya data ambayo inaweza kudhaniwa kimakosa kuwa data halisi, mitandao ya adversarial generative (GANs) hutumia mitandao miwili ya neva na kuigonganisha (hivyo "adui" katika jina).
Zinatumika sana kwa hotuba, video, na kuunda picha.
Lengo la GAN ni kuunda data ambayo haikugunduliwa hapo awali kutoka kwa mkusanyiko maalum wa data. Kujaribu kukisia kielelezo cha usambazaji halisi wa data, usiotambulika kutoka kwa sampuli, hufanya hivi.
Vinginevyo, mitandao hii ni mifano isiyo na maana inayojaribu kujifunza usambazaji maalum wa takwimu.
Mbinu iliyotumiwa na GAN kugundua jinsi ya kutimiza lengo hili ilikuwa riwaya. Kwa kweli, wao huzalisha data kwa kucheza mchezo wa wachezaji wawili ili kuunda muundo kamili.
Ifuatayo inaelezea muundo:
- Mbaguzi anayepata uwezo wa kutofautisha kati ya data halisi na bandia
- jenereta ambayo inachukua njia mpya za kuunda data inaweza kumdanganya kibaguzi.
Mbaguzi anajifanya kama mtandao wa neva. Kwa hiyo, jenereta inahitaji kuunda picha yenye ubora wa juu ili kuidanganya.
Ukweli kwamba jenereta hizi hazijafunzwa kutumia usambazaji wowote wa pato ni tofauti kubwa kati ya miundo ya kusimba kiotomatiki na miundo mingine.
Kuna njia mbili za kuoza kazi ya upotezaji ya mfano:
- uwezo wa kuhesabu ikiwa mbaguzi anatabiri kwa usahihi data halisi
- data inayozalishwa inatabiriwa kwa usahihi na sehemu.
Kwa kibaguzi bora kinachowezekana, utendakazi huu wa upotezaji basi hupunguzwa:
Kwa hivyo miundo ya jumla inaweza kuzingatiwa kama miundo ya kupunguza umbali na, ikiwa kibaguzi ni bora, kama upunguzaji wa tofauti kati ya usambazaji wa kweli na unaozalishwa.
Kwa kweli, tofauti tofauti zinaweza kutumika na kusababisha mbinu mbalimbali za mafunzo za GAN.
Mienendo ya kujifunza, ambayo ni pamoja na kubadilishana kati ya jenereta na kibaguzi, ni changamoto kufuata, licha ya kuwa ni rahisi kurekebisha utendaji wa upotevu wa GAN.
Pia hakuna uhakikisho kwamba kujifunza kutakutana. Kama matokeo, kufundisha muundo wa GAN ni ngumu, kwani ni kawaida kushughulikia shida kama kutoweka kwa gradient na hali ya kuporomoka (wakati hakuna tofauti katika sampuli zinazozalishwa).
Sasa, ni wakati wa Miundo ya Usambazaji
Tatizo la muunganiko wa mafunzo ya GAN limeshughulikiwa kupitia uundaji wa miundo ya usambaaji.
Mitindo hii huchukulia kuwa mchakato wa uenezaji ni sawa na upotezaji wa habari unaoletwa na uingiliaji unaoendelea wa kelele (kelele ya gaussian huongezwa kila wakati wa mchakato wa usambaaji).
Madhumuni ya mfano kama huo ni kuamua jinsi kelele inavyoathiri habari iliyopo kwenye sampuli, au, kuiweka kwa njia nyingine, ni habari ngapi hupotea kwa sababu ya kueneza.
Ikiwa modeli inaweza kubaini hili, inafaa kuwa na uwezo wa kupata sampuli asili na kutendua upotezaji wa habari uliotokea.
Hii inakamilishwa kupitia mfano wa uenezaji wa denoising. Mchakato wa uenezaji wa mbele na mchakato wa uenezaji wa kinyume hufanya hatua mbili.
Mchakato wa uenezaji wa mbele unahusisha hatua kwa hatua kuongeza kelele ya Gaussian (yaani, mchakato wa uenezaji) hadi data ichafuliwe kabisa na kelele.
Mtandao wa neva hufunzwa kwa kutumia mbinu ya uenezaji kinyume ili kujifunza uwezekano wa usambazaji wa masharti ili kubadilisha kelele.
Hapa unaweza kuelewa zaidi kuhusu mfano wa kueneza.
Muundo wa Usambazaji Vs GAN
Kama modeli ya uenezaji, GAN hutoa picha kutoka kwa kelele.
Muundo huu umeundwa na mtandao wa neva wa jenereta, ambao huanza na kelele za mabadiliko ya hali ya kuarifu, kama vile lebo ya darasa au usimbaji maandishi.
Matokeo yake yanapaswa kuwa kitu ambacho kinafanana na picha halisi.
Ili kuunda vizazi vya picha halisi na vya uaminifu wa hali ya juu, tunaajiri GAN. Hata taswira za uhalisia zaidi kuliko GAN zinatolewa kwa kutumia miundo ya uenezi.
Kwa njia, mifano ya uenezi ni sahihi zaidi katika kuelezea ukweli.
Ingawa GAN inachukua kama kelele ya nasibu ya ingizo au utofauti wa hali ya darasa na kutoa sampuli halisi, miundo ya uenezi mara nyingi huwa ya polepole, ya kurudia, na inahitaji mwongozo zaidi.
Hakuna nafasi kubwa ya makosa wakati uondoaji sauti unatumiwa mara kwa mara kwa lengo la kurudisha picha asili kutoka kwa kelele.
Kila kituo cha ukaguzi kinapitishwa katika hatua yote ya uundaji, na kwa kila hatua, picha inaweza kupata maelezo zaidi na zaidi.
Hitimisho
Kwa kumalizia, Kwa sababu ya utafiti mdogo mdogo ambao ulichapishwa tu katika miaka ya 2020 na 2021, miundo ya uenezi sasa inaweza kufanya vyema zaidi GAN katika suala la usanisi wa picha.
Mwaka huu, OpenAI ilizinduliwa DALL-E2, muundo wa utengenezaji wa picha unaoruhusu watendaji kuajiri miundo ya uenezaji.
Ingawa GAN ni za kisasa, vikwazo vyao hufanya iwe vigumu kuziweka na kuzitumia katika miktadha mipya.
Ili kufikia ubora wa sampuli unaofanana na GAN kwa kutumia mifano inayotegemea uwezekano, kazi nyingi imewekwa ndani yake.
Acha Reply