Það er mikilvægt og eftirsóknarvert verkefni í tölvusjón og grafík að framleiða skapandi portrettmyndir af hæsta gæðaflokki.
Þótt nokkrar áhrifaríkar gerðir fyrir myndgerð í andlitsmyndum byggðar á öflugu StyleGAN hafi verið lagðar til, hafa þessar myndmiðuðu tækni skýra galla þegar þær eru notaðar með myndböndum, eins og fastri rammastærð, krafan um andlitsstillingu, skortur á smáatriðum sem ekki eru andlitsmyndir. , og tímabundið ósamræmi.
Byltingarkennd VToonify rammi er notaður til að takast á við erfiðan, stýrðan háupplausn andlitsmyndastílsflutnings.
Við munum skoða nýjustu rannsóknina á VToonify í þessari grein, þar á meðal virkni hennar, galla og aðra þætti.
Hvað er Vtoonify?
VToonify ramma gerir kleift að sérsníða háupplausn andlitsmyndastílsendingu.
VToonify notar mið- og háupplausnarlög StyleGAN til að búa til hágæða listrænar andlitsmyndir byggðar á margskala innihaldseiginleikum sem eru sóttar af umrita til að halda rammaupplýsingum.
Fullkomlega snúningsarkitektúrinn sem myndast tekur ójafnað andlit í kvikmyndum í breytilegri stærð sem inntak, sem leiðir til heilsvæða með raunhæfum hreyfingum í úttakinu.
Þessi umgjörð er samhæf við núverandi StyleGAN-undirstaða myndbirtingarlíkön, sem gerir þeim kleift að víkka út í myndbirtingu, og erfir aðlaðandi eiginleika eins og stillanlegan lita- og styrkleikaaðlögun.
Þetta Nám kynnir tvær staðsetningar af VToonify byggðar á Toonify og DualStyleGAN fyrir flutning sem byggir á safni og flutningi í andlitsmyndastíl, í sömu röð.
Umfangsmiklar tilraunaniðurstöður sýna að fyrirhuguð VToonify rammi er betri en núverandi aðferðir við að búa til hágæða, tímalega samhangandi listrænar portrettmyndir með breytilegum stílbreytum.
Vísindamenn veita Google Colab minnisbók, svo þú getir óhreint hendurnar á því.
Hvernig virkar það?
Til að ná stillanlegum flutningi andlitsmyndastíls í hárri upplausn, sameinar VToonify kosti myndþýðingarrammans við StyleGAN-byggða ramma.
Til að koma til móts við mismunandi inntaksstærðir notar myndþýðingarkerfið fullkomlega snúningsnet. Þjálfun frá grunni gerir hins vegar háupplausn og stýrða sendingu ómögulega.
Forþjálfað StyleGAN líkanið er notað í StyleGAN-undirstaða ramma fyrir háupplausn og stjórnað stílflutning, þó það sé takmarkað við fasta myndastærð og smáatriði.
StyleGAN er breytt í blendingum ramma með því að eyða inntakseiginleika í fastri stærð og lágupplausnarlögum, sem leiðir til fullkomlega sveiflukenndra kóðara-rafalla arkitektúr svipað og í myndþýðingarrammanum.
Til að viðhalda rammaupplýsingum skaltu þjálfa kóðara til að draga út margskala innihaldseiginleika inntaksrammans sem viðbótarefnisþörf fyrir rafallinn. Vtoonify erfir stílstýringarsveigjanleika StyleGAN líkansins með því að setja það inn í rafallinn til að eima bæði gögn þess og líkan.
Takmarkanir StyleGAN og fyrirhugaðs Vtoonify
Listrænar andlitsmyndir eru algengar í daglegu lífi okkar sem og í skapandi fyrirtækjum eins og list, félagslega fjölmiðla avatar, kvikmyndir, afþreyingarauglýsingar og svo framvegis.
Með þróun djúpt nám tækni, er nú hægt að búa til hágæða listræn andlitsmynd úr raunverulegum andlitsmyndum með því að nota sjálfvirkan andlitsmyndaflutning.
Það eru ýmsar farsælar leiðir búnar til fyrir myndtengda stílflutning, margar hverjar eru auðveldlega aðgengilegar byrjendum í formi farsímaforrita. Myndbandsefni hefur fljótt orðið uppistaðan í straumum okkar á samfélagsmiðlum undanfarin ár.
Uppgangur samfélagsmiðla og skammvinnra kvikmynda hefur aukið eftirspurn eftir nýstárlegri myndbandsklippingu, svo sem flutning á andlitsmyndum, til að búa til árangursrík og áhugaverð myndbönd.
Núverandi myndmiðuð tækni hefur verulega ókosti þegar þau eru notuð á kvikmyndir, sem takmarkar notagildi þeirra í sjálfvirkri andlitsmyndamyndagerð.
StyleGAN er algengur burðarás til að þróa andlitsmyndastílsflutningsmódel vegna getu þess til að búa til hágæða andlit með stillanlegri stílstjórnun.
StyleGAN byggt kerfi (einnig þekkt sem myndbirting) umritar raunverulegt andlit inn í StyleGAN dulda rýmið og notar síðan stílkóðann sem myndast á annan StyleGAN fínstillt á listræna andlitsmyndasafninu til að búa til stílfærða útgáfu.
StyleGAN býr til myndir með jöfnum andlitum og í fastri stærð, sem er ekki ívilnandi fyrir kraftmikil andlit í raunverulegu myndefni. Skurður andlit og röðun í myndbandinu leiðir stundum til andlits að hluta og óþægilegra látbragða. Vísindamenn kalla þetta mál „takmörkun á fastri uppskeru“ StyleGAN.
Fyrir ójöfnuð andlit hefur StyleGAN3 verið lagt til; þó styður það aðeins stillta myndastærð.
Ennfremur uppgötvaði nýleg rannsókn að kóðun ójafnaðra andlita er meira krefjandi en samræmd andlit. Röng andlitskóðun er skaðleg flutningi á andlitsstíl, sem leiðir til vandamála eins og auðkennisbreytingar og vantar íhluti í endurgerðu og stílluðu rammana.
Eins og rætt hefur verið um, verður skilvirk tækni til að flytja andlitsmyndastíl að takast á við eftirfarandi atriði:
- Til að varðveita raunhæfar hreyfingar verður nálgunin að geta tekist á við ósamsett andlit og mismunandi stærðir myndbanda. Stór myndbandsstærð, eða vítt sjónarhorn, getur fanga meiri upplýsingar á sama tíma og andlitið færist ekki út úr rammanum.
- Til að keppa við almennt notaðar HD græjur í dag er háupplausn myndbands nauðsynleg.
- Sveigjanleg stílstýring ætti að vera í boði fyrir notendur til að breyta og velja val sitt þegar þeir þróa raunhæft notendasamskiptakerfi.
Í þeim tilgangi benda vísindamenn á VToonify, nýja blendingsramma fyrir myndbirtingu. Til að sigrast á fastri uppskeruþvingun rannsaka vísindamenn fyrst þýðingarjafnvægi í StyleGAN.
VToonify sameinar kosti arkitektúrsins sem byggir á StyleGAN og myndþýðingarramma til að ná stillanlegum flutningi andlitsmyndastíls í hárri upplausn.
Eftirfarandi eru helstu framlögin:
- Vísindamenn rannsaka fasta uppskeruþvingun StyleGAN og leggja til lausn sem byggir á þýðingarjafnvægi.
- Vísindamenn kynna einstakan VToonify ramma sem er fullkomlega sveigjanlegur fyrir stjórnaða háupplausn andlitsmyndastílsflutnings sem styður ójöfn andlit og mismunandi myndbandsstærðir.
- Vísindamenn smíða VToonify á burðarásum Toonify og DualStyleGAN og þétta burðarásina bæði hvað varðar gögn og líkan til að gera flutning byggða á safni og fyrirmyndarmyndbandastíl.
Samanburður Vtoonify við aðrar nýjustu gerðir
Toonify
Það þjónar sem grunnur fyrir söfnunartengda stílflutning á samræmdum andlitum með því að nota StyleGAN. Til að ná í stílkóðana verða vísindamenn að stilla andlit og klippa 256256 myndir fyrir PSP. Toonify er notað til að búa til stílfærða niðurstöðu með 1024*1024 stílkóðum.
Að lokum samræma þeir niðurstöðuna í myndbandinu á upprunalegan stað. Óstílaða svæðið hefur verið stillt á svart.
DualStyleGAN
Það er burðarás fyrir fyrirmyndarstílflutning byggt á StyleGAN. Þeir nota sömu gagnafor- og eftirvinnsluaðferðir og Toonify.
Pix2pixHD
Þetta er mynd-í-mynd þýðingarlíkan sem er almennt notað til að þétta fyrirfram þjálfuð líkön fyrir klippingu í hárri upplausn. Það er þjálfað með því að nota pöruð gögn.
Vísindamenn nota pix2pixHD sem viðbótartilvikskortsinntak þar sem það notar útdregin þáttunarkort.
First Order Motion
FOM er dæmigerð myndfjörlíkan. Það var þjálfað á 256256 myndum og gengur illa með öðrum myndastærðum. Þar af leiðandi skala vísindamenn fyrst myndbandsrammana í 256*256 fyrir FOM í hreyfimyndir og breyta síðan niðurstöðunum í upprunalega stærð.
Fyrir sanngjarnan samanburð notar FOM fyrsta stílfærða rammann nálgunarinnar sem viðmiðunarstílsmynd.
DAGAN
Það er 3D andlitsfjör líkan. Þeir nota sömu gagnagerð og eftirvinnsluaðferðir og FOM.
Kostir
- Það er hægt að nota í listum, samfélagsmiðlum, kvikmyndum, afþreyingarauglýsingum og svo framvegis.
- Einnig er hægt að nota Vtoonify í metaverse.
Takmarkanir
- Þessi aðferðafræði dregur bæði gögnin og líkanið út úr burðarásinni sem byggir á StyleGAN, sem leiðir til hlutdrægni í gögnum og líkani.
- Munirnir stafa aðallega af stærðarmun á stílfærða andlitssvæðinu og hinum hlutunum.
- Þessi stefna er síður árangursrík þegar tekist er á við hluti á andlitssvæðinu.
Niðurstaða
Að lokum, VToonify er rammi fyrir stílstýrða myndbandsupplausn í hárri upplausn.
Þessi rammi nær frábærum árangri í meðhöndlun myndskeiða og gerir víðtæka stjórn á byggingarstíl, litastíl og stílstigi með því að þétta StyleGAN-undirstaða myndbirtingarlíkön hvað varðar bæði þeirra gervigögn og netkerfi.
Skildu eftir skilaboð