Vtoonify: පාලනය කළ හැකි අධි-විභේදන පෝට්රේට් වීඩියෝ විලාස මාරු කිරීම

පටුන[සඟවන්න][පෙන්වන්න]

Vtoonify යනු කුමක්ද?
එය ක්රියාත්මක වන්නේ කෙසේද?
StyleGAN සහ යෝජිත Vtoonify හි සීමාවන්
Vtoonify අනෙකුත් අති නවීන මාදිලි සමඟ සංසන්දනය කිරීම+-
වාසි+-
- සීමාවන්
නිගමනය

පරිගණක දර්ශනයේ සහ ග්‍රැෆික්ස්වල ඉහළම මට්ටමේ නිර්මාණාත්මක පෝට්රේට් චිත්‍රපට නිෂ්පාදනය කිරීම තීරණාත්මක සහ අවශ්‍ය කාර්යයකි.

ප්‍රබල StyleGAN මත පදනම් වූ portrait image toonification සඳහා ඵලදායි මාදිලි කිහිපයක් යෝජනා කර ඇතත්, ස්ථාවර රාමු ප්‍රමාණය, මුහුණු පෙළගැස්වීමේ අවශ්‍යතාවය, මුහුණේ නොවන විස්තර නොමැති වීම වැනි වීඩියෝ සමඟ මෙම රූප-නැඹුරු තාක්ෂණික ක්‍රමවල පැහැදිලි අඩුපාඩු තිබේ. , සහ තාවකාලික නොගැලපීම.

දුෂ්කර පාලිත අධි-විභේදන පෝට්රේට් වීඩියෝ විලාස මාරු කිරීම සඳහා විප්ලවීය VToonify රාමුවක් භාවිතා කරයි.

VToonify පිළිබඳ නවතම අධ්‍යයනය අපි මෙම ලිපියෙන් විමසා බලමු, එහි ක්‍රියාකාරීත්වය, අවාසි සහ අනෙකුත් සාධක ඇතුළුව.

Vtoonify යනු කුමක්ද?

VToonify රාමුව අභිරුචිකරණය කළ හැකි අධි-විභේදන පෝට්රේට් වීඩියෝ විලාස සම්ප්‍රේෂණයට ඉඩ දෙයි.

VToonify රාමු විස්තර රඳවා තබා ගැනීම සඳහා කේතකයක් විසින් ලබා ගන්නා ලද බහු පරිමාණ අන්තර්ගත ලක්ෂණ මත පදනම්ව උසස් තත්ත්වයේ කලාත්මක ඡායාරූප නිර්මාණය කිරීමට StyleGAN හි මැද සහ ඉහළ-විභේදන ස්ථර භාවිතා කරයි.

එහි ප්‍රතිඵලයක් ලෙස සම්පූර්ණ පරිවර්තනීය ගෘහ නිර්මාණ ශිල්පය විචල්‍ය ප්‍රමාණයේ චිත්‍රපටවල නොබැඳි මුහුණු ආදානය ලෙස ලබා ගනී, ප්‍රතිදානයේ යථාර්ථවාදී චලනයන් සහිත සම්පූර්ණ මුහුණු කලාප ඇති කරයි.

Vtoonify

මෙම රාමුව වත්මන් StyleGAN මත පදනම් වූ රූප toonification ආකෘති සමඟ අනුකූල වන අතර, ඒවා වීඩියෝ toonification දක්වා දීර්ඝ කිරීමට ඉඩ සලසයි, සහ වෙනස් කළ හැකි වර්ණ සහ තීව්‍රතා අභිරුචිකරණය වැනි ආකර්ෂණීය ලක්ෂණ උරුම වේ.

මෙය අධ්යයනය එකතුව මත පදනම් වූ සහ ආදර්ශය මත පදනම් වූ පෝට්රේට් වීඩියෝ විලාස හුවමාරුව සඳහා පිළිවෙලින් Toonify සහ DualStyleGAN මත පදනම්ව VToonify හි අවස්ථා දෙකක් හඳුන්වා දෙයි.

යෝජිත VToonify රාමුව විචල්‍ය ශෛලීය පරාමිතීන් සහිත උසස් තත්ත්වයේ, තාවකාලිකව සුසංයෝගී කලාත්මක ප්‍රතිමූර්ති චිත්‍රපට සෑදීමේදී පවතින ප්‍රවේශයන් අභිබවා යන බව පුළුල් පර්යේෂණාත්මක සොයාගැනීම් පෙන්වා දෙයි.

පර්යේෂකයන් සපයයි Google Colab සටහන් පොත, ඒ නිසා ඔබට ඔබේ අත් අපිරිසිදු කර ගත හැකිය.

එය ක්රියාත්මක වන්නේ කෙසේද?

වෙනස් කළ හැකි අධි-විභේදන පෝට්රේට් වීඩියෝ විලාස හුවමාරුව ඉටු කිරීම සඳහා, VToonify රූප පරිවර්තන රාමුවේ වාසි StyleGAN-පාදක රාමුව සමඟ ඒකාබද්ධ කරයි.

Vtoonify වැඩ

විවිධ ආදාන ප්‍රමාණවලට අනුගත වීම සඳහා, රූප පරිවර්තන පද්ධතිය සම්පුර්ණයෙන්ම පරිවර්තන ජාල භාවිතා කරයි. අනෙක් අතට, මුල සිටම පුහුණු කිරීම, අධි-විභේදන සහ පාලිත ශෛලිය සම්ප්‍රේෂණය කළ නොහැකි කරයි.

කලින් පුහුණු කරන ලද StyleGAN මාදිලිය StyleGAN-පාදක රාමුව තුළ අධි-විභේදන සහ පාලිත විලාස හුවමාරුව සඳහා භාවිතා වේ, නමුත් එය ස්ථාවර පින්තූර ප්‍රමාණයට සහ විස්තර නැතිවීම් වලට සීමා වේ.

StyleGAN දෙමුහුන් රාමුව තුළ එහි ස්ථාවර ප්‍රමාණයේ ආදාන විශේෂාංගය සහ අඩු-විභේදන ස්තර මකා දැමීමෙන් වෙනස් කර ඇත, එහි ප්‍රතිඵලයක් ලෙස රූප පරිවර්තන රාමුවට සමාන පූර්ණ පරිවර්තනීය කේතීකරණ උත්පාදක ගෘහ නිර්මාණ ශිල්පයක් ලැබේ.

රාමු විස්තර පවත්වා ගැනීම සඳහා, උත්පාදක යන්ත්‍රයට අමතර අන්තර්ගත අවශ්‍යතාවයක් ලෙස ආදාන රාමුවේ බහු පරිමාණ අන්තර්ගත ලක්ෂණ උකහා ගැනීමට කේතකයක් පුහුණු කරන්න. Vtoonify StyleGAN මාදිලියේ විලාස පාලන නම්‍යතාවය උරුම කර ගන්නේ එය එහි දත්ත සහ ආකෘතිය යන දෙකම ආසවනය කිරීම සඳහා උත්පාදක යන්ත්‍රය තුළට දැමීමෙනි.

StyleGAN සහ යෝජිත Vtoonify හි සීමාවන්

කලාත්මක ආලේඛ්‍ය අපගේ එදිනෙදා ජීවිතයේදී මෙන්ම කලාව වැනි නිර්මාණාත්මක ව්‍යාපාරවල බහුලව දක්නට ලැබේ. සමාජ මාධ්ය අවතාර, චිත්‍රපට, විනෝදාස්වාද ප්‍රචාරණ, සහ යනාදිය.

සංවර්ධනය සමඟ ගැඹුරු ඉගෙනුම තාක්‍ෂණය, ස්වයංක්‍රීය පෝට්රේට් ස්ටයිල් මාරු කිරීම භාවිතයෙන් සැබෑ ජීවිතයේ මුහුණු ඡායාරූපවලින් උසස් තත්ත්වයේ කලාත්මක ඡායාරූප නිර්මාණය කිරීමට දැන් හැකියාව ඇත.

රූප මත පදනම් වූ විලාස හුවමාරුව සඳහා නිර්මාණය කරන ලද විවිධ සාර්ථක ක්‍රම ඇත, ඒවායින් බොහොමයක් ජංගම යෙදුම් ආකාරයෙන් ආරම්භක පරිශීලකයින්ට පහසුවෙන් ප්‍රවේශ විය හැකිය. වීඩියෝ ද්‍රව්‍ය පසුගිය වසර කිහිපය තුළ අපගේ සමාජ මාධ්‍ය සංග්‍රහවල ප්‍රධාන අංගයක් බවට පත්ව ඇත.

සමාජ මාධ්‍ය සහ කල්පවත්නා චිත්‍රපටවල නැඟීම සාර්ථක හා රසවත් වීඩියෝ ජනනය කිරීම සඳහා පෝට්රේට් වීඩියෝ විලාස මාරු කිරීම වැනි නව්‍ය වීඩියෝ සංස්කරණය සඳහා ඇති ඉල්ලුම වැඩි කර ඇත.

පවතින රූප-නැඹුරු ශිල්පීය ක්‍රම චිත්‍රපට සඳහා යොදන විට සැලකිය යුතු අවාසි ඇත, ස්වයංක්‍රීය පෝට්රේට් වීඩියෝ ශෛලීගත කිරීමේදී ඒවායේ ප්‍රයෝජනය සීමා කරයි.

StyleGAN යනු වෙනස් කළ හැකි මෝස්තර කළමණාකරණයක් සහිත උසස් තත්ත්වයේ මුහුණු නිර්මාණය කිරීමේ හැකියාව හේතුවෙන් පෝට්රේට් පින්තූර විලාස හුවමාරු ආකෘතියක් සංවර්ධනය කිරීම සඳහා පොදු කොඳු නාරටියකි.

StyleGAN-පාදක පද්ධතියක් (පින්තූර toonification ලෙසද හැඳින්වේ) StyleGAN ගුප්ත අවකාශය තුළට සැබෑ මුහුණක් කේතනය කරන අතර පසුව ශෛලීගත අනුවාදයක් නිර්මාණය කිරීම සඳහා කලාත්මක පෝට්රේට් දත්ත කට්ටලය මත මනාව සකස් කර ඇති තවත් StyleGAN වෙත ප්‍රතිඵලයක් ලෙස මෝස්තර කේතය යොදයි.

StyleGAN පෙළගැස්වූ මුහුණු සහිත සහ ස්ථාවර ප්‍රමාණයකින් පින්තූර නිර්මාණය කරයි, එය සැබෑ ලෝක දර්ශනවල ගතික මුහුණු වලට අනුග්‍රහය නොදක්වයි. වීඩියෝවේ මුහුණු කැපීම සහ පෙළගැස්වීම සමහර විට අර්ධ මුහුණක් සහ අමුතු ඉරියව් ඇති කරයි. පර්යේෂකයන් මෙම ගැටළුව StyleGAN හි 'ස්ථාවර බෝග සීමා කිරීම' ලෙස හඳුන්වයි.

නොගැලපෙන මුහුණු සඳහා, StyleGAN3 යෝජනා කර ඇත; කෙසේ වෙතත්, එය සකසන ලද පින්තූර ප්‍රමාණයකට පමණක් සහය දක්වයි.

තවද, නොගැලපෙන මුහුණු කේතනය කිරීම පෙළගැසුනු මුහුණු වලට වඩා අභියෝගාත්මක බව මෑත අධ්‍යයනයකින් අනාවරණය විය. වැරදි මුහුණු සංකේතනය ප්‍රතිනිර්මාණය කරන ලද සහ මෝස්තර කළ රාමු තුළ අනන්‍යතා වෙනස් කිරීම සහ අතුරුදහන් වූ සංරචක වැනි ගැටලු ඇති කරන ප්‍රතිමූර්ති විලාස මාරු කිරීමට හානිකර වේ.

සාකච්ඡා කළ පරිදි, පෝට්රේට් වීඩියෝ විලාස හුවමාරුව සඳහා කාර්යක්ෂම තාක්ෂණයක් පහත සඳහන් ගැටළු සමඟ කටයුතු කළ යුතුය:

යථාර්ථවාදී චලනයන් ආරක්ෂා කර ගැනීම සඳහා, ප්‍රවේශයට නොගැලපෙන මුහුණු සහ විවිධ වීඩියෝ ප්‍රමාණ සමඟ කටයුතු කිරීමට හැකි විය යුතුය. විශාල වීඩියෝ ප්‍රමාණයකට හෝ පුළුල් දෘෂ්ටි කෝණයකට මුහුණ රාමුවෙන් පිටතට නොයන අතරම වැඩි තොරතුරු ග්‍රහණය කර ගත හැක.
වර්තමානයේ බහුලව භාවිතා වන HD උපකරණ සමඟ තරඟ කිරීමට, අධි-විභේදන වීඩියෝවක් අවශ්‍ය වේ.
යථාර්ථවාදී පරිශීලක අන්තර්ක්‍රියා පද්ධතියක් සංවර්ධනය කිරීමේදී පරිශීලකයින්ට ඔවුන්ගේ තේරීම වෙනස් කිරීමට සහ තෝරා ගැනීමට නම්‍යශීලී විලාස පාලනයක් ලබා දිය යුතුය.

එම අරමුණ සඳහා, පර්යේෂකයන් VToonify, වීඩියෝ toonification සඳහා නව දෙමුහුන් රාමුවක් යෝජනා කරයි. ස්ථාවර භෝග සීමාවන් මඟහරවා ගැනීම සඳහා, පර්යේෂකයන් මුලින්ම StyleGAN හි පරිවර්තන සමානාත්මතාවය අධ්‍යයනය කරයි.

VToonify වෙනස් කළ හැකි අධි-විභේදන පෝට්රේට් වීඩියෝ විලාස හුවමාරුව ලබා ගැනීම සඳහා StyleGAN-පාදක ගෘහ නිර්මාණ ශිල්පයේ සහ රූප පරිවර්තන රාමුවේ ප්‍රතිලාභ ඒකාබද්ධ කරයි.

පහත දැක්වෙන ප්රධාන දායකත්වයන් වේ:

පර්යේෂකයන් StyleGAN හි ස්ථාවර බෝග බාධාව විමර්ශනය කරන අතර පරිවර්තන සමානාත්මතාවය මත පදනම්ව විසඳුමක් යෝජනා කරයි.
පර්යේෂකයන් විසින් නොගැලපෙන මුහුණු සහ විවිධ වීඩියෝ ප්‍රමාණ සඳහා සහය වන පාලිත අධි-විභේදන පෝට්රේට් වීඩියෝ විලාස හුවමාරුව සඳහා අනන්‍ය වූ පූර්ණ සංක්‍රමණික VToonify රාමුවක් ඉදිරිපත් කරයි.
පර්යේෂකයන් Toonify සහ DualStyleGAN හි කොඳු නාරටිය මත VToonify ගොඩනඟන අතර එකතු කිරීම මත පදනම් වූ සහ ආදර්ශය මත පදනම් වූ පෝට්රේට් වීඩියෝ විලාසය මාරු කිරීම සඳහා දත්ත සහ ආකෘතිය යන දෙකටම අනුව කොඳු ඇට පෙළ ඝනීභවනය කරයි.

Vtoonify අනෙකුත් අති නවීන මාදිලි සමඟ සංසන්දනය කිරීම

Toonify

එය StyleGAN භාවිතයෙන් පෙළගැස්වූ මුහුණු මත එකතුව මත පදනම් වූ විලාස හුවමාරුව සඳහා පදනම ලෙස ක්‍රියා කරයි. මෝස්තර කේත ලබා ගැනීමට, පර්යේෂකයන් PSP සඳහා මුහුණු පෙළගස්වා ඡායාරූප 256256ක් කපා ගත යුතුය. Toonify 1024*1024 මෝස්තර කේත සමඟ ශෛලීගත ප්‍රතිඵලයක් ජනනය කිරීමට භාවිතා කරයි.

අවසාන වශයෙන්, ඔවුන් වීඩියෝවේ ප්‍රතිඵලය එහි මුල් ස්ථානයට නැවත පෙළගස්වයි. ශෛලීගත නොකළ ප්‍රදේශය කළු පැහැයට සකසා ඇත.

Vtoonify වෙනත් නවීන මාදිලි සමඟ සංසන්දනය කිරීම

DualStyleGAN

එය StyleGAN මත පදනම් වූ ආදර්ශ මත පදනම් වූ විලාස හුවමාරුව සඳහා කොඳු නාරටියකි. ඔවුන් Toonify ලෙස එකම දත්ත පෙර සහ පසු සැකසුම් ශිල්පීය ක්‍රම භාවිතා කරයි.

Pix2pixHD

එය අධි-විභේදන සංස්කරණය සඳහා පූර්ව-පුහුණු ආකෘති ඝනීභවනය කිරීමට පොදුවේ භාවිතා වන රූපයෙන් රූපයට පරිවර්තන ආකෘතියකි. එය යුගල දත්ත භාවිතයෙන් පුහුණු කරනු ලැබේ.

පර්යේෂකයන් pix2pixHD එහි අමතර අවස්ථා සිතියම් ආදාන ලෙස භාවිතා කරන්නේ එය උපුටා ගත් විග්‍රහ කිරීමේ සිතියම භාවිතා කරන බැවිනි.

පළමු නියෝගය යෝජනාව

FOM යනු සාමාන්‍ය රූප සජීවිකරණ ආකෘතියකි. එය පින්තූර 256256ක් මත පුහුණු කර ඇති අතර අනෙකුත් රූප ප්‍රමාණ සමඟ දුර්වල ලෙස ක්‍රියා කරයි. එහි ප්‍රතිඵලයක් ලෙස, පර්යේෂකයන් ප්‍රථමයෙන් FOM සජීවිකරණය සඳහා වීඩියෝ රාමු 256*256 දක්වා පරිමාණය කර ප්‍රතිඵල ඒවායේ මුල් ප්‍රමාණයට ප්‍රතිප්‍රමාණ කරයි.

සාධාරණ සංසන්දනයක් සඳහා, FOM එහි ප්‍රවේශයේ පළමු ශෛලීගත රාමුව එහි විමර්ශන ශෛලියේ රූපය ලෙස භාවිතා කරයි.

DaGAN

එය ත්‍රිමාණ මුහුණු සජීවිකරණ ආකෘතියකි. ඔවුන් FOM ලෙස දත්ත සැකසීම සහ පසු සැකසුම් ක්‍රම භාවිතා කරයි.

සංසන්දනය

වාසි

එය කලා, සමාජ මාධ්‍ය අවතාර, චිත්‍රපට, විනෝදාස්වාද ප්‍රචාරණ යනාදී වශයෙන් භාවිතා කළ හැක.
Vtoonify metaverse හි ද භාවිතා කළ හැකිය.

සීමාවන්

මෙම ක්‍රමවේදය StyleGAN මත පදනම් වූ කොඳු ඇට පෙළෙන් දත්ත සහ ආකෘතිය යන දෙකම උපුටා ගන්නා අතර එමඟින් දත්ත සහ ආදර්ශ පක්ෂග්‍රාහී වේ.
කෞතුක වස්තු බොහෝ දුරට ශෛලීගත මුහුණු කලාපය සහ අනෙකුත් කොටස් අතර ප්‍රමාණයේ වෙනස්කම් නිසා ඇතිවේ.
මුහුණු කලාපයේ දේවල් සමඟ කටයුතු කිරීමේදී මෙම උපායමාර්ගය අඩු සාර්ථක වේ.

නිගමනය

අවසාන වශයෙන්, VToonify යනු ශෛලිය-පාලිත අධි-විභේදන වීඩියෝ toonification සඳහා රාමුවකි.

මෙම රාමුව වීඩියෝ හැසිරවීමේදී විශිෂ්ට කාර්ය සාධනයක් ලබා ගන්නා අතර StyleGAN මත පදනම් වූ රූප toonification ආකෘති දෙකම අනුව ඝනීභවනය කිරීමෙන් ව්‍යුහාත්මක විලාසය, වර්ණ විලාසය සහ විලාස උපාධිය පිළිබඳ පුළුල් පාලනයක් ලබා දෙයි. කෘතිම දත්ත සහ ජාල ව්යුහයන්.

Vtoonify: පාලනය කළ හැකි අධි-විභේදන පෝට්රේට් වීඩියෝ විලාස මාරු කිරීම

Vtoonify යනු කුමක්ද?

එය ක්රියාත්මක වන්නේ කෙසේද?

StyleGAN සහ යෝජිත Vtoonify හි සීමාවන්