கம்ப்யூட்டர் பார்வை மற்றும் கிராபிக்ஸ் ஆகியவற்றில் மிக உயர்ந்த திறன் கொண்ட கிரியேட்டிவ் போர்ட்ரெய்ட் படங்களைத் தயாரிப்பது ஒரு முக்கியமான மற்றும் விரும்பத்தக்க பணியாகும்.
வலிமையான StyleGAN ஐ அடிப்படையாகக் கொண்ட போர்ட்ரெய்ட் இமேஜ் டூனிஃபிகேஷன் பல பயனுள்ள மாதிரிகள் முன்மொழியப்பட்டாலும், இந்த படம் சார்ந்த நுட்பங்கள் வீடியோக்களில் பயன்படுத்தப்படும் போது தெளிவான குறைபாடுகளைக் கொண்டுள்ளன, அதாவது நிலையான சட்ட அளவு, முகத்தை சீரமைப்பதற்கான தேவை, முகம் அல்லாத விவரங்கள் இல்லாதது. , மற்றும் தற்காலிக முரண்பாடு.
ஒரு புரட்சிகர VToonify கட்டமைப்பானது கடினமான கட்டுப்படுத்தப்பட்ட உயர் தெளிவுத்திறன் கொண்ட போர்ட்ரெய்ட் வீடியோ பாணி பரிமாற்றத்தைச் சமாளிக்கப் பயன்படுகிறது.
இந்த கட்டுரையில் VToonify பற்றிய மிக சமீபத்திய ஆய்வின் செயல்பாடு, குறைபாடுகள் மற்றும் பிற காரணிகளை நாங்கள் ஆராய்வோம்.
Vtoonify என்றால் என்ன?
VToonify கட்டமைப்பானது தனிப்பயனாக்கக்கூடிய உயர்-தெளிவு உருவப்படம் வீடியோ பாணி பரிமாற்றத்தை அனுமதிக்கிறது.
VToonify StyleGAN இன் நடுப்பகுதி மற்றும் உயர் தெளிவுத்திறன் அடுக்குகளைப் பயன்படுத்தி, சட்ட விவரங்களைத் தக்கவைத்துக்கொள்ள ஒரு குறியாக்கியால் பெறப்பட்ட பல அளவிலான உள்ளடக்க பண்புகளின் அடிப்படையில் உயர்தர கலை ஓவியங்களை உருவாக்குகிறது.
இதன் விளைவாக முழுமையாக மாற்றியமைக்கப்பட்ட கட்டிடக்கலை மாறி-அளவிலான திரைப்படங்களில் சீரமைக்கப்படாத முகங்களை உள்ளீடாக எடுத்துக்கொள்கிறது, இதன் விளைவாக வெளியீட்டில் யதார்த்தமான இயக்கங்களுடன் முழு-முகப் பகுதிகளும் உருவாகின்றன.
இந்த கட்டமைப்பு தற்போதைய StyleGAN-அடிப்படையிலான பட டூனிஃபிகேஷன் மாடல்களுடன் இணக்கமானது, அவற்றை வீடியோ டூனிஃபிகேஷன் வரை நீட்டிக்க அனுமதிக்கிறது, மேலும் சரிசெய்யக்கூடிய வண்ணம் மற்றும் செறிவு தனிப்பயனாக்கம் போன்ற கவர்ச்சிகரமான பண்புகளைப் பெறுகிறது.
இந்த ஆய்வு Toonify மற்றும் DualStyleGAN அடிப்படையில் VToonify இன் இரண்டு நிகழ்வுகளை முறையே சேகரிப்பு அடிப்படையிலான மற்றும் முன்மாதிரி அடிப்படையிலான போர்ட்ரெய்ட் வீடியோ பாணி பரிமாற்றத்திற்காக அறிமுகப்படுத்துகிறது.
மாறுபட்ட பாணி அளவுருக்கள் கொண்ட உயர்தர, தற்காலிகமாக ஒத்திசைவான கலைசார் உருவப்படத் திரைப்படங்களை உருவாக்குவதில் முன்மொழியப்பட்ட VToonify கட்டமைப்பானது ஏற்கனவே உள்ள அணுகுமுறைகளை விஞ்சுகிறது என்பதை விரிவான சோதனை கண்டுபிடிப்புகள் காட்டுகின்றன.
ஆராய்ச்சியாளர்கள் வழங்குகிறார்கள் Google Colab நோட்புக், அதனால் நீங்கள் உங்கள் கைகளை அழுக்காகப் பெறலாம்.
இது எப்படி வேலை செய்கிறது?
அனுசரிப்பு உயர் தெளிவுத்திறன் கொண்ட போர்ட்ரெய்ட் வீடியோ பாணி பரிமாற்றத்தை நிறைவேற்ற, VToonify பட மொழிபெயர்ப்பு கட்டமைப்பின் நன்மைகளை StyleGAN அடிப்படையிலான கட்டமைப்புடன் ஒருங்கிணைக்கிறது.
பல்வேறு உள்ளீட்டு அளவுகளுக்கு இடமளிக்க, பட மொழிபெயர்ப்பு அமைப்பு முழுமையாக மாற்றும் நெட்வொர்க்குகளைப் பயன்படுத்துகிறது. மறுபுறம், புதிதாகப் பயிற்சி செய்வது, உயர் தெளிவுத்திறன் மற்றும் கட்டுப்படுத்தப்பட்ட பாணி பரிமாற்றத்தை சாத்தியமற்றதாக்குகிறது.
முன் பயிற்சி பெற்ற StyleGAN மாதிரியானது StyleGAN-அடிப்படையிலான கட்டமைப்பில் உயர் தெளிவுத்திறன் மற்றும் கட்டுப்படுத்தப்பட்ட பாணி பரிமாற்றத்திற்காக பயன்படுத்தப்படுகிறது, இருப்பினும் இது நிலையான பட அளவு மற்றும் விவர இழப்புகளுக்கு மட்டுமே.
StyleGAN ஆனது அதன் நிலையான அளவிலான உள்ளீட்டு அம்சம் மற்றும் குறைந்த தெளிவுத்திறன் அடுக்குகளை நீக்குவதன் மூலம் கலப்பின கட்டமைப்பில் மாற்றியமைக்கப்படுகிறது, இதன் விளைவாக பட மொழிபெயர்ப்பு கட்டமைப்பைப் போன்ற முழு மாற்றமான குறியாக்கி-ஜெனரேட்டர் கட்டமைப்பை உருவாக்குகிறது.
சட்ட விவரங்களைப் பராமரிக்க, ஜெனரேட்டருக்கு கூடுதல் உள்ளடக்கத் தேவையாக உள்ளீட்டு சட்டகத்தின் பல அளவிலான உள்ளடக்க பண்புகளைப் பிரித்தெடுக்க ஒரு குறியாக்கியைப் பயிற்றுவிக்கவும். Vtoonify அதன் தரவு மற்றும் மாதிரி இரண்டையும் வடிகட்டுவதற்கு ஜெனரேட்டரில் வைப்பதன் மூலம் StyleGAN மாடலின் ஸ்டைல் கட்டுப்பாட்டு நெகிழ்வுத்தன்மையைப் பெறுகிறது.
StyleGAN மற்றும் முன்மொழியப்பட்ட Vtoonify இன் வரம்புகள்
கலை ஓவியங்கள் நம் அன்றாட வாழ்விலும் கலை போன்ற படைப்பு வணிகங்களிலும் பொதுவானவை. சமூக ஊடகம் அவதாரங்கள், திரைப்படங்கள், பொழுதுபோக்கு விளம்பரம் மற்றும் பல.
வளர்ச்சியுடன் ஆழமான கற்றல் தொழில்நுட்பம், தானியங்கு உருவப்பட பாணி பரிமாற்றத்தைப் பயன்படுத்தி நிஜ வாழ்க்கை முகப் புகைப்படங்களிலிருந்து உயர்தர கலை ஓவியங்களை உருவாக்குவது இப்போது சாத்தியமாகும்.
பட அடிப்படையிலான பாணி பரிமாற்றத்திற்காக உருவாக்கப்பட்ட பல்வேறு வெற்றிகரமான வழிகள் உள்ளன, அவற்றில் பல மொபைல் பயன்பாடுகளின் வடிவத்தில் ஆரம்ப பயனர்களுக்கு எளிதாக அணுகக்கூடியவை. கடந்த பல வருடங்களாக எங்களின் சமூக ஊடக ஊட்டங்களில் வீடியோ மெட்டீரியல் விரைவாக முக்கிய அம்சமாக மாறியுள்ளது.
சமூக ஊடகங்கள் மற்றும் இடைக்காலத் திரைப்படங்களின் எழுச்சி, வெற்றிகரமான மற்றும் சுவாரஸ்யமான வீடியோக்களை உருவாக்க, போர்ட்ரெய்ட் வீடியோ பாணி பரிமாற்றம் போன்ற புதுமையான வீடியோ எடிட்டிங்கிற்கான தேவையை அதிகரித்துள்ளது.
தற்போதுள்ள பட-சார்ந்த நுட்பங்கள் திரைப்படங்களுக்குப் பயன்படுத்தப்படும்போது குறிப்பிடத்தக்க குறைபாடுகளைக் கொண்டுள்ளன, தானியங்கு உருவப்பட வீடியோ ஸ்டைலேசேஷன்களில் அவற்றின் பயனைக் கட்டுப்படுத்துகிறது.
StyleGAN என்பது ஒரு போர்ட்ரெய்ட் பிக்சர் ஸ்டைல் டிரான்ஸ்ஃபர் மாடலை உருவாக்குவதற்கான ஒரு பொதுவான முதுகெலும்பாகும், ஏனெனில் இது சரிசெய்யக்கூடிய பாணி நிர்வாகத்துடன் உயர்தர முகங்களை உருவாக்கும் திறன் கொண்டது.
StyleGAN-அடிப்படையிலான அமைப்பு (பட டூனிஃபிகேஷன் என்றும் அழைக்கப்படுகிறது) StyleGAN மறைந்த இடத்தில் ஒரு உண்மையான முகத்தை குறியீடாக்கி, அதன் விளைவாக வரும் ஸ்டைல் குறியீட்டை மற்றொரு StyleGAN க்கு பயன்படுத்துகிறது.
StyleGAN சீரமைக்கப்பட்ட முகங்கள் மற்றும் நிலையான அளவில் படங்களை உருவாக்குகிறது, இது நிஜ உலக காட்சிகளில் மாறும் முகங்களுக்கு சாதகமாக இருக்காது. வீடியோவில் முகம் செதுக்குதல் மற்றும் சீரமைத்தல் சில நேரங்களில் ஒரு பகுதி முகம் மற்றும் மோசமான சைகைகளை விளைவிக்கும். ஆராய்ச்சியாளர்கள் இந்த சிக்கலை StyleGAN இன் 'நிலையான பயிர் கட்டுப்பாடு' என்று அழைக்கின்றனர்.
சீரமைக்கப்படாத முகங்களுக்கு, StyleGAN3 முன்மொழியப்பட்டது; இருப்பினும், இது ஒரு செட் பட அளவை மட்டுமே ஆதரிக்கிறது.
மேலும், சீரமைக்கப்பட்ட முகங்களை விட சீரமைக்கப்படாத முகங்களை குறியாக்கம் செய்வது மிகவும் சவாலானது என்று சமீபத்திய ஆய்வில் கண்டறியப்பட்டுள்ளது. தவறான முக குறியாக்கம் போர்ட்ரெய்ட் பாணி பரிமாற்றத்திற்கு தீங்கு விளைவிக்கும், இதன் விளைவாக அடையாள மாற்றம் மற்றும் மறுகட்டமைக்கப்பட்ட மற்றும் ஸ்டைல் செய்யப்பட்ட பிரேம்களில் உள்ள கூறுகள் காணாமல் போவது போன்ற சிக்கல்கள் ஏற்படுகின்றன.
விவாதிக்கப்பட்டபடி, போர்ட்ரெய்ட் வீடியோ பாணி பரிமாற்றத்திற்கான திறமையான நுட்பம் பின்வரும் சிக்கல்களைக் கையாள வேண்டும்:
- யதார்த்தமான இயக்கங்களைப் பாதுகாக்க, அணுகுமுறையானது சீரமைக்கப்படாத முகங்கள் மற்றும் மாறுபட்ட வீடியோ அளவுகளைக் கையாளக்கூடியதாக இருக்க வேண்டும். ஒரு பெரிய வீடியோ அளவு, அல்லது ஒரு பரந்த பார்வை, சட்டத்திற்கு வெளியே முகத்தை நகர்த்தாமல் இருக்கும் போது கூடுதல் தகவலைப் பிடிக்க முடியும்.
- இன்று பொதுவாகப் பயன்படுத்தப்படும் HD கேஜெட்களுடன் போட்டியிட, உயர் தெளிவுத்திறன் கொண்ட வீடியோ அவசியம்.
- ஒரு யதார்த்தமான பயனர் தொடர்பு அமைப்பை உருவாக்கும்போது பயனர்கள் தங்கள் விருப்பத்தை மாற்றிக்கொள்ளவும் தேர்வு செய்யவும் நெகிழ்வான நடை கட்டுப்பாடு வழங்கப்பட வேண்டும்.
அந்த நோக்கத்திற்காக, வீடியோ டூனிஃபிகேஷனுக்கான ஒரு புதுமையான கலப்பின கட்டமைப்பான VToonify ஐ ஆராய்ச்சியாளர்கள் பரிந்துரைக்கின்றனர். நிலையான பயிர்க் கட்டுப்பாட்டைக் கடக்க, ஆராய்ச்சியாளர்கள் முதலில் StyleGAN இல் மொழிபெயர்ப்புச் சமநிலையைப் படிக்கின்றனர்.
VToonify, StyleGAN-அடிப்படையிலான கட்டிடக்கலை மற்றும் பட மொழிபெயர்ப்பு கட்டமைப்பின் பலன்களை ஒருங்கிணைத்து, சரிசெய்யக்கூடிய உயர்-தெளிவு உருவப்பட வீடியோ பாணி பரிமாற்றத்தை அடைகிறது.
பின்வரும் முக்கிய பங்களிப்புகள்:
- ஆராய்ச்சியாளர்கள் StyleGAN இன் நிலையான-பயிர் தடையை ஆராய்ந்து, மொழிபெயர்ப்பு சமநிலையின் அடிப்படையில் ஒரு தீர்வை முன்மொழிகின்றனர்.
- சீரமைக்கப்படாத முகங்கள் மற்றும் வெவ்வேறு வீடியோ அளவுகளை ஆதரிக்கும் கட்டுப்படுத்தப்பட்ட உயர் தெளிவுத்திறன் கொண்ட போர்ட்ரெய்ட் வீடியோ பாணி பரிமாற்றத்திற்கான தனித்துவமான முழு மாற்றமான VToonify கட்டமைப்பை ஆராய்ச்சியாளர்கள் வழங்குகின்றனர்.
- ஆராய்ச்சியாளர்கள் Toonify மற்றும் DualStyleGAN இன் முதுகெலும்பில் VToonify ஐ உருவாக்கி, சேகரிப்பு அடிப்படையிலான மற்றும் முன்மாதிரி அடிப்படையிலான போர்ட்ரெய்ட் வீடியோ பாணி பரிமாற்றத்தை செயல்படுத்த தரவு மற்றும் மாதிரி இரண்டின் அடிப்படையில் முதுகெலும்புகளை சுருக்கவும்.
Vtoonifyயை மற்ற அதிநவீன மாடல்களுடன் ஒப்பிடுகிறது
Toonify
StyleGAN ஐப் பயன்படுத்தி சீரமைக்கப்பட்ட முகங்களில் சேகரிப்பு அடிப்படையிலான பாணி பரிமாற்றத்திற்கான அடித்தளமாக இது செயல்படுகிறது. நடை குறியீடுகளை மீட்டெடுக்க, ஆராய்ச்சியாளர்கள் முகங்களை சீரமைத்து, PSPக்காக 256256 புகைப்படங்களை செதுக்க வேண்டும். 1024*1024 பாணிக் குறியீடுகளுடன் பகட்டான விளைவை உருவாக்க Toonify பயன்படுத்தப்படுகிறது.
இறுதியாக, வீடியோவில் உள்ள முடிவை அதன் அசல் இடத்திற்கு மீண்டும் சீரமைக்கிறார்கள். பகட்டான பகுதி கருப்பு நிறமாக அமைக்கப்பட்டுள்ளது.
DualStyleGAN
இது StyleGAN அடிப்படையிலான முன்மாதிரி அடிப்படையிலான பாணி பரிமாற்றத்திற்கான முதுகெலும்பாகும். அவர்கள் Toonify போன்ற அதே டேட்டாவை முன் மற்றும் பிந்தைய செயலாக்க நுட்பங்களைப் பயன்படுத்துகின்றனர்.
Pix2pixHD
இது உயர் தெளிவுத்திறன் கொண்ட எடிட்டிங்கிற்காக முன் பயிற்சி பெற்ற மாதிரிகளை சுருக்குவதற்கு பொதுவாகப் பயன்படுத்தப்படும் படத்திலிருந்து பட மொழிபெயர்ப்பு மாதிரியாகும். இது இணைக்கப்பட்ட தரவைப் பயன்படுத்தி பயிற்சியளிக்கப்படுகிறது.
பிரித்தெடுக்கப்பட்ட பாகுபடுத்தும் வரைபடத்தைப் பயன்படுத்துவதால் ஆராய்ச்சியாளர்கள் pix2pixHD ஐ அதன் கூடுதல் நிகழ்வு வரைபட உள்ளீடுகளாகப் பயன்படுத்துகின்றனர்.
முதல் வரிசை இயக்கம்
FOM என்பது ஒரு பொதுவான பட அனிமேஷன் மாதிரி. இது 256256 படங்களில் பயிற்சியளிக்கப்பட்டது மற்றும் மற்ற பட அளவுகளுடன் மோசமாக செயல்படுகிறது. இதன் விளைவாக, ஆராய்ச்சியாளர்கள் முதலில் வீடியோ பிரேம்களை 256*256 க்கு FOM க்கு அனிமேஷனுக்கு அளவிடுகிறார்கள், பின்னர் முடிவுகளை அவற்றின் அசல் அளவிற்கு மாற்றுகிறார்கள்.
நியாயமான ஒப்பீட்டிற்கு, FOM அதன் அணுகுமுறையின் முதல் பகட்டான சட்டகத்தை அதன் குறிப்பு பாணி படமாகப் பயன்படுத்துகிறது.
டாகன்
இது ஒரு 3டி முக அனிமேஷன் மாடல். அவர்கள் FOM போன்ற அதே தரவுத் தயாரிப்பு மற்றும் பிந்தைய செயலாக்க முறைகளைப் பயன்படுத்துகின்றனர்.
நன்மைகள்
- இது கலைகள், சமூக ஊடக அவதாரங்கள், திரைப்படங்கள், பொழுதுபோக்கு விளம்பரம் மற்றும் பலவற்றில் பயன்படுத்தப்படலாம்.
- Vtoonify மெட்டாவேர்ஸிலும் பயன்படுத்தப்படலாம்.
வரம்புகள்
- இந்த முறையானது StyleGAN-அடிப்படையிலான முதுகெலும்புகளிலிருந்து தரவு மற்றும் மாதிரி இரண்டையும் பிரித்தெடுக்கிறது, இதன் விளைவாக தரவு மற்றும் மாதிரி சார்பு ஏற்படுகிறது.
- கலைப்பொருட்கள் பெரும்பாலும் பகட்டான முகப் பகுதிக்கும் மற்ற பிரிவுகளுக்கும் இடையிலான அளவு வேறுபாடுகளால் ஏற்படுகின்றன.
- முகம் பகுதியில் உள்ள விஷயங்களைக் கையாளும் போது இந்த மூலோபாயம் குறைவான வெற்றியைப் பெறுகிறது.
தீர்மானம்
இறுதியாக, VToonify என்பது ஸ்டைல்-கட்டுப்படுத்தப்பட்ட உயர் தெளிவுத்திறன் கொண்ட வீடியோ டூனிஃபிகேஷனுக்கான ஒரு கட்டமைப்பாகும்.
இந்த கட்டமைப்பானது வீடியோக்களைக் கையாள்வதில் சிறந்த செயல்திறனை அடைகிறது மற்றும் StyleGAN-அடிப்படையிலான பட டூனிஃபிகேஷன் மாதிரிகள் இரண்டின் அடிப்படையில் ஒடுக்கப்படுவதன் மூலம் கட்டமைப்பு பாணி, வண்ண நடை மற்றும் பாணி பட்டத்தின் மீது பரந்த கட்டுப்பாட்டை செயல்படுத்துகிறது. செயற்கை தரவு மற்றும் பிணைய கட்டமைப்புகள்.
ஒரு பதில் விடவும்