اهو هڪ اهم ۽ گهربل ڪم آهي ڪمپيوٽر جي وژن ۽ گرافڪس ۾ تخليقي پورٽريٽ فلمون ٺاهڻ لاءِ.
جيتوڻيڪ طاقتور اسٽائل GAN جي بنياد تي پورٽريٽ اميج ٽونٽيفڪيشن لاءِ ڪيترائي موثر ماڊل تجويز ڪيا ويا آهن، انهن تصويرن تي مبني ٽيڪنڪ جڏهن وڊيوز سان استعمال ٿينديون آهن ته واضح خاميون هونديون آهن، جهڙوڪ فڪسڊ فريم سائيز، منهن جي ترتيب جي گهرج، غير منهن جي تفصيل جي غير موجودگي. ، ۽ عارضي عدم مطابقت.
هڪ انقلابي VToonify فريم ورڪ استعمال ڪيو ويندو آهي مشڪل ڪنٽرول ٿيل هاءِ ريزوليوشن پورٽريٽ ويڊيو انداز جي منتقلي کي منهن ڏيڻ لاءِ.
اسان هن مضمون ۾ VToonify تي تازو مطالعو ڪنداسين، بشمول ان جي ڪارڪردگي، خرابيون، ۽ ٻيا عنصر.
Vtoonify ڇا آهي؟
VToonify فريم ورڪ اجازت ڏئي ٿو ڪسٽمائيزبل هاءِ ريزوليوشن پورٽريٽ ويڊيو اسٽائل ٽرانسميشن.
VToonify استعمال ڪري ٿو StyleGAN جي وچين ۽ اعليٰ ريزوليوشن ليئرز کي اعليٰ معيار جي فنڪارانه پورٽريٽ ٺاهڻ لاءِ جنهن ۾ ملٽي اسڪيل مواد جي خاصيتن جي بنياد تي فريم جي تفصيلن کي برقرار رکڻ لاءِ هڪ انڪوڊر ذريعي حاصل ڪيل خاصيتون آهن.
نتيجو مڪمل طور تي ٺهڪندڙ فن تعمير متغير-سائيز فلمن ۾ غير جڙيل چهرن کي ان پٽ طور وٺندو آهي، نتيجي ۾ سڄي منهن وارا علائقا پيداوار ۾ حقيقي تحريڪن سان گڏ هوندا آهن.
هي فريم ورڪ موجوده StyleGAN تي ٻڌل تصويري ٽونٽيفڪيشن ماڊلز سان مطابقت رکي ٿو، انهن کي وڊيو ٽونيفڪيشن تائين وڌائڻ جي اجازت ڏئي ٿو، ۽ پرڪشش خاصيتون ورثي ۾ ملي ٿو جهڙوڪ ترتيب ڏيڻ وارو رنگ ۽ شدت حسب ضرورت.
هي مطالعي VToonify جا ٻه ادارا متعارف ڪرايو Toonify ۽ DualStyleGAN جي بنياد تي ڪليڪشن جي بنياد تي ۽ مثال جي بنياد تي پورٽريٽ وڊيو انداز جي منتقلي لاءِ.
وسيع تجرباتي نتيجن مان اهو ظاهر ٿئي ٿو ته تجويز ڪيل VToonify فريم ورڪ موجوده اندازن کي بهتر بڻائي ٿو اعلي معيار، عارضي طور تي مربوط آرٽسٽڪ پورٽريٽ فلمون ٺاهڻ ۾ متغير انداز جي معيارن سان.
محقق مهيا ڪن ٿا Google Colab نوٽ بڪ، تنهنڪري توهان ان تي پنهنجا هٿ گندا ڪري سگهو ٿا.
ان کي ڪيئن ڪم ڪندو؟
ايڊجسٽبل هاءِ ريزوليوشن پورٽريٽ ويڊيو اسلوب جي منتقلي کي مڪمل ڪرڻ لاءِ، VToonify تصوير جي ترجمي واري فريم ورڪ جي فائدن کي StyleGAN-بنياد فريم ورڪ سان گڏ ڪري ٿو.
مختلف ان پٽ سائزن کي گڏ ڪرڻ لاءِ، تصويري ترجمي جو نظام مڪمل طور تي ڪنوولوشنل نيٽ ورڪن کي استعمال ڪري ٿو. شروع کان ٽريننگ، ٻئي طرف، اعلي ريزوليوشن ۽ ڪنٽرول اسٽائل ٽرانسميشن کي ناممڪن بڻائي ٿو.
اڳ-تربيت ٿيل StyleGAN ماڊل استعمال ڪيو ويو آهي StyleGAN-بنياد فريم ورڪ ۾ اعلي ريزوليوشن ۽ ڪنٽرول ٿيل انداز جي منتقلي لاءِ، جيتوڻيڪ اهو مقرر ٿيل تصويري سائيز ۽ تفصيلي نقصانن تائين محدود آهي.
StyleGAN هائبرڊ فريم ورڪ ۾ تبديل ڪيو ويو آهي ان جي مقرر ٿيل-سائز انپٽ فيچر ۽ گھٽ ريزوليوشن ليئرز کي حذف ڪندي، نتيجي ۾ تصويري ترجمي واري فريم ورڪ سان ملندڙ هڪ مڪمل ڪنوولوشنل انڪوڊر-جنريٽر آرڪيٽيڪچر.
فريم جي تفصيلن کي برقرار رکڻ لاءِ، هڪ انڪوڊر کي ٽرين ڏيو ته جيئن ان پٽ فريم جي ملٽي اسڪيل مواد جي خاصيتن کي ڪڍڻ لاءِ جنريٽر کي اضافي مواد جي گهرج هجي. Vtoonify وراثت ۾ ورثي ۾ ملي ٿو StyleGAN ماڊل جي اسٽائل ڪنٽرول لچڪ ان کي جنريٽر ۾ وجهي ان جي ڊيٽا ۽ ماڊل ٻنهي کي ختم ڪرڻ لاءِ.
StyleGAN ۽ تجويز ڪيل Vtoonify جون حدون
آرٽسٽڪ پورٽريٽ اسان جي روزاني زندگين ۾ عام آهن ۽ انهي سان گڏ تخليقي ڪاروبار جهڙوڪ آرٽ، سماجي ميڊيا اوتار، فلمون، تفريحي اشتهار، وغيره.
جي ترقي سان تمام گهڻي سکيا ٽيڪنالاجي، اهو هاڻي ممڪن آهي ته حقيقي زندگي جي چهرن جي تصويرن مان اعليٰ معيار جا فنڪارانه پورٽريٽ ٺاهي سگهجن.
تصوير جي بنياد تي انداز جي منتقلي لاءِ ڪيترائي ڪامياب طريقا ٺاھيا ويا آھن، جن مان گھڻا آساني سان موبائل ايپليڪيشنن جي صورت ۾ شروعاتي استعمال ڪندڙن تائين پھچائي سگھن ٿا. ويڊيو مواد تيزي سان اسان جي سوشل ميڊيا فيڊز جو بنيادي بنياد بڻجي چڪو آهي گذريل ڪيترن سالن کان.
سوشل ميڊيا ۽ عارضي فلمن جو عروج جديد ويڊيو ايڊيٽنگ جي مطالبن کي وڌايو آهي، جهڙوڪ پورٽريٽ وڊيو انداز جي منتقلي، ڪامياب ۽ دلچسپ وڊيوز ٺاهڻ لاءِ.
موجوده تصوير تي مبني ٽيڪنالاجيون اهم نقصان آهن جڏهن فلمن تي لاڳو ٿئي ٿي، خودڪار پورٽريٽ ويڊيو اسٽائلائيزيشن ۾ انهن جي افاديت کي محدود ڪري ٿي.
StyleGAN ھڪڙو عام پس منظر آھي ھڪڙو پورٽريٽ تصويري انداز جي منتقلي واري ماڊل کي ترقي ڪرڻ لاءِ ان جي صلاحيت جي ڪري ان جي قابليت واري انداز جي انتظام سان اعليٰ معيار جا منھن ٺاھي سگھي ٿي.
هڪ StyleGAN-بنياد سسٽم (جنهن کي تصوير ٽونيفڪيشن جي نالي سان پڻ سڃاتو وڃي ٿو) هڪ حقيقي چهري کي StyleGAN ليٽ اسپيس ۾ انڪوڊ ڪري ٿو ۽ پوءِ نتيجو وارو اسٽائل ڪوڊ لاڳو ڪري ٿو ٻئي StyleGAN تي فائن ٽيون ٿيل آرٽسٽڪ پورٽريٽ ڊيٽا سيٽ تي هڪ اسٽائلائز ورزن ٺاهڻ لاءِ.
StyleGAN ترتيب ڏنل چهرن سان ۽ هڪ مقرر سائيز تي تصويرون ٺاهي ٿو، جيڪي حقيقي دنيا جي فوٽيج ۾ متحرڪ چهرن کي پسند نه ڪن ٿيون. وڊيو ۾ منهن جي ڪٽڻ ۽ ترتيب ڏيڻ جي نتيجي ۾ ڪڏهن ڪڏهن جزوي منهن ۽ عجيب اشارن جي نتيجي ۾. محقق هن مسئلي کي سڏين ٿا StyleGAN جي 'مقرر ٿيل فصل جي پابندي'.
اڻڄاتل منهن لاء، StyleGAN3 تجويز ڪيو ويو آهي؛ بهرحال، اهو صرف هڪ سيٽ تصويري سائيز جي حمايت ڪري ٿو.
ان کان علاوه، هڪ تازو مطالعو دريافت ڪيو ويو آهي ته انڪوڊنگ اڻڄاتل منهن جي ڀيٽ ۾ وڌيڪ مشڪل آهي. غلط منهن انڪوڊنگ پورٽريٽ انداز جي منتقلي لاءِ نقصانڪار آهي، جنهن جي نتيجي ۾ مسئلا پيدا ٿين ٿا جهڙوڪ سڃاڻپ جي ڦيرڦار ۽ بحال ٿيل ۽ اسٽائل ٿيل فريم ۾ اجزاء غائب.
جيئن بحث ڪيو ويو، پورٽريٽ ويڊيو انداز جي منتقلي لاء هڪ موثر ٽيڪنڪ هيٺين مسئلن کي سنڀالڻ گهرجي:
- حقيقي تحريڪن کي محفوظ ڪرڻ لاءِ، طريقه ڪار کي غير ترتيب ڏنل منهن ۽ مختلف وڊيو سائزن سان ڊيل ڪرڻ جي قابل هوندو. هڪ وڏي وڊيو سائيز، يا ڏسڻ جو هڪ وسيع زاويه، وڌيڪ معلومات حاصل ڪري سگهي ٿو جڏهن ته منهن کي فريم کان ٻاهر وڃڻ کان روڪيو.
- اڄ جي عام طور تي استعمال ٿيل HD گيجٽ سان مقابلو ڪرڻ لاء، اعلي ريزوليوشن ويڊيو ضروري آهي.
- لچڪدار انداز ڪنٽرول پيش ڪيو وڃي صارفين کي تبديل ڪرڻ ۽ انهن جي پسند کي چونڊڻ لاء جڏهن هڪ حقيقي صارف جي رابطي واري نظام کي ترقي ڪندي.
انهي مقصد لاء، محقق VToonify جو مشورو ڏئي ٿو، وڊيو ٽونائيفڪيشن لاء هڪ ناول هائبرڊ فريم ورڪ. مقرر ٿيل فصل جي پابندي کي ختم ڪرڻ لاءِ، محقق پهريون مطالعو ڪن ٿا ترجمي جي برابري ۾ StyleGAN.
VToonify گڏ ڪري ٿو StyleGAN جي بنياد تي فن تعمير ۽ تصويري ترجمي واري فريم ورڪ جي فائدن کي ترتيب ڏيڻ لاءِ اعليٰ ريزوليوشن پورٽريٽ ويڊيو اسلوب جي منتقلي حاصل ڪرڻ لاءِ.
هيٺيون اهم ڀاڱا آهن:
- محقق StyleGAN جي مقرر ٿيل فصل جي رڪاوٽ جي تحقيق ڪن ٿا ۽ ترجمي جي مساوات جي بنياد تي هڪ حل پيش ڪن ٿا.
- محقق پيش ڪن ٿا هڪ منفرد مڪمل طور تي ڪنوولوشنل VToonify فريم ورڪ لاءِ ڪنٽرول ٿيل هاءِ ريزوليوشن پورٽريٽ ويڊيو اسلوب جي منتقلي لاءِ جيڪو غير ترتيب ڏنل چهرن ۽ مختلف وڊيو سائزن کي سپورٽ ڪري ٿو.
- محقق Toonify ۽ DualStyleGAN جي پٺن تي VToonify ٺاهيندا آهن ۽ ڊيٽا ۽ ماڊل ٻنهي جي لحاظ کان پٺي جي بونز کي گڏ ڪن ٿا ته جيئن ڪليڪشن بيسڊ ۽ ايڪسپلر بيسڊ پورٽريٽ وڊيو اسلوب جي منتقلي کي فعال ڪيو وڃي.
Vtoonify جو مقابلو ٻين جديد ماڊلز سان
Toonify
اهو StylGAN استعمال ڪندي ترتيب ڏنل منهن تي گڏ ڪرڻ جي بنياد تي انداز جي منتقلي جي بنياد جي طور تي ڪم ڪري ٿو. اسٽائل ڪوڊس حاصل ڪرڻ لاءِ، محققن کي PSP لاءِ 256256 فوٽن کي منهن ڏيڻ ۽ ڪٽڻ گهرجي. Toonify 1024*1024 اسٽائل ڪوڊس سان هڪ اسٽائل ٿيل نتيجو پيدا ڪرڻ لاءِ استعمال ڪيو ويندو آهي.
آخرڪار، اهي وڊيو ۾ نتيجو ان جي اصلي جڳهه تي ٻيهر ترتيب ڏين ٿا. غير اسٽائل ٿيل علائقو ڪارو تي مقرر ڪيو ويو آهي.
ٻٽي اسٽائل GAN
اهو اسٽائل GAN جي بنياد تي مثالي انداز جي منتقلي لاء هڪ پٺتي آهي. اهي ساڳيا ڊيٽا استعمال ڪن ٿا اڳ ۽ پوسٽ پروسيسنگ ٽيڪنڪ جيئن Toonify.
Pix2pixHD
اهو هڪ تصوير کان تصويري ترجمي وارو ماڊل آهي جيڪو عام طور تي استعمال ڪيو ويندو آهي اڳ-تربيت ٿيل ماڊلز کي اعليٰ ريزوليوشن ايڊيٽنگ لاءِ. اهو جوڙيل ڊيٽا استعمال ڪندي تربيت ڏني وئي آهي.
محقق استعمال ڪن ٿا pix2pixHD ان جي اضافي مثال نقشي جي ان پٽن جي طور تي ڇاڪاڻ ته اهو استعمال ڪري ٿو ڪڍيل تجزياتي نقشو.
پهريون آرڊر موشن
FOM ھڪڙو عام تصويري اينيميشن ماڊل آھي. اهو 256256 تصويرن تي تربيت ڪئي وئي ۽ ٻين تصويرن جي سائيز سان خراب ڪارڪردگي سان. نتيجي طور، محقق پهريون ڀيرو وڊيو فريم کي 256*256 تائين FOM لاءِ اينيميشن ۽ پوءِ نتيجن کي ان جي اصل سائيز ۾ ري سائز ڪندا آهن.
مناسب مقابلي لاءِ، FOM پنھنجي انداز جي پھرين اسلوب ٿيل فريم کي پنھنجي حوالن واري انداز جي تصوير طور استعمال ڪري ٿو.
داگان
اهو هڪ 3D منهن انيميشن ماڊل آهي. اهي ساڳيا ڊيٽا تيار ڪرڻ ۽ پوسٽ پروسيسنگ طريقا استعمال ڪندا آهن جيئن FOM.
فائدن
- اهو آرٽس، سوشل ميڊيا اوتار، فلمون، تفريحي اشتهارن، وغيره ۾ ملازمت ڪري سگهجي ٿو.
- Vtoonify پڻ استعمال ڪري سگھجي ٿو metaverse ۾.
حدون
- اهو طريقو ڊيٽا ۽ ماڊل ٻنهي کي ڪڍي ٿو StyleGAN-based backbones مان، نتيجي ۾ ڊيٽا ۽ ماڊل تعصب.
- نمونا اڪثر ڪري انداز جي منهن واري علائقي ۽ ٻين حصن جي وچ ۾ سائيز جي فرق جي ڪري آهن.
- اها حڪمت عملي گهٽ ڪامياب آهي جڏهن منهن واري علائقي ۾ شين سان معاملو ڪندي.
ٿڪل
آخرڪار، VToonify هڪ فريم ورڪ آهي طرز تي ڪنٽرول ٿيل هاءِ ريزوليوشن ويڊيو ٽونٽيفڪيشن لاءِ.
هي فريم ورڪ وڊيوز کي سنڀالڻ ۾ وڏي ڪارڪردگي حاصل ڪري ٿو ۽ اسٽائل GAN تي ٻڌل تصويري ٽونٽيفڪيشن ماڊلز کي ڪنڊينس ڪندي ڍانچي جي انداز، رنگ انداز ۽ انداز جي درجي تي وسيع ڪنٽرول کي قابل بڻائي ٿو. مصنوعي ڊيٽا ۽ نيٽ ورڪ جي جوڙجڪ.
جواب ڇڏي وڃو