সর্বোচ্চ ক্ষমতাসম্পন্ন সৃজনশীল প্রতিকৃতি ফিল্ম তৈরি করা কম্পিউটার ভিশন এবং গ্রাফিক্সের ক্ষেত্রে এটি একটি গুরুত্বপূর্ণ এবং পছন্দসই কাজ।
যদিও শক্তিশালী স্টাইলগানের উপর ভিত্তি করে পোর্ট্রেট ইমেজ টুনিফিকেশনের জন্য বেশ কয়েকটি কার্যকর মডেল প্রস্তাব করা হয়েছে, এই চিত্র-ভিত্তিক কৌশলগুলি যখন ভিডিওগুলির সাথে ব্যবহার করা হয় তখন স্পষ্ট ত্রুটি রয়েছে, যেমন নির্দিষ্ট ফ্রেমের আকার, মুখের সারিবদ্ধকরণের জন্য প্রয়োজনীয়তা, অ-মুখের বিবরণের অনুপস্থিতি। , এবং সাময়িক অসঙ্গতি।
একটি বিপ্লবী VToonify ফ্রেমওয়ার্ক কঠিন নিয়ন্ত্রিত উচ্চ-রেজোলিউশন পোর্ট্রেট ভিডিও শৈলী স্থানান্তর মোকাবেলা করতে ব্যবহৃত হয়।
আমরা এই নিবন্ধে VToonify-এর সাম্প্রতিকতম গবেষণাটি পরীক্ষা করব, এর কার্যকারিতা, ত্রুটিগুলি এবং অন্যান্য কারণগুলি সহ।
Vtoonify কি?
VToonify ফ্রেমওয়ার্ক কাস্টমাইজযোগ্য উচ্চ-রেজোলিউশন পোর্ট্রেট ভিডিও শৈলী ট্রান্সমিশনের অনুমতি দেয়।
VToonify ফ্রেমের বিবরণ ধরে রাখার জন্য একটি এনকোডার দ্বারা পুনরুদ্ধার করা বহু-স্কেল বিষয়বস্তুর বৈশিষ্ট্যের উপর ভিত্তি করে উচ্চ-মানের শৈল্পিক প্রতিকৃতি তৈরি করতে StyleGAN-এর মধ্য এবং উচ্চ-রেজোলিউশন স্তরগুলি ব্যবহার করে।
ফলস্বরূপ সম্পূর্ণরূপে কনভোলিউশনাল আর্কিটেকচার পরিবর্তনশীল-আকারের চলচ্চিত্রগুলিতে অ-সংযুক্ত মুখগুলিকে ইনপুট হিসাবে গ্রহণ করে, যার ফলে আউটপুটে বাস্তবসম্মত গতিবিধি সহ পুরো মুখের অঞ্চলগুলি দেখা যায়।
এই ফ্রেমওয়ার্ক বর্তমান StyleGAN-ভিত্তিক ইমেজ টুনিফিকেশন মডেলগুলির সাথে সামঞ্জস্যপূর্ণ, যা তাদের ভিডিও টুনিফিকেশনে প্রসারিত করার অনুমতি দেয় এবং সামঞ্জস্যযোগ্য রঙ এবং তীব্রতা কাস্টমাইজেশনের মতো আকর্ষণীয় বৈশিষ্ট্যগুলি উত্তরাধিকার সূত্রে পায়।
এই অধ্যয়ন সংগ্রহ-ভিত্তিক এবং উদাহরণ-ভিত্তিক পোর্ট্রেট ভিডিও শৈলী স্থানান্তরের জন্য Toonify এবং DualStyleGAN-এর উপর ভিত্তি করে যথাক্রমে VToonify-এর দুটি ইন্সট্যান্টেশন চালু করেছে।
বিস্তৃত পরীক্ষামূলক ফলাফলগুলি দেখায় যে প্রস্তাবিত VToonify ফ্রেমওয়ার্ক পরিবর্তনশীল শৈলীর পরামিতি সহ উচ্চ-মানের, সাময়িকভাবে-সঙ্গত শৈল্পিক প্রতিকৃতি চলচ্চিত্রগুলি তৈরির ক্ষেত্রে বিদ্যমান পদ্ধতিগুলিকে ছাড়িয়ে যায়।
গবেষকরা প্রদান করেন Google Colab নোটবুক, তাই আপনি এটিতে আপনার হাত নোংরা করতে পারেন।
এটা কিভাবে কাজ করে?
সামঞ্জস্যযোগ্য উচ্চ-রেজোলিউশন পোর্ট্রেট ভিডিও শৈলী স্থানান্তর সম্পন্ন করতে, VToonify চিত্র অনুবাদ কাঠামোর সুবিধাগুলিকে StyleGAN-ভিত্তিক কাঠামোর সাথে একত্রিত করে।
বিভিন্ন ইনপুট মাপ মিটমাট করার জন্য, ইমেজ ট্রান্সলেশন সিস্টেম সম্পূর্ণরূপে কনভোলিউশনাল নেটওয়ার্ক নিয়োগ করে। স্ক্র্যাচ থেকে প্রশিক্ষণ, অন্যদিকে, উচ্চ-রেজোলিউশন এবং নিয়ন্ত্রিত শৈলী সংক্রমণ অসম্ভব করে তোলে।
প্রাক-প্রশিক্ষিত StyleGAN মডেল উচ্চ-রেজোলিউশন এবং নিয়ন্ত্রিত শৈলী স্থানান্তরের জন্য StyleGAN-ভিত্তিক কাঠামোতে ব্যবহৃত হয়, যদিও এটি নির্দিষ্ট ছবির আকার এবং বিস্তারিত ক্ষতির মধ্যে সীমাবদ্ধ।
StyleGAN এর ফিক্সড-সাইজ ইনপুট ফিচার এবং লো-রেজোলিউশন লেয়ার মুছে দিয়ে হাইব্রিড ফ্রেমওয়ার্কে পরিবর্তন করা হয়েছে, যার ফলে ইমেজ ট্রান্সলেশন ফ্রেমওয়ার্কের মতোই একটি সম্পূর্ণ কনভোল্যুশনাল এনকোডার-জেনারেটর আর্কিটেকচার।
ফ্রেমের বিশদ বিবরণ বজায় রাখতে, জেনারেটরের অতিরিক্ত সামগ্রীর প্রয়োজন হিসাবে ইনপুট ফ্রেমের বহু-স্কেল বিষয়বস্তু বৈশিষ্ট্যগুলি বের করতে একটি এনকোডারকে প্রশিক্ষণ দিন। Vtoonify স্টাইলগান মডেলের স্টাইল কন্ট্রোল নমনীয়তা উত্তরাধিকারসূত্রে প্রাপ্ত করে এটিকে জেনারেটরে রেখে এর ডেটা এবং মডেল উভয়ই পাতন করে।
StyleGAN এবং প্রস্তাবিত Vtoonify-এর সীমাবদ্ধতা
শৈল্পিক প্রতিকৃতি আমাদের দৈনন্দিন জীবনের পাশাপাশি শিল্পের মতো সৃজনশীল ব্যবসায় সাধারণ। সামাজিক মাধ্যম অবতার, সিনেমা, বিনোদন বিজ্ঞাপন, এবং তাই.
বিকাশের সাথে গভীর জ্ঞানার্জন প্রযুক্তি, এখন স্বয়ংক্রিয় প্রতিকৃতি শৈলী স্থানান্তর ব্যবহার করে বাস্তব জীবনের মুখের ছবি থেকে উচ্চ-মানের শৈল্পিক প্রতিকৃতি তৈরি করা সম্ভব।
ইমেজ-ভিত্তিক শৈলী স্থানান্তরের জন্য বিভিন্ন সফল উপায় তৈরি করা হয়েছে, যার মধ্যে অনেকগুলি মোবাইল অ্যাপ্লিকেশন আকারে প্রারম্ভিক ব্যবহারকারীদের কাছে সহজেই অ্যাক্সেসযোগ্য। ভিডিও উপাদান দ্রুতগতিতে আমাদের সোশ্যাল মিডিয়া ফিডের একটি প্রধান ভিত্তি হয়ে উঠেছে গত কয়েক বছরে।
সোশ্যাল মিডিয়া এবং ক্ষণস্থায়ী চলচ্চিত্রের উত্থান সফল এবং আকর্ষণীয় ভিডিও তৈরি করতে উদ্ভাবনী ভিডিও সম্পাদনার চাহিদা বাড়িয়ে দিয়েছে, যেমন পোর্ট্রেট ভিডিও শৈলী স্থানান্তর।
বিদ্যমান চিত্র-ভিত্তিক কৌশলগুলির উল্লেখযোগ্য অসুবিধা রয়েছে যখন চলচ্চিত্রগুলিতে প্রয়োগ করা হয়, স্বয়ংক্রিয় প্রতিকৃতি ভিডিও স্টাইলাইজেশনে তাদের উপযোগিতা সীমিত করে।
স্টাইলগান হল একটি পোর্ট্রেট ছবির শৈলী ট্রান্সফার মডেল তৈরির জন্য একটি সাধারণ ব্যাকবোন যা সামঞ্জস্যযোগ্য শৈলী পরিচালনার সাথে উচ্চ মানের মুখ তৈরি করার ক্ষমতার কারণে।
একটি StyleGAN-ভিত্তিক সিস্টেম (পিকচার টুনিফিকেশন নামেও পরিচিত) একটি বাস্তব মুখকে StyleGAN সুপ্ত স্থানের মধ্যে এনকোড করে এবং তারপরে একটি স্টাইলাইজড সংস্করণ তৈরি করতে শৈল্পিক প্রতিকৃতি ডেটাসেটে সূক্ষ্ম সুর করা অন্য StyleGAN-এ ফলস্বরূপ স্টাইল কোড প্রয়োগ করে।
StyleGAN সারিবদ্ধ মুখের সাথে এবং একটি নির্দিষ্ট আকারে ছবি তৈরি করে, যা বাস্তব-বিশ্বের ফুটেজে গতিশীল মুখের পক্ষে নয়। ভিডিওতে মুখ কাটা এবং সারিবদ্ধকরণের ফলে কখনও কখনও আংশিক মুখ এবং বিশ্রী অঙ্গভঙ্গি দেখা দেয়৷ গবেষকরা এই সমস্যাটিকে StyleGAN এর 'স্থির-ফসল সীমাবদ্ধতা' বলে অভিহিত করেন।
সংযুক্ত মুখের জন্য, StyleGAN3 প্রস্তাব করা হয়েছে; যাইহোক, এটি শুধুমাত্র একটি সেট ছবির আকার সমর্থন করে।
তদুপরি, একটি সাম্প্রতিক গবেষণায় দেখা গেছে যে সারিবদ্ধ মুখগুলির চেয়ে এনকোডিং আনলাইন করা মুখগুলি আরও চ্যালেঞ্জিং। ভুল ফেস এনকোডিং পোর্ট্রেট শৈলী স্থানান্তরের জন্য ক্ষতিকর, যার ফলে পুনর্গঠিত এবং স্টাইল করা ফ্রেমে পরিচয় পরিবর্তন এবং অনুপস্থিত উপাদানগুলির মতো সমস্যা দেখা দেয়।
যেমন আলোচনা করা হয়েছে, পোর্ট্রেট ভিডিও শৈলী স্থানান্তরের জন্য একটি দক্ষ কৌশল অবশ্যই নিম্নলিখিত সমস্যাগুলি পরিচালনা করবে:
- বাস্তবসম্মত গতিবিধি সংরক্ষণের জন্য, দৃষ্টিভঙ্গিটি একসংযুক্ত মুখ এবং বিভিন্ন ভিডিও আকারের সাথে মোকাবিলা করতে সক্ষম হতে হবে। একটি বৃহৎ ভিডিও আকার, বা দৃশ্যের একটি প্রশস্ত কোণ, মুখকে ফ্রেমের বাইরে সরানো থেকে রক্ষা করার সময় আরও তথ্য ক্যাপচার করতে পারে৷
- আজকের সাধারণভাবে ব্যবহৃত এইচডি গ্যাজেটগুলির সাথে প্রতিযোগিতা করতে, উচ্চ-রেজোলিউশন ভিডিও প্রয়োজন৷
- একটি বাস্তবসম্মত ব্যবহারকারী মিথস্ক্রিয়া সিস্টেম বিকাশ করার সময় ব্যবহারকারীদের তাদের পছন্দ পরিবর্তন এবং বেছে নেওয়ার জন্য নমনীয় শৈলী নিয়ন্ত্রণ দেওয়া উচিত।
সেই উদ্দেশ্যে, গবেষকরা ভিডিও টুনিফিকেশনের জন্য একটি অভিনব হাইব্রিড ফ্রেমওয়ার্ক VToonify-এর পরামর্শ দেন। নির্দিষ্ট ফসলের সীমাবদ্ধতা কাটিয়ে উঠতে, গবেষকরা প্রথমে StyleGAN-এ অনুবাদ সমতুল্যতা অধ্যয়ন করেন।
VToonify সামঞ্জস্যযোগ্য উচ্চ-রেজোলিউশন পোর্ট্রেট ভিডিও শৈলী স্থানান্তর অর্জনের জন্য StyleGAN-ভিত্তিক আর্কিটেকচার এবং চিত্র অনুবাদ কাঠামোর সুবিধাগুলিকে একত্রিত করে।
নিম্নলিখিত প্রধান অবদান:
- গবেষকরা StyleGAN-এর স্থির-ফসলের সীমাবদ্ধতা তদন্ত করেন এবং অনুবাদ সমতুল্যতার উপর ভিত্তি করে একটি সমাধান প্রস্তাব করেন।
- গবেষকরা নিয়ন্ত্রিত উচ্চ-রেজোলিউশন পোর্ট্রেট ভিডিও শৈলী স্থানান্তরের জন্য একটি অনন্য সম্পূর্ণ কনভোলিউশনাল VToonify ফ্রেমওয়ার্ক উপস্থাপন করেছেন যা অসংযুক্ত মুখ এবং বিভিন্ন ভিডিও আকারকে সমর্থন করে।
- গবেষকরা Toonify এবং DualStyleGAN এর ব্যাকবোনে VToonify তৈরি করেন এবং সংগ্রহ-ভিত্তিক এবং উদাহরণ-ভিত্তিক প্রতিকৃতি ভিডিও শৈলী স্থানান্তর সক্ষম করতে ডেটা এবং মডেল উভয়ের পরিপ্রেক্ষিতে ব্যাকবোনগুলিকে ঘনীভূত করেন।
অন্যান্য অত্যাধুনিক মডেলের সাথে Vtoonify তুলনা করা
টুনিফাই
এটি StyleGAN ব্যবহার করে সারিবদ্ধ মুখগুলিতে সংগ্রহ-ভিত্তিক শৈলী স্থানান্তরের ভিত্তি হিসাবে কাজ করে। স্টাইল কোডগুলি পুনরুদ্ধার করতে, গবেষকদের অবশ্যই মুখ সারিবদ্ধ করতে হবে এবং PSP এর জন্য 256256 ফটো ক্রপ করতে হবে। Toonify 1024*1024 স্টাইল কোড সহ একটি স্টাইলাইজড ফলাফল তৈরি করতে ব্যবহৃত হয়।
অবশেষে, তারা ভিডিওতে ফলাফলটিকে তার আসল অবস্থানে পুনরায় সারিবদ্ধ করে। আন-স্টাইলাইজড এলাকা কালো সেট করা হয়েছে.
ডুয়াল স্টাইলগান
এটি StyleGAN-এর উপর ভিত্তি করে উদাহরণ-ভিত্তিক শৈলী স্থানান্তরের জন্য একটি মেরুদণ্ড। তারা Toonify-এর মতো একই ডেটা প্রি- এবং পোস্ট-প্রসেসিং কৌশল ব্যবহার করে।
Pix2pixHD
এটি একটি ইমেজ-টু-ইমেজ অনুবাদ মডেল যা সাধারণত উচ্চ-রেজোলিউশন সম্পাদনার জন্য প্রাক-প্রশিক্ষিত মডেলগুলিকে ঘনীভূত করতে ব্যবহৃত হয়। এটি জোড়া ডেটা ব্যবহার করে প্রশিক্ষণ দেওয়া হয়।
গবেষকরা pix2pixHD এর অতিরিক্ত উদাহরণ মানচিত্র ইনপুট হিসাবে ব্যবহার করেন যেহেতু এটি নিষ্কাশন করা পার্সিং মানচিত্র ব্যবহার করে।
প্রথম অর্ডার মোশন
FOM হল একটি সাধারণ ইমেজ অ্যানিমেশন মডেল। এটি 256256 ছবির উপর প্রশিক্ষিত ছিল এবং অন্যান্য ছবির আকারের সাথে খারাপভাবে কাজ করে। ফলস্বরূপ, গবেষকরা প্রথমে FOM-এর জন্য ভিডিও ফ্রেমগুলিকে 256*256 এ স্কেল করেন এবং তারপর ফলাফলগুলিকে তাদের আসল আকারে পুনরায় আকার দেন।
একটি ন্যায্য তুলনার জন্য, FOM তার রেফারেন্স শৈলী চিত্র হিসাবে তার পদ্ধতির প্রথম শৈলীযুক্ত ফ্রেম নিয়োগ করে।
দাগান
এটি একটি 3D ফেস অ্যানিমেশন মডেল। তারা FOM হিসাবে একই ডেটা প্রস্তুতি এবং পোস্টপ্রসেসিং পদ্ধতি ব্যবহার করে।
উপকারিতা
- এটি শিল্পকলা, সোশ্যাল মিডিয়া অবতার, চলচ্চিত্র, বিনোদন বিজ্ঞাপন ইত্যাদিতে নিযুক্ত করা যেতে পারে।
- Vtoonify মেটাভার্সেও ব্যবহার করা যেতে পারে।
সীমাবদ্ধতা
- এই পদ্ধতিটি StyleGAN-ভিত্তিক ব্যাকবোন থেকে ডেটা এবং মডেল উভয়ই বের করে, ফলে ডেটা এবং মডেলের পক্ষপাত ঘটে।
- নিদর্শনগুলি বেশিরভাগই স্টাইলাইজড মুখের অঞ্চল এবং অন্যান্য বিভাগের মধ্যে আকারের পার্থক্যের কারণে ঘটে।
- মুখের অঞ্চলে জিনিসগুলি মোকাবেলা করার সময় এই কৌশলটি কম সফল।
উপসংহার
অবশেষে, VToonify হল স্টাইল-নিয়ন্ত্রিত উচ্চ-রেজোলিউশন ভিডিও টুনিফিকেশনের জন্য একটি কাঠামো।
এই ফ্রেমওয়ার্ক ভিডিও পরিচালনার ক্ষেত্রে দুর্দান্ত পারফরম্যান্স অর্জন করে এবং স্টাইলগ্যান-ভিত্তিক ইমেজ টুনিফিকেশন মডেলগুলিকে তাদের উভয়ের পরিপ্রেক্ষিতে ঘনীভূত করে কাঠামোগত শৈলী, রঙের শৈলী এবং শৈলীর ডিগ্রির উপর ব্যাপক নিয়ন্ত্রণ সক্ষম করে। সিনথেটিক ডেটা এবং নেটওয়ার্ক কাঠামো।
নির্দেশিকা সমন্ধে মতামত দিন