კომპიუტერულ ხედვასა და გრაფიკაში გადამწყვეტი და სასურველი ამოცანაა უმაღლესი კალიბრის კრეატიული პორტრეტული ფილმების წარმოება.
მიუხედავად იმისა, რომ შემოთავაზებულია რამდენიმე ეფექტური მოდელი პორტრეტის გამოსახულების მატონიზირებლად, რომელიც დაფუძნებულია ძლიერ StyleGAN-ზე, ამ სურათზე ორიენტირებულ ტექნიკას აქვს აშკარა ნაკლოვანებები ვიდეოებთან გამოყენებისას, როგორიცაა ფიქსირებული კადრის ზომა, სახის გასწორების მოთხოვნა, არასახის დეტალების არარსებობა. და დროებითი შეუსაბამობა.
რევოლუციური VToonify ჩარჩო გამოიყენება რთული კონტროლირებადი მაღალი გარჩევადობის პორტრეტის ვიდეოს სტილის გადაცემის დასაძლევად.
ამ სტატიაში განვიხილავთ VToonify-ის უახლეს კვლევას, მათ შორის მის ფუნქციურობას, ნაკლოვანებებს და სხვა ფაქტორებს.
რა არის Vtoonify?
VToonify ჩარჩო საშუალებას გაძლევთ დააკონფიგურიროთ მაღალი რეზოლუციის პორტრეტული ვიდეოს სტილის გადაცემა.
VToonify იყენებს StyleGAN-ის საშუალო და მაღალი გარჩევადობის ფენებს მაღალი ხარისხის მხატვრული პორტრეტების შესაქმნელად, რომელიც დაფუძნებულია მრავალმასშტაბიანი შინაარსის მახასიათებლებზე, რომლებიც მოძიებულია ენკოდერის მიერ, ჩარჩოს დეტალების შესანარჩუნებლად.
შედეგად მიღებული სრულად კონვოლუციური არქიტექტურა ცვლადი ზომის ფილმებში იღებს არათანმიმდევრულ სახეებს შეყვანის სახით, რის შედეგადაც წარმოიქმნება მთელი სახის რეგიონები რეალისტური მოძრაობებით გამომავალში.
ეს ჩარჩო თავსებადია StyleGAN-ზე დაფუძნებულ გამოსახულების გამატონიზირებელ მოდელებთან, რაც მათ საშუალებას აძლევს გაფართოვდეს ვიდეოს ტონირებაზე და მემკვიდრეობით იღებს მიმზიდველ მახასიათებლებს, როგორიცაა ფერისა და ინტენსივობის რეგულირებადი პერსონალიზაცია.
ეს შესწავლა წარმოგიდგენთ VToonify-ის ორ ინსტანციას, რომელიც დაფუძნებულია Toonify-ზე და DualStyleGAN-ზე, კოლექციებზე დაფუძნებული და მაგალითებზე დაფუძნებული პორტრეტების ვიდეო სტილის გადასატანად, შესაბამისად.
ვრცელი ექსპერიმენტული დასკვნები აჩვენებს, რომ შემოთავაზებული VToonify ჩარჩო აღემატება არსებულ მიდგომებს მაღალი ხარისხის, დროებით თანმიმდევრული მხატვრული პორტრეტების ფილმების ცვლადი სტილის პარამეტრებით.
მკვლევარები უზრუნველყოფენ Google Colab ნოუთბუქი, ასე რომ თქვენ შეგიძლიათ დაიბინძუროთ მასზე ხელები.
როგორ მუშაობს?
რეგულირებადი მაღალი გარჩევადობის პორტრეტის ვიდეოს სტილის გადაცემის შესასრულებლად, VToonify აერთიანებს სურათების თარგმნის ჩარჩოს უპირატესობებს StyleGAN-ზე დაფუძნებულ ჩარჩოსთან.
შეყვანის სხვადასხვა ზომის დასაყენებლად, გამოსახულების თარგმნის სისტემა იყენებს სრულად კონვოლუციურ ქსელებს. მეორეს მხრივ, ნულიდან ვარჯიში შეუძლებელს ხდის მაღალი გარჩევადობის და კონტროლირებადი სტილის გადაცემას.
წინასწარ გაწვრთნილი StyleGAN მოდელი გამოიყენება StyleGAN-ზე დაფუძნებულ ჩარჩოში მაღალი გარჩევადობის და კონტროლირებადი სტილის გადაცემისთვის, თუმცა ის შემოიფარგლება სურათის ფიქსირებული ზომითა და დეტალების დაკარგვით.
StyleGAN მოდიფიცირებულია ჰიბრიდულ ჩარჩოში მისი ფიქსირებული ზომის შეყვანის ფუნქციისა და დაბალი გარჩევადობის ფენების წაშლით, რაც იწვევს სრულად კონვოლუციურ ენკოდერ-გენერატორის არქიტექტურას, როგორც გამოსახულების თარგმნის ჩარჩოს.
ჩარჩოს დეტალების შესანარჩუნებლად, მოამზადეთ ენკოდერი, რომ ამოიღოს შეყვანის ჩარჩოს მრავალმასშტაბიანი შინაარსის მახასიათებლები, როგორც დამატებითი კონტენტის მოთხოვნა გენერატორისთვის. Vtoonify მემკვიდრეობით იღებს StyleGAN მოდელის სტილის კონტროლის მოქნილობას გენერატორში ჩასმით მისი მონაცემებისა და მოდელის გამოხდის მიზნით.
StyleGAN-ის და შემოთავაზებული Vtoonify-ის შეზღუდვები
მხატვრული პორტრეტები გავრცელებულია ჩვენს ყოველდღიურ ცხოვრებაში, ისევე როგორც შემოქმედებით ბიზნესში, როგორიცაა ხელოვნება, სოციალური მედია ავატარები, ფილმები, გასართობი რეკლამა და ა.შ.
განვითარებით ღრმა სწავლება ტექნოლოგია, ახლა უკვე შესაძლებელია მაღალი ხარისხის მხატვრული პორტრეტების შექმნა რეალური სახის ფოტოებიდან პორტრეტის სტილის ავტომატური გადაცემის გამოყენებით.
არსებობს მრავალი წარმატებული გზა შექმნილი გამოსახულებაზე დაფუძნებული სტილის გადაცემისთვის, რომელთაგან ბევრი ადვილად ხელმისაწვდომია დამწყები მომხმარებლებისთვის მობილური აპლიკაციების სახით. ვიდეო მასალა სწრაფად იქცა ჩვენი სოციალური მედიის არხების საყრდენად ბოლო რამდენიმე წლის განმავლობაში.
სოციალური მედიისა და ეფემერული ფილმების ზრდამ გაზარდა მოთხოვნა ინოვაციურ ვიდეო მონტაჟზე, როგორიცაა პორტრეტული ვიდეოს სტილის გადაცემა, წარმატებული და საინტერესო ვიდეოების გენერირებისთვის.
არსებულ სურათზე ორიენტირებულ ტექნიკას აქვს მნიშვნელოვანი ნაკლოვანებები ფილმებზე გამოყენებისას, რაც ზღუდავს მათ სარგებლობას ავტომატური პორტრეტის ვიდეოს სტილიზაციაში.
StyleGAN არის ჩვეულებრივი ხერხემალი პორტრეტული სურათის სტილის გადაცემის მოდელის შემუშავებისთვის, იმის გამო, რომ შეუძლია შექმნას მაღალი ხარისხის სახეები სტილის რეგულირებადი მენეჯმენტით.
StyleGAN-ზე დაფუძნებული სისტემა (ასევე ცნობილი როგორც სურათის გამაძლიერებელი) დაშიფვრავს რეალურ სახეს StyleGAN ლატენტურ სივრცეში და შემდეგ იყენებს მიღებულ სტილის კოდს სხვა StyleGAN-ზე, რომელიც კარგად არის მორგებული მხატვრული პორტრეტების მონაცემთა ბაზაზე, რათა შეიქმნას სტილიზებული ვერსია.
StyleGAN ქმნის სურათებს გასწორებული სახეებით და ფიქსირებული ზომით, რაც ხელს არ უწყობს დინამიურ სახეებს რეალურ სამყაროში. სახის ამოჭრა და გასწორება ვიდეოში ზოგჯერ იწვევს სახის ნაწილობრივ და უხერხულ ჟესტებს. მკვლევარები ამ საკითხს StyleGAN-ის "ფიქსირებული მოსავლის შეზღუდვას" უწოდებენ.
შეუსწორებელი სახეებისთვის შემოთავაზებულია StyleGAN3; თუმცა, ის მხარს უჭერს მხოლოდ დადგენილ სურათის ზომას.
გარდა ამისა, ბოლოდროინდელმა კვლევამ აჩვენა, რომ უსწორმასწორო სახეების კოდირება უფრო რთულია, ვიდრე გასწორებული სახეები. სახის არასწორი კოდირება საზიანოა პორტრეტის სტილის გადაცემისთვის, რაც იწვევს ისეთ პრობლემებს, როგორიცაა იდენტურობის შეცვლა და კომპონენტების ნაკლებობა რეკონსტრუირებულ და სტილისტურ კადრებში.
როგორც განვიხილეთ, პორტრეტის ვიდეო სტილის გადაცემის ეფექტური ტექნიკა უნდა გაუმკლავდეს შემდეგ საკითხებს:
- რეალისტური მოძრაობების შესანარჩუნებლად, მიდგომას უნდა შეეძლოს გაუმკლავდეს უსწორმასწორო სახეებს და სხვადასხვა ზომის ვიდეოებს. ვიდეოს დიდ ზომას ან ხედვის ფართო კუთხს შეუძლია მეტი ინფორმაციის გადაღება იმავდროულად, რომ სახე არ გადავიდეს ჩარჩოდან.
- იმისათვის, რომ კონკურენცია გაუწიოთ დღეს ხშირად გამოყენებულ HD გაჯეტებს, საჭიროა მაღალი გარჩევადობის ვიდეო.
- მოქნილი სტილის კონტროლი უნდა შესთავაზოს მომხმარებლებს, რათა შეცვალონ და აირჩიონ არჩევანი რეალისტური მომხმარებლის ურთიერთქმედების სისტემის შემუშავებისას.
ამ მიზნით, მკვლევარები გვთავაზობენ VToonify-ს, ახალ ჰიბრიდულ ჩარჩოს ვიდეო ტონიფიკაციისთვის. მოსავლის ფიქსირებული შეზღუდვის დასაძლევად მკვლევარები ჯერ სწავლობენ თარგმანის ეკვივარიანტობას StyleGAN-ში.
VToonify აერთიანებს StyleGAN-ზე დაფუძნებული არქიტექტურისა და გამოსახულების თარგმნის ჩარჩოს უპირატესობებს, რათა მიაღწიოს რეგულირებადი მაღალი გარჩევადობის პორტრეტის ვიდეოს სტილის გადაცემას.
შემდეგი არის ძირითადი წვლილი:
- მკვლევარები იკვლევენ StyleGAN-ის ფიქსირებული მოსავლის შეზღუდვას და გვთავაზობენ გამოსავალს თარგმანის ეკვივარიანტზე დაყრდნობით.
- მკვლევარები წარმოადგენენ უნიკალურ სრულად კონვოლუციურ VToonify ჩარჩოს კონტროლირებადი მაღალი გარჩევადობის პორტრეტის ვიდეო სტილის გადასაცემად, რომელიც მხარს უჭერს უსწორმასწორო სახეებს და ვიდეოს სხვადასხვა ზომებს.
- მკვლევარები აშენებენ VToonify-ს Toonify-ისა და DualStyleGAN-ის ხერხემალებზე და ახდენენ ხერხემლის კონდენსაციას როგორც მონაცემების, ისე მოდელის თვალსაზრისით, რათა ჩართონ კოლექციაზე დაფუძნებული და მაგალითზე დაფუძნებული პორტრეტის ვიდეო სტილის გადაცემა.
Vtoonify-ის შედარება სხვა თანამედროვე მოდელებთან
ტონიზაცია
ის ემსახურება კოლექციებზე დაფუძნებული სტილის გადაცემის საფუძველს გასწორებულ სახეებზე StyleGAN-ის გამოყენებით. სტილის კოდების მოსაპოვებლად, მკვლევარებმა უნდა გაასწორონ სახეები და ამოიღონ 256256 ფოტო PSP-სთვის. Toonify გამოიყენება სტილიზებული შედეგის შესაქმნელად 1024*1024 სტილის კოდებით.
საბოლოოდ, ისინი ხელახლა ასწორებენ ვიდეოს შედეგს თავდაპირველ ადგილას. არასტილიზებული არე დაყენებულია შავზე.
DualStyleGAN
ეს არის ხერხემალი სამაგალითო სტილის გადაცემისთვის, რომელიც დაფუძნებულია StyleGAN-ზე. ისინი იყენებენ მონაცემთა წინასწარ და შემდგომ დამუშავების იგივე ტექნიკას, როგორც Toonify.
Pix2pixHD
ეს არის სურათიდან სურათზე თარგმნის მოდელი, რომელიც ჩვეულებრივ გამოიყენება წინასწარ მომზადებული მოდელების კონდენსაციისთვის მაღალი გარჩევადობის რედაქტირებისთვის. ის ივარჯიშება დაწყვილებული მონაცემების გამოყენებით.
მკვლევარები იყენებენ pix2pixHD, როგორც მისი დამატებითი მაგალითის რუქის შეყვანა, რადგან ის იყენებს ამოღებულ ანალიზურ რუკას.
პირველი რიგის მოძრაობა
FOM არის ტიპიური გამოსახულების ანიმაციის მოდელი. ის გაწვრთნილი იყო 256256 სურათზე და ცუდად მუშაობს სხვა ზომებთან. შედეგად, მკვლევარებმა ჯერ გააფართოვეს ვიდეო ჩარჩოები 256*256-მდე FOM-ისთვის ანიმაციამდე და შემდეგ შეცვალეს შედეგების ზომა თავდაპირველ ზომამდე.
სამართლიანი შედარებისთვის, FOM იყენებს თავისი მიდგომის პირველ სტილიზებულ ჩარჩოს, როგორც მისი საცნობარო სტილის გამოსახულება.
დაგანი
ეს არის 3D სახის ანიმაციის მოდელი. ისინი იყენებენ მონაცემთა მომზადებისა და შემდგომი დამუშავების იგივე მეთოდებს, როგორც FOM.
უპირატესობები
- მისი გამოყენება შესაძლებელია ხელოვნებაში, სოციალური მედიის ავატარებში, ფილმებში, გასართობ რეკლამაში და ა.შ.
- Vtoonify ასევე შეიძლება გამოყენებულ იქნას მეტავერსიაში.
შეზღუდვები
- ეს მეთოდოლოგია ამოიღებს როგორც მონაცემებს, ასევე მოდელს StyleGAN-ზე დაფუძნებული ხერხემალიდან, რაც იწვევს მონაცემთა და მოდელის მიკერძოებას.
- არტეფაქტები ძირითადად გამოწვეულია ზომის სხვაობით სტილიზებული სახის რეგიონსა და სხვა მონაკვეთებს შორის.
- ეს სტრატეგია ნაკლებად წარმატებულია, როდესაც საქმე ეხება სახის რეგიონში.
დასკვნა
დაბოლოს, VToonify არის ჩარჩო სტილით კონტროლირებადი მაღალი გარჩევადობის ვიდეოს ტონინგისთვის.
ეს ჩარჩო აღწევს დიდ წარმადობას ვიდეოების დამუშავებისას და იძლევა ფართო კონტროლს სტრუქტურულ სტილზე, ფერის სტილზე და სტილის ხარისხზე StyleGAN-ზე დაფუძნებული გამოსახულების მატონიზირებელი მოდელების კონდენსირებით, როგორც მათი თვალსაზრისით. სინთეზური მონაცემები და ქსელის სტრუქტურები.
დატოვე პასუხი