Tworzenie kreatywnych filmów portretowych najwyższego kalibru jest kluczowym i pożądanym zadaniem w wizji i grafice komputerowej.
Chociaż zaproponowano kilka skutecznych modeli toonizacji obrazu portretowego w oparciu o silny StyleGAN, te techniki zorientowane na obraz mają wyraźne wady w przypadku użycia z filmami, takie jak stały rozmiar klatki, wymóg wyrównania twarzy, brak szczegółów innych niż twarz i niespójność czasowa.
Rewolucyjna struktura VToonify służy do rozwiązywania trudnego, kontrolowanego transferu wideo o wysokiej rozdzielczości w trybie portretowym.
W tym artykule przeanalizujemy najnowsze badanie dotyczące VToonify, w tym jego funkcjonalność, wady i inne czynniki.
Co to jest Vtoonify?
Framework VToonify umożliwia konfigurowalną transmisję wideo w wysokiej rozdzielczości w stylu portretowym.
VToonify wykorzystuje warstwy StyleGAN o średniej i wysokiej rozdzielczości do tworzenia wysokiej jakości artystycznych portretów w oparciu o wieloskalowe charakterystyki zawartości pobierane przez koder w celu zachowania szczegółów klatek.
Powstała w pełni splotowa architektura przyjmuje jako dane wejściowe niewyrównane twarze w filmach o zmiennej wielkości, co skutkuje obszarami obejmującymi całą twarz z realistycznymi ruchami na wyjściu.
Ta struktura jest kompatybilna z obecnymi modelami toonizacji obrazu opartymi na StyleGAN, co pozwala na ich rozszerzenie na toonizację wideo i dziedziczy atrakcyjne cechy, takie jak dostosowywanie kolorów i intensywności.
To zdjęcie „The Puzzle of Monogamous Marriage” wprowadza dwie instancje VToonify w oparciu o Toonify i DualStyleGAN dla odpowiednio opartego na kolekcjach i przykładowego transferu w stylu portretu wideo.
Obszerne odkrycia eksperymentalne pokazują, że proponowana struktura VToonify przewyższa istniejące podejścia w tworzeniu wysokiej jakości, spójnych w czasie artystycznych filmów portretowych o zmiennych parametrach stylu.
Naukowcy zapewniają Notatnik Google Colab, dzięki czemu możesz pobrudzić sobie ręce.
Jak to działa?
Aby osiągnąć regulowany transfer w stylu portretu wideo o wysokiej rozdzielczości, VToonify łączy zalety struktury tłumaczenia obrazu z platformą opartą na StyleGAN.
Aby dostosować się do różnych rozmiarów danych wejściowych, system translacji obrazów wykorzystuje w pełni splotowe sieci. Z drugiej strony trening od podstaw uniemożliwia transmisję w wysokiej rozdzielczości i w kontrolowanym stylu.
Wstępnie wytrenowany model StyleGAN jest używany w strukturze opartej na StyleGAN do wysokiej rozdzielczości i kontrolowanego przesyłania stylu, chociaż jest ograniczone do stałego rozmiaru obrazu i utraty szczegółów.
StyleGAN jest modyfikowany w strukturze hybrydowej, usuwając jego funkcję wejściową o stałym rozmiarze i warstwy o niskiej rozdzielczości, co daje w pełni splotną architekturę generatora kodera podobną do struktury translacji obrazu.
Aby zachować szczegóły ramki, wytrenuj koder, aby wyodrębnić wieloskalowe charakterystyki zawartości ramki wejściowej jako dodatkowe wymaganie zawartości dla generatora. Vtoonify dziedziczy elastyczność sterowania stylem modelu StyleGAN, umieszczając go w generatorze, aby destylować zarówno dane, jak i model.
Ograniczenia StyleGAN i proponowane Vtoonify
Portrety artystyczne są powszechne w naszym codziennym życiu, a także w kreatywnych biznesach, takich jak sztuka, Media społecznościowe awatary, filmy, reklamy rozrywkowe i tak dalej.
Wraz z rozwojem głęboka nauka technologii, teraz możliwe jest tworzenie wysokiej jakości artystycznych portretów z rzeczywistych zdjęć twarzy przy użyciu automatycznego transferu stylu portretowego.
Istnieje wiele skutecznych sposobów przenoszenia stylów opartych na obrazach, z których wiele jest łatwo dostępnych dla początkujących użytkowników w postaci aplikacji mobilnych. Materiały wideo szybko stały się podstawą naszych kanałów w mediach społecznościowych w ciągu ostatnich kilku lat.
Rozwój mediów społecznościowych i filmów efemerycznych zwiększył zapotrzebowanie na innowacyjną edycję wideo, taką jak transfer w stylu wideo portretowego, w celu generowania udanych i interesujących filmów.
Istniejące techniki zorientowane na obraz mają istotne wady w zastosowaniu do filmów, ograniczając ich użyteczność w automatycznej stylizacji filmów portretowych.
StyleGAN jest powszechną podstawą do opracowywania modelu transferu stylu obrazu portretowego ze względu na jego zdolność do tworzenia wysokiej jakości twarzy z regulowanym zarządzaniem stylem.
System oparty na StyleGAN (znany również jako toonizacja obrazu) koduje prawdziwą twarz w ukrytej przestrzeni StyleGAN, a następnie stosuje otrzymany kod stylu do innego StyleGAN precyzyjnie dostrojonego w zestawie danych portretu artystycznego, aby stworzyć stylizowaną wersję.
StyleGAN tworzy obrazy z wyrównanymi twarzami i stałym rozmiarem, co nie faworyzuje dynamicznych twarzy w rzeczywistym materiale. Przycinanie i wyrównanie twarzy w filmie czasami skutkuje częściową twarzą i niezręcznymi gestami. Naukowcy nazywają ten problem „ograniczeniem ustalonych upraw” StyleGAN.
Dla niewyrównanych ścian zaproponowano StyleGAN3; jednak obsługuje tylko określony rozmiar obrazu.
Co więcej, niedawne badanie wykazało, że kodowanie niewyrównanych twarzy jest trudniejsze niż wyrównanych twarzy. Nieprawidłowe kodowanie twarzy jest szkodliwe dla przenoszenia stylu portretowego, powodując problemy, takie jak zmiana tożsamości i brakujące elementy w zrekonstruowanych i stylizowanych ramkach.
Jak już wspomniano, skuteczna technika przenoszenia portretowego stylu wideo musi radzić sobie z następującymi problemami:
- Aby zachować realistyczne ruchy, podejście musi być w stanie poradzić sobie z nierównymi twarzami i różnymi rozmiarami wideo. Duży rozmiar wideo lub szeroki kąt widzenia może uchwycić więcej informacji, jednocześnie zapobiegając wychodzeniu twarzy z kadru.
- Aby konkurować z powszechnie używanymi obecnie gadżetami HD, niezbędne jest wideo w wysokiej rozdzielczości.
- Elastyczna kontrola stylu powinna być oferowana użytkownikom, aby mogli zmieniać i wybierać swój wybór podczas opracowywania realistycznego systemu interakcji z użytkownikiem.
W tym celu naukowcy sugerują VToonify, nowatorską hybrydową platformę do toonizacji wideo. Aby przezwyciężyć stałe ograniczenie upraw, naukowcy najpierw zbadali równoważność translacji w StyleGAN.
VToonify łączy zalety architektury opartej na StyleGAN i struktury tłumaczenia obrazu, aby osiągnąć regulowany transfer w stylu portretu wideo o wysokiej rozdzielczości.
Oto główne wkłady:
- Naukowcy badają ograniczenie stałego przycinania StyleGAN i proponują rozwiązanie oparte na równoważności translacji.
- Naukowcy prezentują unikalną, w pełni splotną platformę VToonify do kontrolowanego przesyłania filmów portretowych w wysokiej rozdzielczości, która obsługuje niewyrównane twarze i różne rozmiary wideo.
- Badacze konstruują VToonify na szkieletach Toonify i DualStyleGAN i kondensują szkielety zarówno pod względem danych, jak i modelu, aby umożliwić oparty na kolekcji i przykładowy transfer portretowego stylu wideo.
Porównanie Vtoonify z innymi najnowocześniejszymi modelami
Toonify
Służy jako podstawa do przenoszenia stylu opartego na kolekcji na wyrównanych twarzach za pomocą StyleGAN. Aby pobrać kody stylu, badacze muszą wyrównać twarze i przyciąć 256256 zdjęć na PSP. Toonify służy do generowania stylizowanego wyniku z kodami stylu 1024*1024.
Na koniec ponownie dopasowują wynik w filmie do oryginalnej lokalizacji. Niestylizowany obszar został ustawiony na czarny.
DualStyleGAN
Jest to podstawa wzorcowego transferu stylu opartego na StyleGAN. Korzystają z tych samych technik wstępnego i końcowego przetwarzania danych, co Toonify.
Pix2pixHD
Jest to model tłumaczenia obrazu na obraz, który jest powszechnie używany do zagęszczania wstępnie wyszkolonych modeli w celu edycji w wysokiej rozdzielczości. Jest szkolony przy użyciu sparowanych danych.
Badacze wykorzystują pix2pixHD jako dodatkowe dane wejściowe mapy instancji, ponieważ używa wyodrębnionej mapy parsowania.
Projekt pierwszego rzędu
FOM to typowy model animacji obrazu. Został przeszkolony na 256256 obrazach i słabo radzi sobie z obrazami o innych rozmiarach. W rezultacie naukowcy najpierw skalują klatki wideo do 256*256 dla FOM do animacji, a następnie zmieniają rozmiar wyników do ich oryginalnego rozmiaru.
Dla uczciwego porównania, FOM wykorzystuje pierwszą stylizowaną ramę swojego podejścia jako obraz stylu referencyjnego.
DaGAN
Jest to model animacji twarzy 3D. Wykorzystują te same metody przygotowania i przetwarzania danych, co FOM.
Zalety
- Może być stosowany w sztuce, awatarach w mediach społecznościowych, filmach, reklamach rozrywkowych i tak dalej.
- Vtoonify można również wykorzystać w metaverse.
Ograniczenia
- Ta metodologia wyodrębnia zarówno dane, jak i model ze szkieletów opartych na StyleGAN, co skutkuje stronniczością danych i modelu.
- Artefakty są spowodowane głównie różnicami wielkości między stylizowanym obszarem twarzy a pozostałymi sekcjami.
- Ta strategia jest mniej skuteczna, gdy zajmujemy się rzeczami w obszarze twarzy.
Wnioski
Wreszcie, VToonify to platforma do kontrolowanej stylizacji wideo o wysokiej rozdzielczości.
Ta struktura zapewnia doskonałą wydajność w obsłudze filmów i umożliwia szeroką kontrolę nad stylem strukturalnym, stylem koloru i stopniem stylu poprzez kondensację modeli toonizacji obrazu opartych na StyleGAN pod względem zarówno ich dane syntetyczne i struktury sieciowe.
Dodaj komentarz