HumanRF: Rewolucyjne podejście do kodowania ludzkiego wideo z wieloma widokami

Czy kiedykolwiek oglądałeś film, grałeś w grę wideo lub korzystałeś z wirtualnej rzeczywistości i zauważyłeś coś niepokojącego w tym, jak poruszają się i pojawiają się postacie ludzkie?

Tworzenie realistycznych i szczegółowych ludzi generowanych komputerowo od dawna jest celem badań grafiki komputerowej i wizji komputerowej.

Połączenia człowiekRF projekt jest ekscytującym pierwszym krokiem w kierunku tego celu

HumanRF to dynamiczna reprezentacja sceny neuronowej, która wykorzystuje wejście wideo z wielu widoków, aby uchwycić wygląd całego ciała człowieka w ruchu. Zobaczmy, o co w tym wszystkim chodzi i jakie są potencjalne korzyści płynące z tej technologii.

człowiek

Uchwycenie ludzkiej wydajności

Tworzenie fotorealistycznych reprezentacji wirtualnych scenerii od dawna stanowi problem Grafika komputerowa.

Tradycyjnie artyści ręcznie tworzyli obiekty 3D. Ostatnie badania koncentrowały się jednak na odtwarzaniu reprezentacji 3D z rzeczywistych danych.

W szczególności przechwytywanie i synteza realistycznych występów ludzkich była przedmiotem badań w zastosowaniach takich jak produkcja filmowa, gry komputerowe i teleobecność.

Dynamiczne postępy pola promieniowania neuronowego

W ostatnich latach poczyniono ogromne postępy w stawianiu czoła tym wyzwaniom poprzez wykorzystanie dynamicznych neuronowych pól promieniowania (NeRF). NeRF jest w stanie zrekonstruować pola 3D zakodowane w wielowarstwowym perceptronie (MLP), umożliwiając syntezę nowatorskich widoków.

Podczas gdy NeRF początkowo koncentrował się na scenach statycznych, nowsze prace dotyczyły scen dynamicznych przy użyciu warunkowania czasu lub pól deformacji. Jednak metody te nadal mają problemy z dłuższymi sekwencjami ze złożonym ruchem, szczególnie jeśli chodzi o uchwycenie poruszających się ludzi.

Baza danych ActorsHQ

Aby zaradzić tym niedociągnięciom, profesjonaliści proponują ActorsHQ, nowy, wysokiej jakości zestaw danych o ubranych ludziach w ruchu, zoptymalizowany pod kątem fotorealistycznej syntezy nowatorskich widoków. Zestaw danych zawiera nagrania z wielu widoków ze 160 zsynchronizowanych kamer, z których każda rejestruje 12-megapikselowe strumienie wideo.

Ten zestaw danych pozwala na utworzenie nowej reprezentacji sceny, która rozszerza kodowanie skrótu Instant-NGP na domenę czasową poprzez włączenie wymiaru czasu wraz z rozkładem tensora czasoprzestrzennego niskiego rzędu siatki cech.

Dataset

Przedstawiamy HumanRF

HumanRF to dynamiczna reprezentacja sceny neuronowej 4D, która rejestruje ruch całego ciała z wejścia wideo z wielu widoków i umożliwia odtwarzanie z wcześniej niewidocznych perspektyw. Jest to technika nagrywania wideo, która przechwytuje dużo danych, zajmując bardzo mało miejsca.

Osiąga to poprzez rozbicie przestrzeni i czasu na mniejsze części, podobnie jak zestaw Lego można rozłożyć i ponownie złożyć.

Technologia HumanRF może bardzo dobrze rejestrować ruchy ludzi na filmie, nawet jeśli wykonują trudne lub złożone ruchy. Twórcy tej technologii demonstrują skuteczność HumanRF na nowo wprowadzonym zbiorze danych ActorsHQ, wykazując znaczną poprawę w stosunku do istniejących najnowocześniejszych metod.

Anonimowy

Jak więc udało się stworzyć HumanRF i jakie są jego wewnętrzne działania?

Przegląd metody HumanRF

Dekompozycja siatki elementów 4D

Dekompozycja siatki cech 4D jest kluczowym elementem HumanRF. Dzięki połączeniu optymalnie podzielonych segmentów 4D metoda ta modeluje dynamiczną scenę 3D. Każdy segment ma własną możliwą do nauczenia siatkę obiektów 4D, która koduje sekwencję klatek.

Aby bardziej zwięźle reprezentować dane czasoprzestrzenne, siatkę obiektów 4D definiuje się jako dekompozycję czterech siatek obiektów 3D i czterech siatek obiektów 1D. Dekompozycja siatki elementów 4D pomaga tej metodzie w tworzeniu wysokiej jakości obrazów o wysokim poziomie szczegółowości, zajmując przy tym mniej miejsca.

Adaptacyjne partycjonowanie czasowe

HumanRF wykorzystuje płytkie, wielowarstwowe perceptrony z rzadkimi siatkami mieszającymi, aby skutecznie renderować dowolnie długie dane z wielu widoków. Kompaktowa siatka obiektów 4D służy do reprezentowania optymalnie rozmieszczonych segmentów czasowych, które tworzą dziedzinę czasu.

Niezależnie od kontekstu czasowego, metoda osiąga wyższą moc reprezentacji dzięki zastosowaniu adaptacyjnego partycjonowania czasowego, aby zapewnić, że całkowita objętość przestrzeni 3D pokryta przez każdy segment ma podobny rozmiar. Niezależnie od tego, jak długi jest film, adaptacyjne partycjonowanie czasowe pomaga w uzyskaniu spójnej reprezentacji.

Nadzór ze stratami tylko w 2D

Błędy między renderowanymi i wejściowymi obrazami RGB oraz maskami pierwszego planu są mierzone przez HumanRF przy użyciu nadzorowanych strat tylko w 2D.

Technika ta zapewnia spójność czasową przy użyciu współdzielonych MLP i dekompozycji 4D, a wyniki są bardzo podobne do wyników uzyskiwanych w przypadku segmentów o najlepszych rozmiarach.

Model 1

Metoda jest bardziej efektywna i prostsza w trenowaniu niż metody wykorzystujące straty 3D, ponieważ wykorzystuje tylko straty 2D.

Metoda daje lepsze wyniki niż inne metody przetestowane eksperymentalnie, co czyni ją obiecującą strategią tworzenia obrazów wysokiego kalibru ludzkich aktorów w ruchu.

Możliwe obszary zastosowania

Ulepszanie gier wideo i rzeczywistości wirtualnej

Tworzenie wirtualnych postaci w czasie rzeczywistym dla gier wideo a aplikacje VR są możliwe dzięki HumanRF. Ruch ludzkiego aktora można rejestrować pod różnymi kątami, a dane mogą być następnie przetwarzane przez HumanRF.

To pozwala twórcy gier tworzyć postacie, które mogą poruszać się i wchodzić w interakcje z otoczeniem w bardziej realistyczny sposób, zapewniając graczom bardziej wciągające wrażenia.

Przechwytywanie ruchu w produkcji filmowej

Tworząc wyraźne obrazy ruchu aktorów, HumanRF może usprawnić przechwytywanie ruchu w procesie filmowania.

Filmowcy mogą stworzyć realistyczne i dynamiczne przedstawienie, które można edytować pod różnymi kątami, używając wielu kamer do rejestrowania występu aktora i HumanRF do tworzenia reprezentacji 4D.

Zmniejsza to potrzebę powtórnych sesji i obniża koszty produkcji.

Usprawnianie wirtualnych spotkań i telekonferencji

Tworząc modele 3D odległych uczestników w czasie rzeczywistym, HumanRF umożliwia tworzenie wciągających i realistycznych spotkań wirtualnych.

Uczestnicy wirtualnych spotkań mogą mieć bardziej interesujące i interaktywne doświadczenie, rejestrując ruch zdalnego uczestnika pod różnymi kątami i przetwarzając dane za pomocą HumanRF.

Dodatkowo HumanRF może być wykorzystany do tworzenia wysokiej jakości widoków zdalnych uczestników podczas wideokonferencje, co prowadzi do lepszej współpracy i komunikacji.

Ułatwianie edukacji i szkoleń

HumanRF można wykorzystać do budowania dynamicznych, realistycznych symulacji w środowiskach szkoleniowych i edukacyjnych.

Symulacje szkoleniowe, które umożliwiają kursantom ćwiczenie i naukę w bardziej realistycznym i interesującym środowisku, można wykonać poprzez rejestrację ruchu instruktorów lub aktorów wykonujących określone zadania i przetwarzanie danych za pomocą HumanRF.

Na przykład HumanRF można wykorzystać do opracowania symulacji jazdy, lotu lub szkolenia medycznego.

Poprawa bezpieczeństwa i nadzoru

W zastosowaniach związanych z monitoringiem i bezpieczeństwem HumanRF może być używany do tworzenia dynamicznych i realistycznych modeli 3D osób lub grup. Personel ochrony może dokładniej odwzorować ruch i zachowanie osoby, rejestrując ruch osób z różnych punktów widzenia i przetwarzając dane za pomocą HumanRF.

Poprawia to identyfikację i śledzenie potencjalnych zagrożeń. Personel ochrony może ćwiczyć i przygotowywać się do różnych sytuacji, używając HumanRF do tworzenia symulacji scenariuszy awaryjnych.

Podsumowanie, Co przyniesie przyszłość?

HumanRF to skuteczne podejście do generowania wysokiej jakości unikalnych widoków poruszającego się człowieka. Zademonstrował obiecujące wyniki w różnych zastosowaniach, w tym w przechwytywaniu ruchu, rzeczywistości wirtualnej i teleobecności. Potencjał HumanRF nie ogranicza się do tych zastosowań; istnieje kilka dodatkowych możliwych zastosowań tej technologii.

Oczekuje się, że będzie się poprawiać wraz z rozwojem badań w tym sektorze, stając się bardziej wydajnymi i precyzyjnymi.

Nowe algorytmy i architektury prawie na pewno doprowadzą do bardziej zaawansowanych sposobów modelowania i przedstawiania ludzkich aktorów w ruchu, co może prowadzić do wielu interesujących postępów w branży kina, gier i komunikacji.

Ponadto zastosowanie modele uczenia głębokiego wraz z HumanRF jest potencjalnym kierunkiem przyszłych badań. Może to prowadzić do skuteczniejszej i wydajniejszej analizy ruchu człowieka i technologii modelowania.

Co więcej, połączenie HumanRF z innymi technologiami, takimi jak dotykowe systemy sprzężenia zwrotnego i rzeczywistość rozszerzona, może dać początek nowym zastosowaniom w szkoleniach medycznych, edukacji i terapii.