HumanRF: Revoluční přístup k multi-View kódování lidského videa

Sledovali jste někdy film, hráli videohru nebo používali virtuální realitu a všimli jste si něčeho o tom, jak se lidské postavy pohybují a objevují?

Vytváření realistických a detailních počítačově generovaných lidí je již dlouho cílem výzkumu počítačové grafiky a počítačového vidění.

Projekt HumanRF projekt je vzrušujícím prvním krokem k tomuto cíli

HumanRF je dynamická neurální reprezentace scény, která využívá multi-view video vstup k zachycení pohledu celého těla lidí v pohybu. Pojďme se podívat, o co jde a jaké jsou potenciální výhody této technologie.

Humanrf

Zachycení lidského výkonu

Vytváření fotorealistických reprezentací virtuálních nastavení bylo dlouho problémem počítačová grafika.

Tradičně umělci vytvářeli 3D objekty ručně. Nedávné studie se však soustředily na znovuvytvoření 3D reprezentací z reálných dat.

Zejména zachycení a syntéza realistických lidských výkonů bylo předmětem studia aplikací, jako je filmová produkce, počítačové hry a teleprezence.

Pokroky dynamického pole neuronového záření

V posledních letech bylo dosaženo obrovského pokroku při řešení těchto problémů pomocí dynamických polí neuronálního záření (NeRF). NeRF je schopen rekonstruovat 3D pole zakódovaná ve vícevrstvém perceptronu (MLP), což umožňuje syntézu nového pohledu.

Zatímco NeRF se zpočátku zaměřoval na statické scény, novější práce se zabývaly dynamickými scénami pomocí časových podmínek nebo deformačních polí. Tyto metody se však nadále potýkají s delšími sekvencemi se složitým pohybem, zejména pokud jde o zachycení pohybujících se lidí.

Datase společnosti ActorsHQ

K vyřešení těchto nedostatků navrhují profesionálové ActorsHQ, novou vysoce věrnou datovou sadu oděných lidí v pohybu optimalizovanou pro fotorealistickou syntézu nových pohledů. Datový soubor obsahuje multi-view záznamy ze 160 synchronizovaných kamer, z nichž každá zachycuje 12megapixelové video streamy.

Tato datová sada umožňuje vytvoření nové reprezentace scény, která rozšiřuje kódování hash Instant-NGP do časové domény začleněním časové dimenze spolu s rozkladem tenzoru časoprostoru na nízké úrovni mřížky prvků.

Dataset

Představujeme HumanRF

HumanRF je 4D dynamická neurální reprezentace scény, která zachycuje pohyb celého těla z vícepohledového video vstupu a umožňuje přehrávání z dříve neviděných perspektiv. Je to technika pro nahrávání videa, která zachycuje velké množství dat a přitom zabírá velmi málo místa.

Dosahuje toho rozdělením prostoru a času na menší kousky, podobně jako se dá rozložit a znovu složit Lego sada.

Technologie HumanRF dokáže velmi dobře zachytit pohyby lidí na videu, i když provádějí obtížné nebo složité pohyby. Tvůrci této technologie demonstrují efektivitu HumanRF na nově představené datové sadě ActorsHQ a demonstrují tak výrazné zlepšení oproti stávajícím nejmodernějším metodám.

Bezejmený

Jak tedy bylo možné vytvořit HumanRF a jaké jsou jeho vnitřní fungování?

Přehled metody HumanRF

Rozklad 4D mřížky prvků

Rozložení 4D mřížky je kritickou součástí HumanRF. Kombinací optimálně rozdělených 4D segmentů tato metoda modeluje dynamickou 3D scénu. Každý segment má svou vlastní trénovatelnou mřížku 4D prvků, která kóduje sekvenci snímků.

Pro kompaktnější reprezentaci časoprostorových dat je mřížka 4D prvků definována jako rozklad čtyř 3D a čtyř 1D mřížek prvků. Funkce 4D rozložení mřížky napomáhá této metodě při vytváření vysoce kvalitních snímků s vysokou úrovní detailů, přičemž zabírá méně místa.

Adaptivní dočasné rozdělení

HumanRF používá mělké vícevrstvé perceptrony s řídkými hash-gridy funkcí k efektivnímu vykreslování libovolně dlouhých dat z více pohledů. Kompaktní mřížka 4D prvků se používá k reprezentaci optimálně rozložených časových segmentů, které tvoří časovou doménu.

Bez ohledu na časový kontext, metoda dosahuje vynikající reprezentační schopnosti pomocí adaptivního časového rozdělení, aby bylo zajištěno, že celkový objem 3D prostoru pokrytý každým segmentem bude mít podobnou velikost. Bez ohledu na to, jak je video dlouhé, adaptivní časové rozdělení pomáhá při vytváření konzistentní reprezentace.

Dohled se ztrátami pouze ve 2D

Chyby mezi vykreslenými a vstupními RGB obrazy a maskami popředí jsou měřeny pomocí HumanRF pomocí pouze 2D ztrát, které jsou pod dohledem.

Technika dosahuje časové konzistence pomocí sdílených MLP a 4D rozkladu a výsledky jsou velmi podobné výsledkům nejlepších velikostí segmentů.

Model 1

Metoda je efektivnější a jednodušší na trénování než metody využívající 3D ztráty, protože využívá pouze 2D ztráty.

Tato metoda poskytuje výsledky, které jsou lepší než výsledky jiných experimentálně testovaných metod, což z ní činí slibnou strategii pro vytváření obrazů lidských aktérů v pohybu, které jsou vysokého kalibru.

Možné oblasti použití

Vylepšení videoher a virtuální reality

Tvorba virtuální postavy v reálném čase pro videohry a VR aplikace jsou možné s HumanRF. Pohyb lidského aktéra lze zaznamenat z různých úhlů a data pak zpracovat pomocí HumanRF.

To dovoluje vývojáři her vytvářet postavy, které se mohou pohybovat a interagovat s prostředím realističtěji, což hráčům poskytuje poutavější zážitek.

Zachycování pohybu ve filmové produkci

Produkcí jasných snímků pohybu herců může HumanRF zlepšit zachycení pohybu v procesu filmování.

Filmaři mohou vytvořit realistické a dynamické představení, které lze sestříhat z různých úhlů pomocí několika kamer pro záznam hereckého výkonu a pomocí HumanRF pro vytvoření 4D reprezentace.

To snižuje potřebu přestřelování a snižuje výrobní náklady.

Vylepšení virtuálních schůzek a telekonferencí

Produkcí 3D modelů vzdálených účastníků v reálném čase umožňuje HumanRF vytvářet pohlcující a realistické virtuální setkání.

Účastníci virtuálních setkání mohou mít zajímavější a interaktivnější zážitek díky zachycení pohybu vzdáleného účastníka z různých úhlů a zpracování dat pomocí HumanRF.

HumanRF lze navíc použít k vytvoření vysoce kvalitních pohledů na vzdálené účastníky během video konference, což vede k lepší spolupráci a komunikaci.

Usnadnění vzdělávání a školení

HumanRF lze použít k vytváření dynamických, realistických simulací v tréninkových a vzdělávacích prostředích.

Tréninkové simulace, které účastníkům umožní cvičit a učit se v realističtějším a zajímavějším prostředí, lze provádět záznamem pohybu instruktorů nebo aktérů provádějících konkrétní úkoly a zpracováním dat prostřednictvím HumanRF.

HumanRF lze například použít k vývoji simulací pro řízení, let nebo lékařský výcvik.

Posílení zabezpečení a dohledu

V dohledových a bezpečnostních aplikacích lze HumanRF použít k vytvoření 3D modelů lidí nebo skupin, které jsou dynamické a realistické. Bezpečnostní pracovníci mohou mít přesnější představu o pohybu a chování osoby tím, že zachytí pohyb jednotlivců z různých úhlů pohledu a zpracují data prostřednictvím HumanRF.

To zlepšuje identifikaci a sledování potenciálních hrozeb. Bezpečnostní pracovníci si mohou procvičit a připravit se na různé situace pomocí HumanRF k vytvoření simulací nouzových scénářů.

Shrnutí, co přinese budoucnost?

HumanRF je efektivní přístup pro generování vysoce kvalitních jedinečných pohledů na pohybujícího se lidského herce. Prokázal slibné výsledky v různých aplikacích, včetně snímání pohybu, virtuální reality a teleprezence. Potenciál HumanRF není omezen na tyto aplikace; existuje několik dalších možných aplikací pro tuto technologii.

Očekává se, že se bude zlepšovat, jak se bude studie v tomto odvětví rozvíjet, bude efektivnější a přesnější.

Nové algoritmy a architektury téměř jistě povedou k pokročilejším způsobům modelování a zobrazování lidských herců v pohybu, což může vést k mnoha zajímavým pokrokům v odvětví kinematografie, her a komunikace.

Kromě toho použití modely hlubokého učení spolu s HumanRF je potenciální směr pro budoucí studium. To by mohlo vést k efektivnější a účinnější analýze lidského pohybu a technologiím modelování.

Kromě toho by spojení HumanRF s dalšími technologiemi, jako jsou systémy haptické zpětné vazby a rozšířená realita, mohlo dát vzniknout novým aplikacím v lékařském výcviku, vzdělávání a terapii.