HumanRF: Revolutionær tilgang til multi-view menneskelig videokodning

Har du nogensinde set en film, spillet et videospil eller brugt virtual reality og bemærket noget ved, hvordan menneskelige karakterer bevægede sig og dukkede op?

At skabe realistiske og detaljerede computergenererede mennesker har længe været et mål for computergrafik og computersynsforskning.

HumanRF projektet er et spændende første skridt hen imod dette mål

HumanRF er en dynamisk neural scenerepræsentation, der bruger multi-view video input til at fange hele kroppens udseende af mennesker i bevægelse. Lad os se, hvad det handler om, og hvad er de potentielle fordele ved denne teknologi.

Humanrf

Optagelse af menneskelig præstation

At skabe fotorealistiske repræsentationer af virtuelle indstillinger har længe været et problem i computer grafik.

Traditionelt har kunstnere genereret 3D-objekter i hånden. Nylige undersøgelser har dog koncentreret sig om at genskabe 3D-repræsentationer fra virkelige data.

Indfangning og syntetisering af realistiske menneskelige præstationer har især været et fokus for undersøgelser til applikationer som filmproduktion, computerspil og telepresence.

Dynamic Neural Radiance Field Advances

I de senere år er der gjort enorme fremskridt med at tackle disse udfordringer gennem brug af dynamiske neurale udstrålingsfelter (NeRF). NeRF er i stand til at rekonstruere 3D-felter kodet i en multi-layer perceptron (MLP), hvilket muliggør nysyntese.

Mens NeRF oprindeligt var fokuseret på statiske scener, har nyere arbejde adresseret dynamiske scener ved hjælp af tidskonditionering eller deformationsfelter. Disse metoder kæmper dog fortsat med længere sekvenser med komplekse bevægelser, især når det kommer til at fange mennesker i bevægelse.

ActorsHQ's Datase

For at afhjælpe disse mangler foreslår fagfolkene ActorsHQ, et nyt datasæt med høj kvalitet af påklædte mennesker i bevægelse, optimeret til fotorealistisk nysyntese. Datasættet indeholder multi-view-optagelser fra 160 synkroniserede kameraer, der hver optager 12-megapixel videostreams.

Dette datasæt giver mulighed for at skabe en ny scenerepræsentation, der udvider Instant-NGP hash-kodninger til det tidsmæssige domæne ved at inkorporere tidsdimensionen sammen med en lav-rang rum-tid tensor-dekomponering af feature-gitteret.

datasæt

Introduktion til HumanRF

HumanRF er en 4D dynamisk neural scenerepræsentation, der fanger hele kroppens bevægelse fra multi-view video input og tillader afspilning fra tidligere usete perspektiver. Det er en teknik til videooptagelse, der fanger en masse data, mens den fylder meget lidt.

Det opnår den ved at nedbryde rum og tid i mindre stykker, svarende til hvordan et Lego-sæt kan skilles ad og samles igen.

HumanRF-teknologi kan fange menneskers bevægelser i en video meget godt, selvom de laver svære eller komplekse bevægelser. Skaberne af denne teknologi demonstrerer HumanRFs effektivitet på det nyligt introducerede ActorsHQ-datasæt, hvilket viser en betydelig forbedring i forhold til eksisterende avancerede metoder.

Unavngivet

Så hvordan var det muligt at skabe HumanRF, og hvad er dets indre funktioner?

Oversigt over HumanRF-metoden

Nedbrydning af 4D Feature Grid

4D-funktionsgitterets dekomponering er en kritisk komponent i HumanRF. Ved at kombinere optimalt opdelte 4D-segmenter modellerer denne metode en dynamisk 3D-scene. Hvert segment har sit eget oplærbare 4D-funktionsgitter, som koder en sekvens af rammer.

For at repræsentere rumlige data mere kompakt er 4D-funktionsgitteret defineret som en dekomponering af fire 3D- og fire 1D-funktionsgitter. Dekomponeringen af 4D-funktionsgitteret hjælper metoden med at producere billeder i høj kvalitet med et højt detaljeringsniveau, mens den fylder mindre.

Adaptiv tidsmæssig opdeling

HumanRF bruger lavvandede flerlagsperceptroner med sparsomme hash-gitter for at gengive vilkårligt lange multi-view data effektivt. Et kompakt 4D-funktionsgitter bruges til at repræsentere de optimalt fordelte tidssegmenter, der udgør tidsdomænet.

Uanset den tidsmæssige kontekst opnår metoden overlegen repræsentationskraft ved at bruge adaptiv tidsmæssig opdeling for at sikre, at det samlede 3D-rumvolumen, der dækkes af hvert segment, er af en lignende størrelse. Uanset hvor lang videoen er, hjælper adaptiv tidsmæssig partitionering med at producere en ensartet repræsentation.

Supervision med 2D-kun tab

Fejlene mellem de renderede og input RGB-billeder og forgrundsmaskerne måles af HumanRF ved hjælp af 2D-kun tab, der overvåges.

Teknikken opnår tidsmæssig konsistens ved hjælp af delte MLP'er og 4D-nedbrydning, og resultaterne ligner meget dem for de bedste segmentstørrelser.

Model 1

Metoden er mere effektiv og enklere at træne end metoder, der bruger 3D-tab, fordi den kun bruger 2D-tab.

Metoden giver resultater, der er overlegne i forhold til andre eksperimentelt testede metoder, hvilket gør den til en lovende strategi til at producere billeder af menneskelige aktører i bevægelse, som er af høj kaliber.

Mulige anvendelsesområder

Forbedring af videospil og Virtual Reality

Real-time virtuel karakter skabelse til videospil og VR-applikationer er mulige med HumanRF. Den menneskelige aktørs bevægelse kan optages fra forskellige vinkler, og dataene kan derefter behandles gennem HumanRF.

Dette tillader spiludviklere at skabe karakterer, der kan bevæge sig og interagere med omgivelserne mere realistisk, hvilket giver spillerne en mere engagerende oplevelse.

Motion Capture i filmproduktion

Ved at producere klare billeder af skuespillernes bevægelse kan HumanRF forbedre motion capture i filmfremstillingsprocessen.

Filmskabere kan skabe en realistisk og dynamisk forestilling, der kan redigeres fra forskellige vinkler ved at bruge flere kameraer til at optage skuespillerens præstation og HumanRF til at producere en 4D-repræsentation.

Dette reducerer behovet for genoptagelser og reducerer produktionsomkostningerne.

Forbedring af virtuelle møder og telekonferencer

Ved at producere 3D-modeller af fjerne deltagere i realtid muliggør HumanRF skabelsen af fordybende og realisme i virtuelle møder.

Deltagere i virtuelle møder kan få en mere interessant og interaktiv oplevelse ved at fange fjerndeltagerens bevægelse fra forskellige vinkler og behandle dataene gennem HumanRF.

Derudover kan HumanRF bruges til at skabe højkvalitetsvisninger af eksterne deltagere under videokonference, hvilket fører til bedre samarbejde og kommunikation.

Facilitering af uddannelse og træning

HumanRF kan bruges til at bygge dynamiske, realistiske simuleringer i trænings- og uddannelsesmiljøer.

Træningssimuleringer, der gør det muligt for praktikanter at øve sig og lære i et mere realistisk og interessant miljø, kan laves ved at registrere bevægelsen af instruktører eller skuespillere, der udfører bestemte opgaver og behandler data gennem HumanRF.

HumanRF kan for eksempel bruges til at udvikle simuleringer til kørsel, flyvning eller medicinsk træning.

Forbedring af sikkerhed og overvågning

I overvågnings- og sikkerhedsapplikationer kan HumanRF bruges til at skabe 3D-modeller af mennesker eller grupper, der er dynamiske og realistiske. Sikkerhedspersonale kan have en mere nøjagtig repræsentation af en persons bevægelser og adfærd ved at fange individers bevægelser fra forskellige synspunkter og behandle dataene gennem HumanRF.

Dette forbedrer identifikation og sporing af potentielle trusler. Sikkerhedspersonale kan øve sig og blive klar til forskellige situationer ved at bruge HumanRF til at skabe simuleringer af nødscenarier.

Afslutning, hvad bringer fremtiden?

HumanRF er en effektiv tilgang til at generere unikke visninger af høj kvalitet af en menneskelig aktør i bevægelse. Det har vist lovende resultater i en række forskellige applikationer, herunder motion capture, virtual reality og telepresence. HumanRF's potentiale er ikke begrænset til disse applikationer; der er flere yderligere mulige anvendelser for denne teknologi.

Det forventes at blive bedre, efterhånden som en undersøgelse i denne sektor udvikler sig og bliver mere effektiv og præcis.

Nye algoritmer og arkitekturer vil næsten helt sikkert føre til mere avancerede måder at modellere og skildre menneskelige aktører i bevægelse på, hvilket kan føre til adskillige interessante fremskridt inden for filmindustri, spil og kommunikation.

Desuden er anvendelsen af deep learning modeller sammen med HumanRF er en potentiel retning for fremtidig undersøgelse. Dette kan føre til mere effektive og effektive menneskelige bevægelsesanalyse og modelleringsteknologier.

Desuden kan en kombination af HumanRF med andre teknologier som haptiske feedback-systemer og augmented reality give anledning til nye anvendelser inden for medicinsk træning, uddannelse og terapi.