HumanRF: Forradalmi megközelítés a többnézetű emberi videokódoláshoz

Néztél már valaha filmet, játszottál videojátékkal vagy használtad a virtuális valóságot, és észrevettél valamit az emberi karakterek mozgásával és megjelenésével kapcsolatban?

Valósághű és részletes, számítógéppel generált emberek létrehozása régóta a számítógépes grafika és a számítógépes látáskutatás célja.

A HumanRF projekt egy izgalmas első lépés e cél felé

A HumanRF egy dinamikus neurális jelenetábrázolás, amely többnézetű videobemenetet használ a mozgásban lévő emberek teljes testének megörökítésére. Nézzük meg, miről is van szó, és mik a lehetséges előnyei ennek a technológiának.

Humanrf

Az emberi teljesítmény rögzítése

A virtuális beállítások fotorealisztikus megjelenítése régóta probléma számítógépes grafika.

Hagyományosan a művészek kézzel készítettek 3D-s objektumokat. A legújabb tanulmányok azonban a 3D-s ábrázolások valós adatokból való újraalkotására összpontosítottak.

Különösen a valósághű emberi teljesítmények rögzítése és szintetizálása állt a kutatások középpontjában olyan alkalmazások esetében, mint a filmgyártás, a számítógépes játékok és a távjelenlét.

A dinamikus neurális sugárzási mező előrehaladása

Az elmúlt években óriási előrelépés történt e kihívások kezelésében a dinamikus neurális sugárzási mezők (NeRF) használatával. A NeRF képes rekonstruálni a többrétegű perceptronban (MLP) kódolt 3D mezőket, lehetővé téve az újszerű szintézist.

Míg a NeRF kezdetben a statikus jelenetekre összpontosított, az újabb munkák a dinamikus jelenetekkel foglalkoztak időkondicionáló vagy deformációs mezők használatával. Ezek a módszerek azonban továbbra is megküzdenek a hosszabb, összetett mozgású sorozatokkal, különösen, ha mozgó emberek rögzítéséről van szó.

Az ActorsHQ adatbázisa

E hibák kiküszöbölésére a szakemberek az ActorsHQ-t javasolják, amely egy új, nagy pontosságú adatkészlet mozgó öltözött emberekről, fotorealisztikus, újszerű nézetszintézisre optimalizálva. Az adatkészlet 160 szinkronizált kamera többnézetű felvételeit tartalmazza, amelyek mindegyike 12 megapixeles videofolyamot rögzít.

Ez az adatkészlet lehetővé teszi egy új jelenetábrázolás létrehozását, amely kiterjeszti az Instant-NGP hash kódolást az időbeli tartományra az idődimenzió és a jellemzőrács alacsony rangú tér-idő tenzor felbontása mellett.

adatbázisba

Bemutatkozik a HumanRF

A HumanRF egy 4D dinamikus neurális jelenetábrázolás, amely a teljes test mozgását rögzíti a többnézetű videobemenetről, és lehetővé teszi a lejátszást korábban nem látott perspektívákból. Ez egy olyan videórögzítési technika, amely sok adatot rögzít, miközben nagyon kevés helyet foglal.

Ezt úgy éri el, hogy a teret és az időt kisebb darabokra bontja, hasonlóan ahhoz, ahogy egy Lego készletet szét- és újra össze lehet szerelni.

A HumanRF technológia nagyon jól képes rögzíteni az emberek mozgását videón, még akkor is, ha nehéz vagy összetett mozgásokat végeznek. Ennek a technológiának a megalkotói az újonnan bevezetett ActorsHQ adatkészleten demonstrálják a HumanRF hatékonyságát, jelentős előrelépést bizonyítva a meglévő, legmodernebb módszerekhez képest.

Névtelen

Tehát hogyan lehetett létrehozni a HumanRF-et, és mi a belső működése?

A HumanRF módszer áttekintése

A 4D jellemzőrács felbontása

A 4D jellemző rács felbontása a HumanRF kritikus összetevője. Az optimálisan felosztott 4D szegmensek kombinálásával ez a módszer dinamikus 3D jelenetet modellez. Minden szegmensnek megvan a maga betanítható 4D-s jellemzőhálója, amely egy képkockát kódol.

A térbeli és időbeli adatok kompaktabb megjelenítése érdekében a 4D jellemzőrács négy 3D és négy 1D jellemzőrács felosztásaként van meghatározva. A 4D jellemző rácsfelbontása segíti a módszert a kiváló minőségű, részletgazdag képek készítésében, miközben kevesebb helyet foglal.

Adaptív időbeli particionálás

A HumanRF sekély többrétegű perceptronokat használ ritka jellemző hash-rácsokkal, hogy tetszőlegesen hosszú, többnézetű adatokat hatékonyan jelenítsen meg. Egy kompakt 4D jellemzőrácsot használnak az időtartományt alkotó, optimálisan elosztott időbeli szegmensek ábrázolására.

Az időbeli kontextustól függetlenül a módszer kiváló reprezentációs teljesítményt ér el az adaptív időbeli particionálás használatával, amely biztosítja, hogy az egyes szegmensek által lefedett teljes 3D tértérfogat hasonló méretű legyen. Nem számít, milyen hosszú a videó, az adaptív időbeli particionálás elősegíti a konzisztens megjelenítést.

Felügyelet csak 2D-s veszteségekkel

A renderelt és a bemeneti RGB-képek és az előtér-maszkok közötti hibákat a HumanRF méri a csak 2D-s veszteségek felhasználásával, amelyeket felügyelnek.

A technika időbeli konzisztenciát ér el megosztott MLP-k és 4D-s lebontás segítségével, és az eredmények nagyon hasonlóak a legjobb szegmensméretek eredményeihez.

Model 1

A módszer hatékonyabb és egyszerűbben betanítható, mint a 3D veszteséget használó módszerek, mert csak 2D veszteségeket használ.

A módszer a többi kísérletileg tesztelt módszernél jobb eredményeket produkál, így ígéretes stratégia a mozgásban lévő emberi szereplőkről készült, nagy kaliberű képek előállítására.

Lehetséges felhasználási területek

A videojátékok és a virtuális valóság fejlesztése

Valós idejű virtuális karakter készítés ehhez videojátékok és VR alkalmazások is lehetségesek a HumanRF segítségével. Az emberi szereplő mozgása különböző szögekből rögzíthető, majd az adatok feldolgozhatók a HumanRF-en keresztül.

Ez lehetővé teszi játékfejlesztők olyan karakterek létrehozásához, amelyek valósághűbben tudnak mozogni és interakcióba lépni a környezettel, így a játékosok vonzóbb élményt nyújtanak.

Mozgásrögzítés a filmgyártásban

Azáltal, hogy tiszta képeket készít a színészek mozgásáról, a HumanRF javíthatja a mozgásrögzítést a filmkészítési folyamatban.

A filmesek valósághű és dinamikus előadást hozhatnak létre, amely különböző szögekből szerkeszthető, ha több kamerát használnak a színész teljesítményének rögzítésére, a HumanRF-et pedig 4D-s ábrázolás készítésére.

Ez csökkenti az újrafelvételek szükségességét és csökkenti a gyártási költségeket.

A virtuális találkozók és telekonferenciák bővítése

A távoli résztvevők valós idejű 3D-s modelljeinek előállításával a HumanRF lehetővé teszi a magával ragadó és valósághű virtuális találkozók létrehozását.

A virtuális értekezletek résztvevői érdekesebb és interaktívabb élményben részesülhetnek, ha a távoli résztvevő mozgását különböző szögekből rögzítik, és feldolgozzák az adatokat a HumanRF-en keresztül.

Ezenkívül a HumanRF segítségével kiváló minőségű nézeteket hozhat létre a távoli résztvevőkről videókonferenciázás, ami jobb együttműködést és kommunikációt eredményez.

Az oktatás és képzés elősegítése

A HumanRF használható dinamikus, valósághű szimulációk készítésére képzési és oktatási környezetben.

Olyan képzési szimulációk készíthetők, amelyek lehetővé teszik a gyakornokok számára, hogy valósághűbb és érdekesebb környezetben gyakoroljanak és tanuljanak, ha rögzítik az oktatók vagy szereplők mozgását, akik meghatározott feladatokat végeznek, és feldolgozzák az adatokat a HumanRF-en keresztül.

A HumanRF például felhasználható vezetési, repülési vagy orvosi képzési szimulációk kifejlesztésére.

A biztonság és a felügyelet fokozása

A felügyeleti és biztonsági alkalmazásokban a HumanRF segítségével dinamikus és valósághű 3D modellek hozhatók létre emberekről vagy csoportokról. A biztonsági személyzet pontosabban ábrázolhatja egy személy mozgását és viselkedését, ha különféle nézőpontokból rögzíti az egyének mozgását, és feldolgozza az adatokat a HumanRF-en keresztül.

Ez javítja a lehetséges fenyegetések azonosítását és nyomon követését. A biztonsági személyzet gyakorolhat és felkészülhet a különféle helyzetekre a HumanRF segítségével vészhelyzeti forgatókönyvek szimulációinak létrehozására.

Összefoglalva, mit hoz a jövő?

A HumanRF egy hatékony megközelítés a mozgó emberi szereplőről alkotott kiváló minőségű egyedi nézet létrehozására. Ígéretes eredményeket mutatott be számos alkalmazásban, beleértve a mozgásrögzítést, a virtuális valóságot és a távjelenlétet. A HumanRF lehetőségei nem korlátozódnak ezekre az alkalmazásokra; ennek a technológiának számos további lehetséges alkalmazása van.

Várhatóan javulni fog, ahogy az ebben az ágazatban végzett tanulmány fejlődik, egyre hatékonyabb és pontosabb lesz.

Az új algoritmusok és architektúrák szinte bizonyosan fejlettebb módszerekhez vezetnek a mozgásban lévő emberi szereplők modellezésére és ábrázolására, ami számos érdekes előrelépéshez vezethet a mozi, a játék és a kommunikáció területén.

Továbbá a mély tanulási modellek a HumanRF-vel együtt egy lehetséges irány a jövőbeni tanulmányokhoz. Ez hatékonyabb és hatékonyabb emberi mozgáselemzési és modellezési technológiákhoz vezethet.

Ezenkívül a HumanRF kombinálása más technológiákkal, mint például a haptikus visszacsatolási rendszerekkel és a kiterjesztett valósággal, új alkalmazásokhoz vezethet az orvosi képzésben, oktatásban és terápiában.