Innehållsförteckning[Dölj][Visa]
Hej, visste du att en 3D-scen kan skapas från 2D-dataingångar på några sekunder med NVIDIAs Instant NeRF neurala renderingsmodell, och fotografier av den scenen kan renderas på millisekunder?
Det är möjligt att snabbt konvertera en samling stillbilder till en digital 3D-miljö med tekniken som kallas invers rendering, vilket gör att AI kan efterlikna hur ljus fungerar i den verkliga världen.
Det är en av de första modellerna i sitt slag som kan kombinera ultrasnabb neurala nätverksträning och snabb rendering, tack vare en teknik som NVIDIAs forskargrupp tagit fram som slutför operationen otroligt snabbt – nästan omedelbart.
Den här artikeln kommer att undersöka NVIDIAs NeRF på djupet, inklusive dess hastighet, användningsfall och andra faktorer.
Så, vad är det NeRF?
NeRF står för neural radiance fields, vilket hänvisar till en teknik för att skapa unika vyer av komplicerade scener genom att förfina en underliggande kontinuerlig volymetrisk scenfunktion med ett litet antal ingångsvyer.
När de ges en samling 2D-foton som indata använder NVIDIAs NeRFs neurala nätverk för att representera och generera 3D-scener.
Ett litet antal bilder från olika vinklar runt området behövs för att neurala nätverk, tillsammans med kamerans placering i varje bildruta.
Ju tidigare dessa bilder tas, desto bättre, särskilt i scener med rörliga skådespelare eller föremål.
Den AI-genererade 3D-scenen kommer att fläckas ut om det blir för mycket rörelse under 2D-bildtagningen.
Genom att förutsäga färgen på ljus som emanerar i alla riktningar från vilken plats som helst i 3D-miljön, fyller NeRF effektivt i luckorna som lämnas av dessa data för att konstruera hela bilden.
Eftersom NeRF kan generera en 3D-scen på ett par millisekunder efter att ha mottagit rätt indata, är det den snabbaste NeRF-metoden hittills.
NeRF fungerar så snabbt att det är praktiskt taget omedelbart, därav dess namn. Om vanliga 3D-representationer som polygonala nät är vektorbilder, är NeRFs bitmappsbilder: de fångar tätt hur ljuset kommer från ett objekt eller inuti en scen.
Omedelbar NeRF är avgörande för 3D eftersom digitalkameror och JPEG-komprimering har varit för 2D-fotografering, vilket dramatiskt förbättrar hastigheten, bekvämligheten och räckvidden för 3D-infångning och delning.
Instant NeRF kan användas för att producera avatarer eller till och med hela scenerier för virtuella världar.
För att hylla Polaroid-bildernas tidiga dagar återskapade NVIDIA Research-teamet en berömd bild av Andy Warhol som tog ett ögonblicksfoto och konverterade det till en 3D-scen med hjälp av Instant NeRF.
Är det verkligen 1,000 XNUMX gånger snabbare?
En 3D-scen kan ta timmar att skapa innan NeRF, beroende på dess invecklade och kvalitet.
AI påskyndade processen avsevärt, men det kan fortfarande ta timmar att träna ordentligt. Genom att använda en metod som kallas multi-resolution hash-kodning, banbrytande av NVIDIA, minskar Instant NeRF renderingstiderna med en faktor 1,000 XNUMX.
Paketet Tiny CUDA Neural Networks och NVIDIA CUDA Toolkit användes för att skapa modellen. Enligt NVIDIA, eftersom det är ett lätt neuralt nätverk, kan det tränas och användas på en enda NVIDIA GPU, med NVIDIA Tensor Core-kort som fungerar med de snabbaste hastigheterna.
Användningsfall
Självkörande bilar är en av de viktigaste tillämpningarna av denna teknik. Dessa fordon fungerar till stor del genom att föreställa sig sin omgivning medan de går.
Problemet med dagens teknik är dock att den är klumpig och tar lite för lång tid.
Men med hjälp av Instant NeRF är allt som krävs för att en självkörande bil ska uppskatta/förstå storleken och formen på verkliga objekt att ta stillbilder, förvandla dem till 3D och sedan använda den informationen.
Det kan fortfarande finnas en annan användning i metaversen eller videospel produktionsindustrier.
Eftersom Instant NeRF låter dig bygga avatarer eller till och med hela virtuella världar snabbt, är detta sant.
Nästan lite 3D karaktär modellering skulle krävas eftersom allt du behöver göra är att köra det neurala nätverket, och det skulle generera en karaktär åt dig.
Dessutom undersöker NVIDIA fortfarande att tillämpa denna teknik för ytterligare maskininlärningsrelaterade applikationer.
Det kan till exempel användas för att översätta språk mer exakt än tidigare och förbättra det allmänna syftet djupt lärande algoritmer som nu används för ett större antal uppgifter.
Slutsats
Många grafikproblem förlitar sig på uppgiftsspecifika datastrukturer för att utnyttja problemets smidighet eller gleshet.
Det praktiska inlärningsbaserade alternativet som erbjuds av NVIDIAs hashkodning med flera upplösningar koncentreras automatiskt på relevanta detaljer, oavsett arbetsbelastningen.
För att lära dig mer om hur saker fungerar inuti, kolla in tjänstemannen GitHub förvaret.
Kommentera uppropet