Innholdsfortegnelse[Gjemme seg][Forestilling]
Hei, visste du at en 3D-scene kan lages fra 2D-datainnganger på sekunder med NVIDIAs Instant NeRF nevrale gjengivelsesmodell, og fotografier av den scenen kan gjengis på millisekunder?
Det er mulig å raskt konvertere en samling stillbilder til et digitalt 3D-miljø ved å bruke teknikken kjent som invers gjengivelse, som gjør at AI kan etterligne hvordan lys fungerer i den faktiske verden.
Det er en av de første modellene i sitt slag som kan kombinere ultrarask nevrale nettverkstrening og rask gjengivelse, takket være en teknikk som NVIDIAs forskningsteam utviklet som fullfører operasjonen utrolig raskt – nesten øyeblikkelig.
Denne artikkelen vil undersøke NVIDIAs NeRF i dybden, inkludert hastighet, brukstilfeller og andre faktorer.
Så, hva er det NeRF?
NeRF står for nevrale utstrålingsfelt, som refererer til en teknikk for å lage unike visninger av kompliserte scener ved å avgrense en underliggende kontinuerlig volumetrisk scenefunksjon ved å bruke et lite antall inngangsvisninger.
Når de får en samling 2D-bilder som input, bruker NVIDIAs NeRFs nevrale nettverk å representere og generere 3D-scener.
Et lite antall bilder fra forskjellige vinkler rundt området er nødvendig for å nevrale nettverket, sammen med plasseringen av kameraet i hver ramme.
Jo raskere disse bildene blir tatt, jo bedre, spesielt i scener med bevegelige skuespillere eller objekter.
Den AI-genererte 3D-scenen vil bli flettet ut hvis det er for mye bevegelse under 2D-bildeopptaksprosedyren.
Ved å forutsi fargen på lys som kommer ut i alle retninger fra et hvilket som helst sted i 3D-miljøet, fyller NeRF effektivt ut hullene etter disse dataene for å konstruere hele bildet.
Siden NeRF kan generere en 3D-scene på et par millisekunder etter å ha mottatt de riktige inngangene, er det den raskeste NeRF-tilnærmingen til dags dato.
NeRF fungerer så raskt at det er praktisk talt øyeblikkelig, derav navnet. Hvis standard 3D-representasjoner som polygonale masker er vektorbilder, er NeRF-er punktgrafikkbilder: de fanger tett måten lyset kommer fra et objekt eller inne i en scene.
Øyeblikkelig NeRF er avgjørende for 3D ettersom digitale kameraer og JPEG-komprimering har vært for 2D-fotografering, noe som dramatisk forbedrer hastigheten, brukervennligheten og rekkevidden til 3D-opptak og -deling.
Instant NeRF kan brukes til å produsere avatarer eller til og med hele scenerier for virtuelle verdener.
For å hylle de tidlige dagene med Polaroid-bilder, gjenskapte NVIDIA Research-teamet et kjent bilde av Andy Warhol som tok et øyeblikkelig bilde og konverterte det til en 3D-scene ved hjelp av Instant NeRF.
Er det virkelig 1,000 ganger raskere?
En 3D-scene kan ta timer å lage før NeRF, avhengig av dens intrikate og kvalitet.
AI fremskyndet prosessen betraktelig, men det kan fortsatt ta timer å trene ordentlig. Ved å bruke en metode kalt multi-resolution hash-koding, utviklet av NVIDIA, reduserer Instant NeRF gjengivelsestiden med en faktor på 1,000.
Tiny CUDA Neural Networks-pakken og NVIDIA CUDA Toolkit ble brukt til å lage modellen. I følge NVIDIA, fordi det er et lett nevralt nettverk, kan det trenes og brukes på en enkelt NVIDIA GPU, med NVIDIA Tensor Core-kort som opererer med de raskeste hastighetene.
Bruk sak
Selvkjørende biler er en av de viktigste bruksområdene for denne teknologien. Disse kjøretøyene opererer i stor grad ved å forestille seg omgivelsene mens de går.
Problemet med dagens teknologi er imidlertid at den er klønete og tar litt for lang tid.
Men ved å bruke Instant NeRF, er alt som kreves for at en selvkjørende bil skal tilnærme/forstå størrelsen og formen på objekter i den virkelige verden, å ta stillbilder, gjøre dem om til 3D og deretter bruke den informasjonen.
Det kan fortsatt være en annen bruk i metaversen eller videospill produksjonsnæringer.
Fordi Instant NeRF lar deg bygge avatarer eller til og med hele virtuelle verdener raskt, er dette sant.
Nesten lite 3D karakter modellering ville være nødvendig fordi alt du trenger å gjøre er å kjøre det nevrale nettverket, og det vil generere en karakter for deg.
I tillegg utforsker NVIDIA fortsatt å bruke denne teknologien for ytterligere maskinlæringsrelaterte applikasjoner.
For eksempel kan det brukes til å oversette språk mer nøyaktig enn tidligere og forbedre det generelle formålet dyp læring algoritmer som nå er i bruk for et bredere spekter av oppgaver.
konklusjonen
Mange grafikkproblemer er avhengige av oppgavespesifikke datastrukturer for å utnytte problemets jevnhet eller sparsomhet.
Det praktiske læringsbaserte alternativet som tilbys av NVIDIAs multi-oppløsnings hash-koding, konsentrerer seg automatisk om relevante detaljer, uavhengig av arbeidsbelastningen.
For å lære mer om hvordan ting fungerer inne, sjekk ut den offisielle GitHub oppbevaringssted.
Legg igjen en kommentar