Innholdsfortegnelse[Gjemme seg][Forestilling]
Nevral gjengivelse er en fremvoksende teknikk innen dyp læring som tar sikte på å utvide den klassiske pipelinen av datagrafikk med nevrale nettverk.
En nevral gjengivelsesalgoritme vil kreve et sett med bilder som representerer forskjellige vinkler av samme scene. Disse bildene vil deretter bli matet inn i et nevralt nettverk for å lage en modell som kan sende ut nye vinkler av samme scene.
Briljansen bak nevral gjengivelse ligger i hvordan den nøyaktig kan gjenskape detaljerte fotorealistiske scener uten å måtte stole på klassiske metoder som kan være mer beregningskrevende.
Før vi dykker inn i hvordan nevral gjengivelse fungerer, la oss gå over det grunnleggende om klassisk gjengivelse.
Hva er klassisk gjengivelse?
La oss først forstå de typiske metodene som brukes i klassisk gjengivelse.
Klassisk gjengivelse refererer til settet med teknikker som brukes til å lage et 2D-bilde av en tredimensjonal scene. Klassisk gjengivelse, også kjent som bildesyntese, bruker forskjellige algoritmer for å simulere hvordan lys samhandler med forskjellige typer objekter.
For eksempel vil det å gjengi en solid murstein kreve et bestemt sett med algoritmer for å bestemme plasseringen av skyggen eller hvor godt opplyst hver side av veggen vil være. Tilsvarende vil gjenstander som reflekterer eller bryter lys, som et speil, en skinnende gjenstand eller en vannmasse, også kreve sine egne teknikker.
I klassisk gjengivelse er hver ressurs representert med et polygonnett. Et skyggeprogram vil da bruke polygonen som input for å bestemme hvordan objektet vil se ut gitt den angitte belysningen og vinkelen.
Realistisk gjengivelse vil kreve mye mer beregningskraft siden våre eiendeler ender opp med å ha millioner av polygoner å bruke som input. Den datamaskingenererte produksjonen som er vanlig i Hollywood-filmfilmer tar vanligvis uker eller måneder å gjengi og kan koste millioner av dollar.
Strålesporingsmetoden er spesielt kostbar fordi hver piksel i det endelige bildet krever en beregning av banen lyset tar fra lyskilden til objektet og til kameraet.
Fremskritt innen maskinvare har gjort grafikkgjengivelse mye mer tilgjengelig for brukere. For eksempel mange av de siste videospill tillate strålesporede effekter som fotorealistiske refleksjoner og skygger så lenge maskinvaren deres er opp til oppgaven.
De nyeste GPUene (grafiske prosesseringsenheter) er bygget spesielt for å hjelpe CPUen med å håndtere de svært komplekse beregningene som kreves for å gjengi fotorealistisk grafikk.
Fremveksten av nevral gjengivelse
Nevral gjengivelse prøver å takle gjengivelsesproblemet på en annen måte. I stedet for å bruke algoritmer for å simulere hvordan lys samhandler med objekter, hva om vi laget en modell som lærer hvordan en scene skal se ut fra en bestemt vinkel?
Du kan tenke på det som en snarvei til å lage fotorealistiske scener. Med nevral gjengivelse trenger vi ikke å beregne hvordan lys samhandler med et objekt, vi trenger bare nok treningsdata.
Denne tilnærmingen gjør det mulig for forskere å lage høykvalitets gjengivelser av komplekse scener uten å måtte utføre
Hva er nevrale felt?
Som nevnt tidligere bruker de fleste 3D-gjengivelser polygonmasker for å lagre data om formen og teksturen til hvert objekt.
Imidlertid er nevrale felt stadig mer populært som en alternativ metode for å representere tredimensjonale objekter. I motsetning til polygonmasker, er nevrale felt differensierbare og kontinuerlige.
Hva mener vi når vi sier at nevrale felt er differensierbare?
En 2D-utgang fra et nevralt felt kan nå trenes til å bli fotorealistisk ved ganske enkelt å justere vektene til det nevrale nettverket.
Ved å bruke nevrale felt trenger vi ikke lenger å simulere lysets fysikk for å gjengi en scene. Kunnskapen om hvordan den endelige gjengivelsen vil bli opplyst er nå lagret implisitt inne i vektene til vår nevrale nettverket.
Dette lar oss lage nye bilder og videoer relativt raskt fra bare en håndfull bilder eller videoopptak.
Hvordan trene et nevralt felt?
Nå som vi vet det grunnleggende om hvordan et nevralt felt fungerer, la oss ta en titt på hvordan forskere er i stand til å trene et nevralt utstrålingsfelt eller NeRF.
Først må vi prøve de tilfeldige koordinatene til en scene og mate dem inn i et nevralt nettverk. Dette nettverket vil da kunne produsere feltmengder.
De produserte feltmengdene betraktes som prøver fra det ønskede rekonstruksjonsdomenet til scenen vi ønsker å lage.
Vi må deretter kartlegge rekonstruksjonen til faktiske 2D-bilder. En algoritme vil da beregne rekonstruksjonsfeilen. Denne feilen vil lede det nevrale nettverket til å optimalisere dets evne til å rekonstruere scenen.
Anvendelser av nevral gjengivelse
Romansyntese
Ny visningssyntese refererer til oppgaven med å skape kameraperspektiver fra nye vinkler ved å bruke data fra et begrenset antall perspektiver.
Nevrale gjengivelsesteknikker prøver å gjette den relative posisjonen til kameraet for hvert bilde i datasettet og mate disse dataene inn i et nevralt nettverk.
Det nevrale nettverket vil da lage en 3D-representasjon av scenen der hvert punkt i 3D-rommet har en tilhørende farge og tetthet.
En ny implementering av NeRFs i Google Street View bruker ny visningssyntese for å tillate brukere å utforske virkelige steder som om de kontrollerte et kamera som tok en video. Dette lar turister utforske destinasjoner på en oppslukende måte før de bestemmer seg for å reise til et bestemt sted.
Fotorealistiske avatarer
Avanserte teknikker innen nevral gjengivelse kan også bane vei for mer realistiske digitale avatarer. Disse avatarene kan deretter brukes til ulike roller som virtuelle assistenter eller kundeservice, eller som en måte for brukere å sette inn likheten sin i en videospill eller simulert gjengivelse.
For eksempel kan en papir publisert i mars 2023 foreslår å bruke nevrale gjengivelsesteknikker for å lage en fotorealistisk avatar etter noen få minutter med videoopptak.
konklusjonen
Nevral gjengivelse er et spennende fagfelt som har potensial til å endre hele datagrafikkindustrien.
Teknologien kan senke inngangsbarrieren for å lage 3D-ressurser. Visuelle effekter-team trenger kanskje ikke lenger å vente dager for å gjengi noen få minutter med fotorealistisk grafikk.
Å kombinere teknologien med eksisterende VR- og AR-applikasjoner kan også tillate utviklere å skape mer oppslukende opplevelser.
Hva tror du er det sanne potensialet for nevral gjengivelse?
Legg igjen en kommentar