La representació neuronal és una tècnica emergent en l'aprenentatge profund que té com a objectiu augmentar el pipeline clàssic de gràfics per ordinador amb xarxes neuronals.
Un algorisme de representació neuronal requerirà un conjunt d'imatges que representin diferents angles de la mateixa escena. Aquestes imatges s'alimentaran a una xarxa neuronal per crear un model que pugui produir nous angles de la mateixa escena.
La brillantor darrere de la representació neuronal rau en com pot recrear amb precisió escenes fotorealistes detallades sense haver de confiar en mètodes clàssics que poden ser més exigents computacionalment.
Abans d'aprofundir en com funciona la representació neuronal, repassem els conceptes bàsics de la representació clàssica.
Què és la representació clàssica?
Primer anem a comprendre els mètodes típics utilitzats en la representació clàssica.
La representació clàssica fa referència al conjunt de tècniques utilitzades per crear una imatge 2D d'una escena tridimensional. També coneguda com a síntesi d'imatges, la representació clàssica utilitza diversos algorismes per simular com la llum interacciona amb diferents tipus d'objectes.
Per exemple, la representació d'un maó sòlid requerirà un conjunt particular d'algorismes per determinar la posició de l'ombra o la il·luminació de cada costat de la paret. De la mateixa manera, els objectes que reflecteixen o refracten la llum, com ara un mirall, un objecte brillant o una massa d'aigua, també requeriran les seves pròpies tècniques.
En la representació clàssica, cada actiu es representa amb una malla poligonal. A continuació, un programa d'ombrejat utilitzarà el polígon com a entrada per determinar com es veurà l'objecte donada la il·luminació i l'angle especificats.
La representació realista requerirà molta més potència de càlcul, ja que els nostres actius acaben tenint milions de polígons per utilitzar com a entrada. La producció generada per ordinador que és habitual a les superproduccions de Hollywood sol trigar setmanes o fins i tot mesos a representar-se i pot costar milions de dòlars.
L'enfocament del traçat de raigs és particularment costós perquè cada píxel de la imatge final requereix un càlcul del camí que fa la llum des de la font de llum fins a l'objecte i la càmera.
Els avenços en el maquinari han fet que la representació gràfica sigui molt més accessible per als usuaris. Per exemple, molts dels últims jocs de vídeo permeten efectes de traçat de raigs, com ara reflexos i ombres fotorealistes, sempre que el seu maquinari estigui a l'alçada de la tasca.
Les últimes GPU (unitats de processament gràfic) estan dissenyades específicament per ajudar la CPU a gestionar els càlculs altament complexos necessaris per generar gràfics fotorealistes.
L'auge de la representació neuronal
La representació neuronal intenta abordar el problema de renderització d'una manera diferent. En lloc d'utilitzar algorismes per simular com la llum interacciona amb els objectes, què passaria si creéssim un model que aprengui com hauria de ser una escena des d'un determinat angle?
Podeu pensar-ho com una drecera per crear escenes fotorealistes. Amb la representació neuronal, no necessitem calcular com la llum interacciona amb un objecte, només necessitem prou dades d'entrenament.
Aquest enfocament permet als investigadors crear renders d'alta qualitat d'escenes complexes sense haver de fer-ho
Què són els camps neuronals?
Com s'ha esmentat anteriorment, la majoria de renderitzacions en 3D utilitzen malles de polígons per emmagatzemar dades sobre la forma i la textura de cada objecte.
Tanmateix, els camps neuronals estan guanyant popularitat com a mètode alternatiu per representar objectes tridimensionals. A diferència de les malles de polígons, els camps neuronals són diferenciables i continus.
Què volem dir quan diem que els camps neuronals són diferenciables?
Ara es pot entrenar una sortida 2D d'un camp neuronal per ser fotorealista simplement ajustant els pesos de la xarxa neuronal.
Utilitzant camps neuronals, ja no necessitem simular la física de la llum per representar una escena. El coneixement de com s'il·luminarà el render final ara s'emmagatzema implícitament dins dels pesos del nostre xarxa neural.
Això ens permet crear imatges i vídeos nous amb relativa rapidesa a partir d'un grapat de fotos o metratges de vídeo.
Com entrenar un camp neuronal?
Ara que sabem els conceptes bàsics de com funciona un camp neuronal, mirem com els investigadors poden entrenar un camp de radiació neuronal o NeRF.
Primer, haurem de provar les coordenades aleatòries d'una escena i alimentar-les a una xarxa neuronal. Aquesta xarxa serà capaç de produir quantitats de camp.
Les quantitats de camp produïdes es consideren mostres del domini de reconstrucció desitjat de l'escena que volem crear.
Aleshores, haurem de mapar la reconstrucció a imatges 2D reals. Aleshores, un algorisme calcularà l'error de reconstrucció. Aquest error guiarà la xarxa neuronal per optimitzar la seva capacitat per reconstruir l'escena.
Aplicacions de la representació neuronal
Novel View Synthesis
La síntesi de visualització nova es refereix a la tasca de crear perspectives de càmera des de nous angles utilitzant dades d'un nombre limitat de perspectives.
Les tècniques de representació neuronal intenten endevinar la posició relativa de la càmera per a cada imatge del conjunt de dades i introduir aquestes dades a una xarxa neuronal.
Aleshores, la xarxa neuronal crearà una representació en 3D de l'escena on cada punt de l'espai 3D té un color i una densitat associats.
Una nova implementació de NeRF a Google Street View utilitza una nova síntesi de visualització per permetre als usuaris explorar ubicacions del món real com si controlessin una càmera fent un vídeo. Això permet als turistes explorar destinacions d'una manera immersiva abans de decidir viatjar a un lloc específic.
Avatars fotorealistes
Les tècniques avançades de representació neuronal també poden obrir el camí per a avatars digitals més realistes. Aquests avatars es poden utilitzar per a diferents rols, com ara assistents virtuals o servei d'atenció al client, o com una manera perquè els usuaris insereixin la seva semblança en un videojocs o renderització simulada.
Per exemple, una paper publicat el març de 2023 suggereix utilitzar tècniques de renderització neuronal per crear un avatar fotorealista després d'uns minuts de gravació de vídeo.
Conclusió
La representació neuronal és un camp d'estudi apassionant que té el potencial de canviar tota la indústria gràfica per ordinador.
La tecnologia podria reduir la barrera d'entrada per a la creació d'actius 3D. És possible que els equips d'efectes visuals ja no hagin d'esperar dies per representar uns quants minuts de gràfics fotorealistes.
La combinació de la tecnologia amb les aplicacions VR i AR existents també pot permetre als desenvolupadors crear experiències més immersives.
Quin creus que és el veritable potencial per a la representació neuronal?
Deixa un comentari