A renderización neuronal é unha técnica emerxente na aprendizaxe profunda que ten como obxectivo aumentar o pipeline clásico de gráficos por ordenador con redes neuronais.
Un algoritmo de renderizado neuronal requirirá un conxunto de imaxes que representen diferentes ángulos da mesma escena. Estas imaxes serán entón introducidas nunha rede neuronal para crear un modelo que poida emitir novos ángulos da mesma escena.
A brillantez detrás da representación neuronal reside en como pode recrear con precisión escenas fotorrealistas detalladas sen ter que depender de métodos clásicos que poden ser máis esixentes computacionalmente.
Antes de analizar como funciona a representación neuronal, repasemos os conceptos básicos da representación clásica.
Que é a representación clásica?
Imos primeiro comprender os métodos típicos utilizados na representación clásica.
A representación clásica refírese ao conxunto de técnicas utilizadas para crear unha imaxe 2D dunha escena tridimensional. Tamén coñecida como síntese de imaxes, a representación clásica usa varios algoritmos para simular como a luz interactúa con diferentes tipos de obxectos.
Por exemplo, renderizar un ladrillo sólido requirirá un conxunto particular de algoritmos para determinar a posición da sombra ou o ben iluminado que estará cada lado da parede. Do mesmo xeito, os obxectos que reflicten ou refractan a luz, como un espello, un obxecto brillante ou un corpo de auga, tamén necesitarán as súas propias técnicas.
Na representación clásica, cada activo represéntase cunha malla poligonal. A continuación, un programa de sombreado usará o polígono como entrada para determinar como se verá o obxecto dada a iluminación e o ángulo especificados.
A representación realista requirirá moito máis poder de cálculo xa que os nosos activos acaban tendo millóns de polígonos para usar como entrada. A produción xerada por ordenador que é común nos éxitos de taquilla de Hollywood adoita tardar semanas ou mesmo meses en renderse e pode custar millóns de dólares.
O enfoque de trazado de raios é particularmente custoso porque cada píxel da imaxe final require un cálculo do camiño que fai a luz desde a fonte de luz ata o obxecto e a cámara.
Os avances no hardware fixeron que a representación gráfica sexa moito máis accesible para os usuarios. Por exemplo, moitos dos últimos videoxogos permiten efectos de trazado de raios como reflexos e sombras fotorrealistas sempre que o seu hardware estea á altura da tarefa.
As GPU (unidades de procesamento gráfico) máis recentes están construídas especificamente para axudar á CPU a manexar os cálculos altamente complexos necesarios para facer gráficos fotorrealistas.
O ascenso da representación neuronal
A renderización neuronal tenta abordar o problema de renderización dun xeito diferente. En lugar de usar algoritmos para simular como a luz interactúa cos obxectos, e se creamos un modelo que aprenda como debe verse unha escena desde un determinado ángulo?
Podes pensar nel como un atallo para crear escenas fotorrealistas. Coa representación neuronal, non necesitamos calcular como interactúa a luz cun obxecto, só necesitamos suficientes datos de adestramento.
Este enfoque permite aos investigadores crear representacións de alta calidade de escenas complexas sen ter que realizar
Que son os campos neuronais?
Como se mencionou anteriormente, a maioría dos renders 3D usan mallas de polígonos para almacenar datos sobre a forma e a textura de cada obxecto.
Non obstante, os campos neuronais están gañando popularidade como método alternativo para representar obxectos tridimensionais. A diferenza das mallas poligonales, os campos neuronais son diferenciables e continuos.
A que nos referimos cando dicimos que os campos neuronais son diferenciables?
Agora pódese adestrar unha saída en 2D dun campo neuronal para facerse fotorrealista simplemente axustando os pesos da rede neuronal.
Usando campos neuronais, xa non necesitamos simular a física da luz para representar unha escena. O coñecemento de como se iluminará o render final agora almacénase implicitamente dentro dos pesos do noso rede neural.
Isto permítenos crear imaxes e vídeos novedosos con relativa rapidez a partir dun puñado de fotos ou vídeos.
Como adestrar un campo neuronal?
Agora que coñecemos os conceptos básicos de como funciona un campo neural, vexamos como os investigadores son capaces de adestrar un campo de radiación neural ou NeRF.
En primeiro lugar, necesitaremos probar as coordenadas aleatorias dunha escena e alimentalas nunha rede neuronal. Esta rede poderá entón producir cantidades de campo.
As cantidades de campo producidas considéranse mostras do dominio de reconstrución desexado da escena que queremos crear.
A continuación, necesitaremos mapear a reconstrución a imaxes 2D reais. A continuación, un algoritmo calculará o erro de reconstrución. Este erro guiará a rede neuronal para optimizar a súa capacidade para reconstruír a escena.
Aplicacións da representación neuronal
Novel View Synthesis
A nova síntese de vista refírese á tarefa de crear perspectivas de cámara desde novos ángulos utilizando datos dun número limitado de perspectivas.
As técnicas de renderizado neuronal tentan adiviñar a posición relativa da cámara para cada imaxe do conxunto de datos e alimentar eses datos a unha rede neuronal.
A rede neuronal creará entón unha representación 3D da escena onde cada punto do espazo 3D teña unha cor e unha densidade asociadas.
Unha nova implementación de NeRFs en Google Street View usa unha nova síntese de vista para permitir aos usuarios explorar localizacións do mundo real coma se controlasen unha cámara facendo un vídeo. Isto permite aos turistas explorar destinos de forma inmersiva antes de decidir viaxar a un sitio específico.
Avatares fotorrealistas
As técnicas avanzadas de renderización neuronal tamén poden abrir o camiño para avatares dixitais máis realistas. Despois, estes avatares pódense usar para varios roles, como asistentes virtuais ou atención ao cliente, ou como unha forma de que os usuarios insiran a súa semellanza nun vídeo-game ou render simulado.
Por exemplo, un papel publicado en marzo de 2023 suxire usar técnicas de renderizado neuronal para crear un avatar fotorrealista despois duns minutos de imaxes de vídeo.
Conclusión
A representación neuronal é un campo de estudo emocionante que ten o potencial de cambiar toda a industria dos gráficos por ordenador.
A tecnoloxía podería reducir a barreira de entrada para a creación de activos 3D. É posible que os equipos de efectos visuais xa non teñan que esperar días para renderizar uns minutos de gráficos fotorrealistas.
A combinación da tecnoloxía coas aplicacións existentes de VR e AR tamén pode permitir aos desenvolvedores crear experiencias máis inmersivas.
Cal cres que é o verdadeiro potencial para a representación neuronal?
Deixe unha resposta