Quizais escoitastes falar sobre o poderoso que se converteron os modelos de IA de texto a imaxe nos últimos dous anos. Pero sabías que a mesma tecnoloxía podería axudar a dar o salto do 2D ao 3D?
Os modelos 3D xerados pola IA teñen un amplo caso de uso no panorama dixital actual. Videoxogos e as películas dependen de artistas 3D expertos e de software de modelado como Blender para crear recursos 3D para poboar escenas xeradas por ordenador.
Non obstante, é posible que a industria poida usar a aprendizaxe automática para crear activos 3D con menos esforzo, de xeito similar a como os artistas 2D hoxe comezan a adoptar tecnoloxías como DALL-E e DALL-E. Media viaxe?
Este artigo explorará un algoritmo novedoso que tenta crear un modelo eficaz de texto a 3D utilizando os existentes modelos de difusión.
O que é Dreamfusion?
Un problema importante coa creación dun modelo de difusión que xere recursos 3D directamente é que simplemente non hai moitos datos 3D dispoñibles. Os modelos de difusión 2D volvéronse tan poderosos debido ao gran conxunto de datos de imaxes que se atopan en internet. Non se pode dicir o mesmo cos recursos 3D.
Algunhas técnicas xerativas 3D solucionan esta falta de datos aproveitando esta abundancia de datos 2D.
DreamFusion é un modelo xerativo que pode crear modelos 3D baseados nunha descrición de texto proporcionada. O modelo DreamFusion usa un modelo de difusión de texto a imaxe previamente adestrado para xerar modelos tridimensionais realistas a partir de indicacións de texto.
A pesar de non ter datos de adestramento en 3D, este enfoque xerou activos 3D coherentes cunha aparencia e profundidade de alta fidelidade.
Como funciona isto?
O algoritmo DreamFusion consta de dous modelos principais: un modelo de difusión 2D e un rede neural que pode converter imaxes 2D nunha escena 3D cohesionada.
Modelo de texto a imaxe de Google Image
A primeira parte do algoritmo é o modelo de difusión. Este modelo encárgase de converter texto en imaxes.
Imaxe é un modelo de difusión que pode xerar unha gran mostra de variacións de imaxe dun obxecto concreto. Neste caso, as nosas variacións de imaxe deberían cubrir todos os ángulos posibles do obxecto proporcionado. Por exemplo, se quixeramos xerar un modelo 3D dun cabalo, queremos imaxes en 2D do cabalo desde todos os ángulos posibles. O obxectivo é utilizar Imagen para proporcionar a maior cantidade de información posible (cores, reflexos, densidade) para o seguinte modelo do noso algoritmo.
Creación de modelos 3D con NeRF
A continuación, Dreamfusion utiliza un modelo coñecido como a Campo de radiación neural ou NeRF para crear realmente o modelo 3D a partir do conxunto de imaxes xeradas. Os NeRF son capaces de crear escenas 3D complexas dado un conxunto de datos de imaxes 2D.
Intentemos entender como funciona un NeRF.
O modelo pretende crear unha función de escena volumétrica continua optimizada a partir do conxunto de datos proporcionado de imaxes 2D.
Se o modelo crea unha función, cales son a entrada e a saída?
A función de escena toma como entrada unha localización 3D e unha dirección de visualización 2D. A función saíu entón unha cor (en forma de RGB) e unha densidade de volume específica.
Para xerar unha imaxe 2D desde un punto de vista específico, o modelo xerará un conxunto de puntos 3D e executará eses puntos a través da función de escena para devolver un conxunto de valores de cor e densidade de volume. As técnicas de renderización de volume converterán entón eses valores nunha saída de imaxe 2D.
Usando modelos de difusión 2D e NeRF xuntos
Agora que sabemos como funciona un NeRF, vexamos como este modelo pode xerar modelos 3D precisos a partir das nosas imaxes xeradas.
Para cada indicación de texto proporcionada, DreamFusion adestra desde cero un NeRF inicializado aleatoriamente. Cada iteración escolle unha posición aleatoria da cámara nun conxunto de coordenadas esféricas. Pense no modelo encerrado nunha esfera de vidro. Cada vez que xeramos unha nova imaxe do noso modelo 3D, escolleremos un punto aleatorio da nosa esfera como punto de vista da nosa saída. DreamFusion tamén escollerá unha posición de luz aleatoria l para usar para renderizar.
Unha vez que teñamos unha cámara e unha posición de luz, renderase un modelo NeRF. DreamFusion tamén elixirá aleatoriamente entre unha representación en cores, unha representación sen textura e unha representación do albedo sen ningún sombreado.
Mencionamos anteriormente que queremos que o noso modelo de texto a imaxe (Imagen) produza suficientes imaxes para crear unha mostra representativa.
Como consegue isto Dreamfusion?
Dreamfusion simplemente modifica lixeiramente o aviso de entrada para acadar os ángulos previstos. Por exemplo, podemos conseguir ángulos de elevación elevados engadindo "vista aérea" ao noso aviso. Podemos xerar outros ángulos engadindo frases como "vista frontal", "vista lateral" e "vista traseira".
As escenas represéntanse repetidamente desde posicións aleatorias da cámara. Estas representacións pasan despois a través dunha función de perda de destilación de puntuación. Un simple enfoque de descenso en gradiente mellorará lentamente o Modelo 3D ata que coincida coa escena descrita polo texto.
Unha vez que renderizamos o modelo 3D usando NeRF, podemos usar o Algoritmo Marching Cubes para producir unha malla 3D do noso modelo. A continuación, esta malla pódese importar a renderizadores 3D populares ou software de modelado.
Limitacións
Aínda que a produción de DreamFusion é o suficientemente impresionante xa que utiliza modelos de difusión de texto a imaxe existentes dun xeito novedoso, os investigadores observaron algunhas limitacións.
Observouse que a función de perda da SDS produce resultados sobresaturados e suavizados. Podes observalo na cor antinatural e na falta de detalles precisos que se atopan nas saídas.
O algoritmo DreamFusion tamén está limitado pola resolución da saída do modelo Imagen, que é de 64 x 64 píxeles. Isto leva a que os modelos sintetizados carezan de detalles máis finos.
Por último, os investigadores sinalaron que hai un desafío inherente á síntese de modelos 3D a partir de datos 2D. Son moitos os posibles modelos 3D que podemos xerar a partir dun conxunto de imaxes 2D, o que dificulta bastante a optimización e mesmo resulta ambigua.
Conclusión
As representacións 3D de DreamFusion funcionan moi ben debido á capacidade dos modelos de difusión de texto a imaxe para crear calquera obxecto ou escena. É impresionante como unha rede neuronal pode entender unha escena no espazo 3D sen ningún dato de adestramento en 3D. Recomendo ler o papel enteiro para obter máis información sobre os detalles técnicos do algoritmo DreamFusion.
Esperemos que esta tecnoloxía mellore para eventualmente crear modelos 3D fotorrealistas. Imaxina videoxogos ou simulacións enteiros que usan ambientes xerados por IA. Podería reducir a barreira de entrada dos desenvolvedores de videoxogos para crear mundos 3D inmersivos.
Que papel cres que terán os modelos de texto a 3D no futuro?
Deixe unha resposta