DreamFusion - Generazione di mudelli 3D da u testu

Table di cuntinutu[Piattà][Mostra]

Cosa hè Dreamfusion?
Cumu travagliu?+-
Limitazioni
cunchiusioni

Puderete avè intesu parlà di quantu putenti mudelli AI testu-à-imaghjini sò diventati in l'ultimi dui anni. Ma sapete chì a stessa tecnulugia puderia aiutà à fà u salto da 2D à 3D?

I mudelli 3D generati da AI anu un vastu casu d'usu in u paisaghju digitale d'oghje. ghjochi Video è u filmu s'appoghjanu à artisti 3D qualificati è software di modellazione cum'è Blender per creà assi 3D per populate scene generate da computer.

Tuttavia, hè pussibule chì l'industria puderia utilizà l'apprendimentu di a macchina per creà assi 3D cù menu sforzu, simile à cumu l'artisti 2D oghje cumincianu à aduttà tecnulugia cum'è DALL-E è A mità di viaghju?

Questu articulu hà da scopre un algoritmu rumanzu chì prova di creà un mudellu efficace di testu à 3D utilizendu esistenti mudelli diffusion.

Chì ghjè Dreamfusion?

Un prublema maiò cù a creazione di un mudellu di diffusione chì genera l'assi 3D direttamente hè chì ùn ci hè micca assai di dati 3D dispunibili. I mudelli di diffusione 2D sò diventati cusì putenti per via di u vastu dataset d'imaghjini truvati in Internet. U listessu ùn si pò dì cù l'assi 3D.

Certi tecnichi generativi 3D travaglianu intornu à sta mancanza di dati apprufittannu di questa abbundanza di dati 2D.

Dreamfusion genera mudelli 3D coerenti da una descrizzione di testu furnita

DreamFusion hè un mudellu generativu chì pò creà mudelli 3D basatu nantu à una descrizzione di testu furnita. U mudellu DreamFusion usa un mudellu di diffusione testu-à-imaghjini pre-addestratu per generà mudelli tridimensionali realistichi da i prompt di testu.

Malgradu ùn avè micca dati di furmazione 3D, questu approcciu hà generatu assi 3D coerenti cù apparenza è prufundità d'alta fideltà.

Cumu travagliu?

L'algoritmu DreamFusion hè custituitu di dui mudelli principali: un mudellu di diffusione 2D è a reta neurale chì ponu cunvertisce l'imaghjini 2D in una scena 3D coesiva.

U mudellu Image di Google Text-to-Image

A prima parte di l'algoritmu hè u mudellu di diffusione. Stu mudellu hè rispunsevuli di cunvertisce u testu in imagine.

Imagen hè un mudellu di diffusione chì pò generà una grande mostra di variazioni di l'imaghjini di un oggettu particulari. In questu casu, e nostre variazioni di l'imaghjini devenu copre tutti l'anguli pussibuli di l'ughjettu furnitu. Per esempiu, se vulemu generà un mudellu 3D di un cavallu, vulemu l'imaghjini 2D di u cavallu da tutti l'anguli pussibuli. U scopu hè di utilizà Imagen per furnisce quant'è più infurmazione pussibule (culori, riflessioni, densità) per u prossimu mudellu in u nostru algoritmu.

Dreamfusion usa l'Imagine di Google per generà imagine da u testu

Creazione di mudelli 3D cù NeRF

Next, Dreamfusion usa un mudellu canusciutu comu a Campu di Radiance Neurale o NeRF per creà veramente u mudellu 3D da u settore di l'imaghjini generati. NeRF sò capaci di creà sceni 3D cumplessi datu un dataset di imaghjini 2D.

Pruvemu di capisce cumu funziona un NeRF.

U mudellu hà da scopu di creà una funzione di scena volumetrica cuntinuu ottimizzata da u dataset furnitu di l'imaghjini 2D.

Se u mudellu crea una funzione, chì sò l'input è output?

A funzione di scena piglia in un locu 3D è una direzzione di vista 2D cum'è input. A funzione poi emette un culore (in forma di RGB) è una densità di volumi specifica.

Per generà una maghjina 2D da un puntu di vista specificu, u mudellu generà un settore di punti 3D è eseguisce quelli punti attraversu a funzione di scena per rinvià un set di valori di densità di culore è di voluminu. I tecnichi di rendering di u voluminu cunverteranu allora quelli valori in una output d'imaghjini 2D.

Dreamfusion usa un mudellu NeRF per generà una funzione chì crea novi vede di una scena

Utilizendu NeRF è mudelli di diffusione 2D Inseme

Avà chì sapemu cumu funziona un NeRF, vedemu cumu stu mudellu pò generà mudelli 3D precisi da e nostre imagine generate.

Per ogni prompt di testu furnitu, DreamFusion addestra un NeRF inizializatu aleatoriamente da zero. Ogni iterazione sceglie una pusizione aleatoria di a camera in un settore di coordenate sferiche. Pensate à u mudellu incassatu in una sfera di vetru. Ogni volta chì generà una nova maghjina di u nostru mudellu 3D, scegliemu un puntu aleatoriu in a nostra sfera cum'è u puntu di vista di a nostra pruduzzioni. DreamFusion sceglierà ancu una pusizione di luce aleatoria l à aduprà per rende.

Una volta avemu una camera è una pusizione di luce, un mudellu NeRF serà renditu. DreamFusion sceglierà ancu aleatoriamente trà un rendering di culore, un rendering senza texture, è un rendering di l'albedo senza alcunu ombre.

Dreamfusion produce immagini da diverse anguli

Avemu mintuatu prima chì vulemu chì u nostru mudellu testu-à-imaghjini (Imagen) pruducia abbastanza imagine per creà una mostra rappresentativa.

Cumu Dreamfusion riesce questu?

Dreamfusion simpricimenti mudifica ligeramente u prompt di input per ottene l'anguli previsti. Per esempiu, pudemu ottene anguli d'elevazione elevati appendu "vista sopra" à u nostru prompt. Pudemu generà altri anguli appendu frasi cum'è "vista frontale", "vista laterale" è "vista posteriore".

Scene sò ripetutamente riprese da pusizioni aleatorii di càmera. Queste rendering passanu dopu à una funzione di perdita di distillazione di partitura. Un approcciu simplice di discesa di gradiente migliurà lentamente U mudellu 3D finu à chì currisponde à a scena descritta da u testu.

Una volta chì avemu resu u mudellu 3D cù NeRF, pudemu usà Algoritmu Marching Cubes per pruduce una maglia 3D di u nostru mudellu. Questa maglia pò esse impurtata in i populari renderers 3D o in un software di modellazione.

Limitazioni

Mentre a pruduzzioni di DreamFusion hè abbastanza impressiunanti postu chì usa mudelli di diffusione di testu à imagine esistenti in una manera nova, i circadori anu nutatu uni pochi di limitazioni.

A funzione di perdita SDS hè stata osservata per pruduce risultati oversaturated è over-smoothed. Pudete osservà questu in u culore innaturale è a mancanza di dettagli precisi truvati in i outputs.

L'algoritmu DreamFusion hè ancu limitatu da a risuluzione di a pruduzzioni di u mudellu Imagen, chì hè 64 x 64 pixel. Questu porta à i mudelli sintetizzati chì mancanu dettagli più fini.

Infine, i circadori anu nutatu chì ci hè una sfida inherente à sintetizà mudelli 3D da dati 2D. Ci hè parechje mudelli 3D pussibuli chì pudemu generà da un inseme d'imaghjini 2D, chì rende l'ottimisazione abbastanza difficiule è ancu ambiguu.

cunchiusioni

I rendering 3D di DreamFusion funzionanu cusì bè per via di a capacità di mudelli di diffusione di testu à imagine per creà ogni ughjettu o scena. Hè impressiunanti cumu una rete neurale pò capisce una scena in u spaziu 3D senza alcuna dati di furmazione 3D. Vi cunsigliu di leghje carta intera per sapè più nantu à i dettagli tecnichi di l'algoritmu DreamFusion.

Spergu chì sta tecnulugia hà da migliurà per eventualmente creà mudelli 3D foto-realistici. Imagine interi video games o simulazioni chì utilizanu ambienti generati da AI. Puderia calà a barriera d'entrata per i sviluppatori di video games per creà mondi 3D immersivi!

Chì rolu pensate chì i mudelli di testu à 3D ghjucanu in u futuru?

DreamFusion - Generazione di mudelli 3D da u testu

DreamFusion - Generazione di mudelli 3D da u testu

Chì ghjè Dreamfusion?

Cumu travagliu?

U mudellu Image di Google Text-to-Image

Creazione di mudelli 3D cù NeRF

Utilizendu NeRF è mudelli di diffusione 2D Inseme

Limitazioni

cunchiusioni

prupòsitu di lu Deion Menor

Più Articuli nantu à HashDork:

Cumu riduce l'allucinazioni in a vostra IA

Colossyan vs Heygen

Stu Future Tech Newsletter ùn Suck

DreamFusion - Generazione di mudelli 3D da u testu

Chì ghjè Dreamfusion?

Cumu travagliu?

U mudellu Image di Google Text-to-Image

Creazione di mudelli 3D cù NeRF

Utilizendu NeRF è mudelli di diffusione 2D Inseme

Limitazioni

cunchiusioni

prupòsitu di lu Deion Menor

Più Articuli nantu à HashDork:

Cumu riduce l'allucinazioni in a vostra IA

I 10 migliori strumenti AI per i Social Media

Colossyan vs Heygen

10 migliori strumenti di creazione di video animati AI

Lettore interacziunale

Lascia un Audiolibro Annulla madricale

Stu Future Tech Newsletter ùn Suck