Puderete avè intesu parlà di quantu putenti mudelli AI testu-à-imaghjini sò diventati in l'ultimi dui anni. Ma sapete chì a stessa tecnulugia puderia aiutà à fà u salto da 2D à 3D?
I mudelli 3D generati da AI anu un vastu casu d'usu in u paisaghju digitale d'oghje. ghjochi Video è u filmu s'appoghjanu à artisti 3D qualificati è software di modellazione cum'è Blender per creà assi 3D per populate scene generate da computer.
Tuttavia, hè pussibule chì l'industria puderia utilizà l'apprendimentu di a macchina per creà assi 3D cù menu sforzu, simile à cumu l'artisti 2D oghje cumincianu à aduttà tecnulugia cum'è DALL-E è A mità di viaghju?
Questu articulu hà da scopre un algoritmu rumanzu chì prova di creà un mudellu efficace di testu à 3D utilizendu esistenti mudelli diffusion.
Chì ghjè Dreamfusion?
Un prublema maiò cù a creazione di un mudellu di diffusione chì genera l'assi 3D direttamente hè chì ùn ci hè micca assai di dati 3D dispunibili. I mudelli di diffusione 2D sò diventati cusì putenti per via di u vastu dataset d'imaghjini truvati in Internet. U listessu ùn si pò dì cù l'assi 3D.
Certi tecnichi generativi 3D travaglianu intornu à sta mancanza di dati apprufittannu di questa abbundanza di dati 2D.
DreamFusion hè un mudellu generativu chì pò creà mudelli 3D basatu nantu à una descrizzione di testu furnita. U mudellu DreamFusion usa un mudellu di diffusione testu-à-imaghjini pre-addestratu per generà mudelli tridimensionali realistichi da i prompt di testu.
Malgradu ùn avè micca dati di furmazione 3D, questu approcciu hà generatu assi 3D coerenti cù apparenza è prufundità d'alta fideltà.
Cumu travagliu?
L'algoritmu DreamFusion hè custituitu di dui mudelli principali: un mudellu di diffusione 2D è a reta neurale chì ponu cunvertisce l'imaghjini 2D in una scena 3D coesiva.
U mudellu Image di Google Text-to-Image
A prima parte di l'algoritmu hè u mudellu di diffusione. Stu mudellu hè rispunsevuli di cunvertisce u testu in imagine.
Imagen hè un mudellu di diffusione chì pò generà una grande mostra di variazioni di l'imaghjini di un oggettu particulari. In questu casu, e nostre variazioni di l'imaghjini devenu copre tutti l'anguli pussibuli di l'ughjettu furnitu. Per esempiu, se vulemu generà un mudellu 3D di un cavallu, vulemu l'imaghjini 2D di u cavallu da tutti l'anguli pussibuli. U scopu hè di utilizà Imagen per furnisce quant'è più infurmazione pussibule (culori, riflessioni, densità) per u prossimu mudellu in u nostru algoritmu.
Creazione di mudelli 3D cù NeRF
Next, Dreamfusion usa un mudellu canusciutu comu a Campu di Radiance Neurale o NeRF per creà veramente u mudellu 3D da u settore di l'imaghjini generati. NeRF sò capaci di creà sceni 3D cumplessi datu un dataset di imaghjini 2D.
Pruvemu di capisce cumu funziona un NeRF.
U mudellu hà da scopu di creà una funzione di scena volumetrica cuntinuu ottimizzata da u dataset furnitu di l'imaghjini 2D.
Se u mudellu crea una funzione, chì sò l'input è output?
A funzione di scena piglia in un locu 3D è una direzzione di vista 2D cum'è input. A funzione poi emette un culore (in forma di RGB) è una densità di volumi specifica.
Per generà una maghjina 2D da un puntu di vista specificu, u mudellu generà un settore di punti 3D è eseguisce quelli punti attraversu a funzione di scena per rinvià un set di valori di densità di culore è di voluminu. I tecnichi di rendering di u voluminu cunverteranu allora quelli valori in una output d'imaghjini 2D.
Utilizendu NeRF è mudelli di diffusione 2D Inseme
Avà chì sapemu cumu funziona un NeRF, vedemu cumu stu mudellu pò generà mudelli 3D precisi da e nostre imagine generate.
Per ogni prompt di testu furnitu, DreamFusion addestra un NeRF inizializatu aleatoriamente da zero. Ogni iterazione sceglie una pusizione aleatoria di a camera in un settore di coordenate sferiche. Pensate à u mudellu incassatu in una sfera di vetru. Ogni volta chì generà una nova maghjina di u nostru mudellu 3D, scegliemu un puntu aleatoriu in a nostra sfera cum'è u puntu di vista di a nostra pruduzzioni. DreamFusion sceglierà ancu una pusizione di luce aleatoria l à aduprà per rende.
Una volta avemu una camera è una pusizione di luce, un mudellu NeRF serà renditu. DreamFusion sceglierà ancu aleatoriamente trà un rendering di culore, un rendering senza texture, è un rendering di l'albedo senza alcunu ombre.
Avemu mintuatu prima chì vulemu chì u nostru mudellu testu-à-imaghjini (Imagen) pruducia abbastanza imagine per creà una mostra rappresentativa.
Cumu Dreamfusion riesce questu?
Dreamfusion simpricimenti mudifica ligeramente u prompt di input per ottene l'anguli previsti. Per esempiu, pudemu ottene anguli d'elevazione elevati appendu "vista sopra" à u nostru prompt. Pudemu generà altri anguli appendu frasi cum'è "vista frontale", "vista laterale" è "vista posteriore".
Scene sò ripetutamente riprese da pusizioni aleatorii di càmera. Queste rendering passanu dopu à una funzione di perdita di distillazione di partitura. Un approcciu simplice di discesa di gradiente migliurà lentamente U mudellu 3D finu à chì currisponde à a scena descritta da u testu.
Una volta chì avemu resu u mudellu 3D cù NeRF, pudemu usà Algoritmu Marching Cubes per pruduce una maglia 3D di u nostru mudellu. Questa maglia pò esse impurtata in i populari renderers 3D o in un software di modellazione.
Limitazioni
Mentre a pruduzzioni di DreamFusion hè abbastanza impressiunanti postu chì usa mudelli di diffusione di testu à imagine esistenti in una manera nova, i circadori anu nutatu uni pochi di limitazioni.
A funzione di perdita SDS hè stata osservata per pruduce risultati oversaturated è over-smoothed. Pudete osservà questu in u culore innaturale è a mancanza di dettagli precisi truvati in i outputs.
L'algoritmu DreamFusion hè ancu limitatu da a risuluzione di a pruduzzioni di u mudellu Imagen, chì hè 64 x 64 pixel. Questu porta à i mudelli sintetizzati chì mancanu dettagli più fini.
Infine, i circadori anu nutatu chì ci hè una sfida inherente à sintetizà mudelli 3D da dati 2D. Ci hè parechje mudelli 3D pussibuli chì pudemu generà da un inseme d'imaghjini 2D, chì rende l'ottimisazione abbastanza difficiule è ancu ambiguu.
cunchiusioni
I rendering 3D di DreamFusion funzionanu cusì bè per via di a capacità di mudelli di diffusione di testu à imagine per creà ogni ughjettu o scena. Hè impressiunanti cumu una rete neurale pò capisce una scena in u spaziu 3D senza alcuna dati di furmazione 3D. Vi cunsigliu di leghje carta intera per sapè più nantu à i dettagli tecnichi di l'algoritmu DreamFusion.
Spergu chì sta tecnulugia hà da migliurà per eventualmente creà mudelli 3D foto-realistici. Imagine interi video games o simulazioni chì utilizanu ambienti generati da AI. Puderia calà a barriera d'entrata per i sviluppatori di video games per creà mondi 3D immersivi!
Chì rolu pensate chì i mudelli di testu à 3D ghjucanu in u futuru?
Lascia un Audiolibro