Tingali nakadungog ka bahin sa kung unsa ka kusgan ang mga modelo sa AI nga text-to-image sa miaging mga tuig. Apan nahibal-an ba nimo nga ang parehas nga teknolohiya makatabang sa paghimo sa paglukso gikan sa 2D hangtod sa 3D?
Ang AI-generated 3D nga mga modelo adunay lapad nga kaso sa paggamit sa digital nga talan-awon karon. dula Video ug ang pelikula nagsalig sa hanas nga 3D artists ug modeling software sama sa Blender aron makamugna og 3D assets aron mapuno ang mga eksena nga hinimo sa kompyuter.
Bisan pa, posible ba nga magamit sa industriya ang pagkat-on sa makina aron makamugna ang 3D nga mga kabtangan nga adunay gamay nga paningkamot, parehas sa kung giunsa ang mga artista sa 2D karon nagsugod sa pagsagop sa teknolohiya sama sa DALL-E ug Tunga sa panaw?
Kini nga artikulo mag-usisa sa usa ka bag-ong algorithm nga mosulay sa paghimo og usa ka epektibo nga text-to-3D nga modelo gamit ang anaa na mga modelo sa pagsabwag.
Unsa ang Dreamfusion?
Usa ka mayor nga isyu sa pagmugna og usa ka diffusion model nga direkta nga nakamugna og 3D assets mao nga walay daghang 3D data nga magamit. Ang mga modelo sa pagsabwag sa 2D nahimong kusgan kaayo tungod sa daghang mga datos sa mga imahe nga makita sa internet. Ang sama nga dili masulti sa 3D assets.
Ang ubang mga 3D generative techniques naglihok niining kakulang sa datos pinaagi sa pagpahimulos niini nga kadagaya sa 2D data.
DreamFusion usa ka generative nga modelo nga makahimo og 3D nga mga modelo base sa gihatag nga deskripsyon sa teksto. Ang DreamFusion nga modelo naggamit sa usa ka pre-trained nga text-to-image diffusion model aron makamugna og realistiko nga three-dimensional nga mga modelo gikan sa text prompt.
Bisan pa nga wala'y datos sa pagbansay sa 3D, kini nga pamaagi nakamugna og managsama nga 3D nga mga kabtangan nga adunay taas nga pagkamatinud-anon nga hitsura ug giladmon.
Giunsa Kini Paglihok?
Ang DreamFusion algorithm naglangkob sa duha ka nag-unang mga modelo: usa ka 2D diffusion model ug a neural network nga makahimo sa pag-convert sa 2D nga mga hulagway ngadto sa usa ka nagkahiusa nga 3D nga talan-awon.
Ang Google's Imagen Text-to-Image Model
Ang unang bahin sa algorithm mao ang diffusion model. Kini nga modelo ang responsable sa pag-convert sa teksto ngadto sa mga imahe.
Imagen usa ka modelo sa pagsabwag nga makamugna og daghang sample sa mga variation sa imahe sa usa ka partikular nga butang. Sa kini nga kaso, ang among mga kalainan sa imahe kinahanglan nga maglakip sa tanan nga posible nga mga anggulo sa gihatag nga butang. Pananglitan, kung gusto namon nga makamugna og 3D nga modelo sa usa ka kabayo, gusto namon ang 2D nga mga imahe sa kabayo gikan sa tanan nga posible nga mga anggulo. Ang tumong mao ang paggamit sa Imagen sa paghatag og daghang impormasyon kutob sa mahimo (kolor, pamalandong, densidad) alang sa sunod nga modelo sa atong algorithm.
Paghimo ug 3D nga mga Modelo gamit ang NeRF
Sunod, ang Dreamfusion naggamit sa usa ka modelo nga nailhan nga a Natad sa Neural Radiance o NeRF sa aktuwal nga paghimo sa 3D nga modelo gikan sa namugna nga set sa imahe. Ang mga NeRF makahimo sa paghimo og komplikadong 3D nga mga talan-awon nga gihatag sa usa ka dataset sa 2D nga mga hulagway.
Atong sulayan nga masabtan kung giunsa ang usa ka NeRF molihok.
Ang modelo nagtumong sa paghimo sa usa ka padayon nga volumetric nga function sa talan-awon nga na-optimize gikan sa gihatag nga dataset sa 2D nga mga imahe.
Kung ang modelo maghimo usa ka function, unsa ang input ug output?
Ang function sa talan-awon nagkinahanglan sa usa ka 3D nga lokasyon ug usa ka 2D nga direksyon sa pagtan-aw isip input. Ang function unya nagpagawas sa usa ka kolor (sa porma sa RGB) ug usa ka piho nga densidad sa volume.
Aron makamugna og 2D nga hulagway gikan sa usa ka espesipikong panglantaw, ang modelo magmugna og usa ka set sa 3D nga mga punto ug ipadagan kadtong mga punto pinaagi sa function sa talan-awon aron ibalik ang usa ka set sa kolor ug volume density values. Ang mga teknik sa pag-render sa volume magbag-o sa mga kantidad sa usa ka 2D nga imahe nga output.
Gamit ang NeRF ug 2D Diffusion Models Magkauban
Karon nga nahibal-an na namon kung giunsa ang paglihok sa usa ka NeRF, tan-awon naton kung giunsa kini nga modelo makamugna og tukma nga mga modelo sa 3D gikan sa among namugna nga mga imahe.
Alang sa matag gihatag nga text prompt, ang DreamFusion nagbansay sa usa ka random nga gisugdan nga NeRF gikan sa wala. Ang matag pag-uli nagpili usa ka random nga posisyon sa camera sa usa ka hugpong sa mga spherical coordinates. Hunahunaa ang modelo nga giputos sa usa ka bildo nga sulud. Matag higayon nga makamugna kami og bag-ong imahe sa among 3D nga modelo, magpili kami usa ka random nga punto sa among globo ingon nga vantage point sa among output. Ang DreamFusion mopili usab og usa ka random nga posisyon sa kahayag l gamiton sa pag render.
Sa higayon nga kita adunay usa ka camera ug kahayag nga posisyon, usa ka NeRF nga modelo ang ihatag. Ang DreamFusion usab random nga mopili tali sa usa ka colored render, usa ka textureless render, ug usa ka rendering sa albedo nga walay bisan unsa nga shading.
Nahisgotan na namo sa sayo pa nga gusto namo ang among text-to-image nga modelo (Imagen) nga makagama og igo nga mga hulagway aron makahimo og representante nga sample.
Giunsa kini nahimo sa Dreamfusion?
Gibag-o lang sa Dreamfusion ang input prompt aron makab-ot ang gituyo nga mga anggulo. Pananglitan, makab-ot nato ang taas nga mga anggulo sa elevation pinaagi sa pagdugang sa "overhead view" sa atong prompt. Makahimo kita og ubang mga anggulo pinaagi sa pagdugang sa mga hugpong sa mga pulong sama sa "front view", "side view", ug "back view".
Ang mga talan-awon balik-balik nga gihubad gikan sa random nga posisyon sa kamera. Kini nga mga paghubad unya moagi sa usa ka function sa pagkawala sa distillation sa marka. Ang usa ka yano nga gradient nga pamaagi sa pagkunsad hinayhinay nga makapauswag sa 3D nga modelo hangtud nga kini mohaum sa talan-awon nga gihulagway sa teksto.
Kung nahatag na namo ang 3D nga modelo gamit ang NeRF, mahimo namong gamiton ang Algoritmo sa Pagmartsa Cubes aron ma-output ang usa ka 3D mesh sa among modelo. Mahimong ma-import kini nga mata sa mga sikat nga 3D renderer o software sa pagmodelo.
limitasyon
Samtang ang output sa DreamFusion igo nga impresibo tungod kay kini naggamit sa kasamtangan nga mga modelo sa pagsabwag sa text-to-image sa usa ka nobela nga paagi, ang mga tigdukiduki nakamatikod sa pipila ka mga limitasyon.
Ang function sa pagkawala sa SDS naobserbahan aron makahimo og mga oversaturated ug over-smoothed nga mga resulta. Mahimo nimong maobserbahan kini sa dili natural nga pagkolor ug kakulang sa tukma nga detalye nga makita sa mga output.
Ang DreamFusion algorithm limitado usab sa resolusyon sa Imagen model output, nga 64 x 64 pixels. Nagdala kini sa mga synthesized nga mga modelo nga kulang sa mas maayo nga mga detalye.
Sa katapusan, ang mga tigdukiduki nakamatikod nga adunay usa ka kinaiyanhon nga hagit sa pag-synthesize sa 3D nga mga modelo gikan sa 2D nga datos. Adunay daghang posible nga mga modelo sa 3D nga mahimo naton gikan sa usa ka set sa 2D nga mga imahe, nga naghimo sa pag-optimize nga lisud ug bisan dili klaro.
Panapos
Ang 3D renderings sa DreamFusion maayo kaayo tungod sa abilidad sa text-to-image diffusion nga mga modelo sa paghimo og bisan unsang butang o eksena. Makapahingangha kung giunsa masabtan sa usa ka neural network ang usa ka eksena sa 3D nga wanang nga wala’y bisan unsang datos sa pagbansay sa 3D. Girekomenda nako ang pagbasa sa tibuok papel sa pagkat-on og dugang mahitungod sa teknikal nga mga detalye sa DreamFusion algorithm.
Gilauman, kini nga teknolohiya molambo aron sa katapusan makamugna og photo-realistic 3D nga mga modelo. Hunahunaa ang tibuok nga mga video game o simulation nga naggamit sa AI-generated environment. Mahimong ipaubos niini ang babag sa pagsulod sa mga nag-develop sa video game aron makamugna ang mga immersive nga 3D nga kalibutan!
Unsa sa imong hunahuna ang papel sa mga modelo sa text-to-3D sa umaabot?
Leave sa usa ka Reply