Jo hawwe miskien heard oer hoe krêftich tekst-nei-ôfbylding AI-modellen yn 'e ôfrûne pear jier wurden binne. Mar wisten jo dat deselde technology koe helpe om de sprong fan 2D nei 3D te meitsjen?
AI-generearre 3D-modellen hawwe in breed gebrûk yn it hjoeddeiske digitale lânskip. Fideo spultsjes en film fertrouwe op betûfte 3D-artysten en modelingsoftware lykas Blender om 3D-aktiva te meitsjen om komputer-generearre sênes te befolkjen.
Is it lykwols mooglik dat de yndustry masine learen kin brûke om 3D-aktiva te meitsjen mei minder ynspanning, fergelykber mei hoe't 2D-artysten hjoed begjinne technology oan te nimmen lykas DALL-E en midjourney?
Dit artikel sil in nij algoritme ûndersykje dat besiket in effektyf tekst-nei-3D-model te meitsjen mei besteande diffusion modellen.
Wat is Dreamfusion?
Ien wichtich probleem mei it meitsjen fan in diffusionsmodel dat direkt 3D-aktiva genereart is dat d'r gewoan net in protte 3D-gegevens beskikber binne. 2D-diffusjonsmodellen binne sa machtich wurden fanwegen de grutte dataset fan ôfbyldings fûn op it ynternet. Itselde kin net sein wurde mei 3D-aktiva.
Guon generative 3D-techniken wurkje om dit gebrek oan gegevens troch te profitearjen fan dizze oerfloed fan 2D-gegevens.
DreamFusion is in generatyf model dat kin meitsje 3D modellen basearre op in foarsjoen tekst beskriuwing. It DreamFusion-model brûkt in pre-trained tekst-nei-ôfbylding-diffusiemodel om realistyske trijediminsjonale modellen te generearjen út tekstprompts.
Nettsjinsteande it hawwen fan gjin 3D training gegevens, dizze oanpak hat generearre gearhingjende 3D aktiva mei hege-fidelity uterlik en djipte.
Hoe wurket it?
It DreamFusion-algoritme bestiet út twa haadmodellen: in 2D-diffusjonsmodel en in neuronale netwurk dat kin omsette 2D bylden yn in gearhingjend 3D sêne.
Google's Imagen Text-to-Image Model
It earste diel fan it algoritme is it diffusionsmodel. Dit model is ferantwurdlik foar it konvertearjen fan tekst nei ôfbyldings.
imagen is in diffusion model dat kin generearje in grutte stekproef fan ôfbylding fariaasjes fan in bepaald foarwerp. Yn dit gefal moatte ús ôfbyldingsfarianten alle mooglike hoeken fan it levere objekt dekke. As wy bygelyks in 3D-model fan in hynder wolle generearje, wolle wy 2D-ôfbyldings fan it hynder út alle mooglike hoeken. It doel is om Imagen te brûken om safolle mooglik ynformaasje te jaan (kleuren, refleksjes, tichtens) foar it folgjende model yn ús algoritme.
3D-modellen meitsje mei NeRF
Folgjende, Dreamfusion brûkt in model bekend as a Neural Radiance Field of NeRF om it 3D-model eins te meitsjen fan 'e oanmakke ôfbyldingsset. NeRF's kinne komplekse 3D-sênes meitsje mei in dataset fan 2D-ôfbyldings.
Litte wy besykje te begripen hoe't in NeRF wurket.
It model is fan doel in trochgeande volumetryske sênefunksje te meitsjen optimalisearre út de levere dataset fan 2D-ôfbyldings.
As it model in funksje makket, wat binne dan de ynfier en útfier?
De sênefunksje nimt in 3D-lokaasje en in 2D-werjefterjochting as ynfier. De funksje jout dan in kleur út (yn 'e foarm fan RGB) en in spesifike folume-tichtens.
Om in 2D-ôfbylding fan in spesifyk eachpunt te generearjen, sil it model in set fan 3D-punten generearje en dy punten troch de sênefunksje útfiere om in set wearden foar kleur en folumedichtheid werom te jaan. Volume rendering techniken sille dan dizze wearden omsette yn in 2D ôfbyldingsútfier.
Gebrûk fan NeRF- en 2D-diffusjonsmodellen tegearre
No't wy witte hoe't in NeRF wurket, litte wy sjen hoe't dit model krekte 3D-modellen kin generearje út ús oanmakke ôfbyldings.
Foar elke levere tekstprompt traint DreamFusion in willekeurich inisjalisearre NeRF fanôf it begjin. Elke iteraasje kiest in willekeurige kameraposysje yn in set sfearyske koördinaten. Tink oan it model ynsletten yn in glêzen bol. Elke kear as wy in nije ôfbylding fan ús 3D-model generearje, kieze wy in willekeurich punt yn ús sfear as it útsjochpunt fan ús útfier. DreamFusion sil ek kieze in willekeurige ljocht posysje l te brûken foar rendering.
Sadree't wy hawwe in kamera en ljocht posysje, in NeRF model wurdt rendered. DreamFusion sil ek willekeurich kieze tusken in kleurde rendering, in tekstureleaze rendering, en in rendering fan 'e albedo sûnder skaden.
Wy hawwe earder neamd dat wy wolle dat ús tekst-nei-ôfbyldingsmodel (Imagen) genôch ôfbyldings produseart om in represintative stekproef te meitsjen.
Hoe bringt Dreamfusion dit ta?
Dreamfusion feroaret de ynfierprompt gewoan in bytsje om de bedoelde hoeken te berikken. Wy kinne bygelyks hege hichtehoeken berikke troch "overhead werjefte" ta te foegjen oan ús prompt. Wy kinne oare hoeken generearje troch útdrukkingen ta te foegjen lykas "front view", "side view", en "back view".
Sênes wurde ferskate kearen werjûn fan willekeurige kameraposysjes. Dizze renderings passe dan troch in skoaredestillaasjeferliesfunksje. In ienfâldige gradient ôfstamming oanpak sil stadich ferbetterje de 3D modellen oant it oerienkomt mei de sêne beskreaun troch de tekst.
Sadree't wy hawwe rendered de 3D model mei help fan NeRF, kinne wy brûke de Marching Cubes algoritme om in 3D-mesh fan ús model út te jaan. Dit mesh kin dan wurde ymportearre yn populêre 3D-renderers of modelingsoftware.
beheinings
Wylst de útfier fan DreamFusion yndrukwekkend genôch is, om't it besteande tekst-nei-ôfbylding diffusiemodellen brûkt op in nije manier, hawwe de ûndersikers in pear beheiningen opmurken.
De SDS-ferliesfunksje is waarnommen om oersatureare en te glêdde resultaten te produsearjen. Jo kinne dit observearje yn 'e ûnnatuerlike kleur en gebrek oan krekte detail fûn yn' e útgongen.
It DreamFusion-algoritme wurdt ek beheind troch de resolúsje fan 'e Imagen-modelútfier, dy't 64 x 64 piksels is. Dit liedt ta de synthesisearre modellen dy't finere details misse.
As lêste hawwe de ûndersikers opmurken dat d'r in ynherinte útdaging is yn it synthesisearjen fan 3D-modellen út 2D-gegevens. D'r binne in protte mooglike 3D-modellen dy't wy kinne generearje út in set fan 2D-ôfbyldings, wat optimisaasje frijwat lestich makket en sels dûbelsinnich.
Konklúzje
DreamFusion's 3D-renderings wurkje sa goed fanwegen it fermogen fan tekst-nei-ôfbylding diffusiemodellen om elk objekt of sêne te meitsjen. It is yndrukwekkend hoe't in neuraal netwurk in sêne yn 3D-romte kin begripe sûnder 3D-trainingsgegevens. Ik riede it lêzen fan de hiele papier om mear te learen oer de technyske details fan it DreamFusion-algoritme.
Hooplik sil dizze technology ferbetterje om úteinlik fotorealistyske 3D-modellen te meitsjen. Stel jo folsleine fideospultsjes of simulaasjes foar dy't AI-genereare omjouwings brûke. It koe de yngongsbarriêre foar ûntwikkelders fan fideospultsjes ferleegje om immersive 3D-wrâlden te meitsjen!
Hokker rol tinke jo dat tekst-nei-3D-modellen yn 'e takomst sille spylje?
Leave a Reply