Bab lan Paragraf[Singidaken][Tampilake]
Sampeyan bisa uga wis krungu babagan carane kuat model AI teks-ke-gambar sajrone sawetara taun kepungkur. Nanging apa sampeyan ngerti manawa teknologi sing padha bisa mbantu nggawe kabisat saka 2D menyang 3D?
Model 3D sing digawe AI duwe kasus panggunaan sing akeh ing lanskap digital saiki. game video lan film gumantung ing seniman 3D trampil lan piranti lunak modeling kayata Blender kanggo nggawe aset 3D kanggo populate pemandangan komputer-kui.
Nanging, apa industri bisa nggunakake machine learning kanggo nggawe aset 3D kanthi kurang gaweyan, padha karo carane seniman 2D saiki wiwit nggunakake teknologi kayata DALL-E lan midjourney?
Artikel iki bakal njelajah algoritma novel sing nyoba nggawe model teks-kanggo-3D sing efektif nggunakake sing wis ana model difusi.
apa Dreamfusion?
Salah sawijining masalah utama kanggo nggawe model difusi sing ngasilake aset 3D kanthi langsung yaiku ora akeh data 3D sing kasedhiya. Model difusi 2D dadi kuat amarga kumpulan data gambar sing ditemokake ing internet. Padha ora bisa ngandika karo aset 3D.
Sawetara teknik generatif 3D bisa ngatasi kekurangan data iki kanthi njupuk kauntungan saka data 2D sing akeh banget.
DreamFusion yaiku model generatif sing bisa nggawe model 3D adhedhasar deskripsi teks sing diwenehake. Model DreamFusion nggunakake model difusi teks-kanggo-gambar sing wis dilatih kanggo ngasilake model telung dimensi sing nyata saka pituduh teks.
Sanajan ora duwe data latihan 3D, pendekatan iki wis ngasilake aset 3D sing koheren kanthi tampilan lan kedalaman kasetyan dhuwur.
Carane Ora bisa?
Algoritma DreamFusion kasusun saka rong model utama: model difusi 2D lan a jaringan saraf sing bisa ngowahi gambar 2D dadi pemandangan 3D sing kohesif.
Model Teks-kanggo-Gambar Gambar Google
Bagean pisanan saka algoritma yaiku model difusi. Model iki tanggung jawab kanggo ngowahi teks dadi gambar.
Imagen yaiku model difusi sing bisa ngasilake sampel variasi gambar sing akeh saka obyek tartamtu. Ing kasus iki, variasi gambar kita kudu nutupi kabeh sudut obyek sing kasedhiya. Contone, yen kita wanted kanggo generate model 3D jaran, kita bakal pengin gambar 2D jaran saka kabeh ngarepke bisa. Tujuane yaiku nggunakake Imagen kanggo nyedhiyakake akeh informasi (werna, refleksi, kapadhetan) kanggo model sabanjure ing algoritma kita.
Nggawe Model 3D karo NeRF
Sabanjure, Dreamfusion nggunakake model sing dikenal minangka a Medan Radiance Neural utawa NeRF kanggo bener nggawe model 3D saka set gambar kui. NeRFs bisa nggawe pemandangan 3D sing rumit diwenehi dataset gambar 2D.
Ayo coba ngerti cara kerjane NeRF.
Model kasebut nduweni tujuan kanggo nggawe fungsi pemandangan volumetrik terus-terusan sing dioptimalake saka set data gambar 2D sing kasedhiya.
Yen model nggawe fungsi, apa input lan output?
Fungsi pemandangan njupuk lokasi 3D lan arah tampilan 2D minangka input. Fungsi kasebut banjur ngasilake warna (ing wangun RGB) lan kapadhetan volume tartamtu.
Kanggo ngasilake gambar 2D saka sudut pandang tartamtu, model bakal ngasilake sakumpulan titik 3D lan mbukak titik kasebut liwat fungsi pemandangan kanggo ngasilake sakumpulan nilai kepadatan warna lan volume. Teknik rendering volume banjur bakal ngowahi nilai kasebut dadi output gambar 2D.
Nggunakake NeRF lan Model Difusi 2D Bebarengan
Saiki kita ngerti cara kerjane NeRF, ayo ndeleng kepiye model iki bisa ngasilake model 3D sing akurat saka gambar sing digawe.
Kanggo saben pituduh teks sing diwenehake, DreamFusion nglatih NeRF sing diwiwiti kanthi acak saka awal. Saben pengulangan milih posisi kamera acak ing sakumpulan koordinat bola. Coba model sing dibungkus ing bal kaca. Saben kita ngasilake gambar anyar model 3D kita, kita bakal milih titik acak ing bal kita minangka titik vantage saka output kita. DreamFusion uga bakal milih posisi cahya acak l digunakake kanggo rendering.
Sawise kita duwe kamera lan posisi cahya, model NeRF bakal ditampilake. DreamFusion uga bakal milih kanthi acak ing antarane rendering warna, render tanpa tekstur, lan rendering albedo tanpa shading.
Kita wis kasebut sadurunge kita pengin model teks-kanggo-gambar (Imagen) kanggo gawé cukup gambar kanggo nggawe sampel wakil.
Kepiye Dreamfusion ngrampungake iki?
Dreamfusion mung ngowahi pituduh input rada kanggo entuk sudut sing dituju. Contone, kita bisa entuk sudut elevasi sing dhuwur kanthi nambahake "tampilan nduwur sirah" menyang pituduh. Kita bisa ngasilake sudut liyane kanthi nambahake frasa kayata "tampilan ngarep", "tampilan sisih", lan "tampilan mburi".
Pemandangan sing bola-bali render saka posisi kamera acak. Rendering iki banjur ngliwati fungsi mundhut distilasi skor. A pendekatan keturunan gradien prasaja alon-alon nambah Model 3D nganti cocog karo adegan sing digambarake kanthi teks.
Sawise kita wis render model 3D nggunakake NeRF, kita bisa nggunakake Algoritma Marching Cubes kanggo ngasilake bolong 3D model kita. Bolong iki banjur bisa diimpor menyang renderer 3D utawa piranti lunak modeling sing populer.
watesan
Nalika output DreamFusion cukup nyengsemaken amarga nggunakake model difusi teks-kanggo-gambar kanthi cara novel, para peneliti wis nyathet sawetara watesan.
Fungsi mundhut SDS wis diamati kanggo ngasilake asil oversaturated lan over-smoothed. Sampeyan bisa mirsani iki ing werna ora wajar lan lack saka rinci pas ditemokaké ing output.
Algoritma DreamFusion uga diwatesi kanthi resolusi output model Imagen, yaiku 64 x 64 piksel. Iki nyebabake model sing disintesis kurang rincian sing luwih apik.
Pungkasan, peneliti nyathet yen ana tantangan sing ana ing sintesis model 3D saka data 2D. Ana akeh model 3D sing bisa digawe saka sakumpulan gambar 2D, sing ndadekake optimasi cukup angel lan malah ambigu.
kesimpulan
Rendering 3D DreamFusion bisa digunakake kanthi apik amarga kemampuan model difusi teks-kanggo-gambar kanggo nggawe obyek utawa pemandangan apa wae. Nyengsemaken carane jaringan saraf bisa ngerti pemandangan ing ruang 3D tanpa data latihan 3D. Aku nyaranake maca ing kertas kabeh kanggo mangerteni sing luwih lengkap babagan rincian teknis saka algoritma DreamFusion.
Muga-muga, teknologi iki bakal nambah nganti pungkasane nggawe model 3D foto-realistis. Bayangake kabeh game video utawa simulasi sing nggunakake lingkungan sing digawe AI. Bisa nyuda alangan mlebu kanggo pangembang game video kanggo nggawe jagad 3D sing immersive!
Apa peran model teks-kanggo-3D sing bakal ditindakake ing mangsa ngarep?
Ninggalake a Reply