Anda mungkin pernah mendengar tentang betapa hebatnya model AI teks-ke-imej dalam beberapa tahun yang lalu. Tetapi adakah anda tahu bahawa teknologi yang sama boleh membantu membuat lonjakan daripada 2D kepada 3D?
Model 3D yang dijana AI mempunyai kes penggunaan yang luas dalam landskap digital hari ini. Permainan video dan filem bergantung pada artis 3D yang mahir dan perisian pemodelan seperti Blender untuk mencipta aset 3D untuk mengisi adegan yang dijana komputer.
Walau bagaimanapun, adakah mungkin industri boleh menggunakan pembelajaran mesin untuk mencipta aset 3D dengan sedikit usaha, sama seperti cara artis 2D hari ini mula menggunakan teknologi seperti DALL-E dan Pertengahan perjalanan?
Artikel ini akan meneroka algoritma baru yang cuba mencipta model teks-ke-3D yang berkesan menggunakan sedia ada model penyebaran.
Apakah Dreamfusion?
Satu isu utama dengan mencipta model resapan yang menjana aset 3D secara langsung ialah tiada banyak data 3D yang tersedia. Model penyebaran 2D telah menjadi begitu berkuasa kerana set data imej yang luas ditemui di internet. Perkara yang sama tidak boleh dikatakan dengan aset 3D.
Sesetengah teknik generatif 3D mengatasi kekurangan data ini dengan memanfaatkan banyaknya data 2D ini.
DreamFusion ialah model generatif yang boleh mencipta model 3D berdasarkan penerangan teks yang disediakan. Model DreamFusion menggunakan model resapan teks-ke-imej yang telah terlatih untuk menjana model tiga dimensi yang realistik daripada gesaan teks.
Walaupun tidak mempunyai data latihan 3D, pendekatan ini telah menghasilkan aset 3D yang koheren dengan penampilan dan kedalaman kesetiaan tinggi.
Bagaimana Ia Berfungsi?
Algoritma DreamFusion terdiri daripada dua model utama: model resapan 2D dan a rangkaian neural yang boleh menukar imej 2D menjadi pemandangan 3D yang padu.
Model Teks-ke-Imej Imagen Google
Bahagian pertama algoritma ialah model resapan. Model ini bertanggungjawab untuk menukar teks kepada imej.
Imej ialah model resapan yang boleh menjana sampel besar variasi imej bagi objek tertentu. Dalam kes ini, variasi imej kami harus meliputi semua sudut yang mungkin bagi objek yang disediakan. Sebagai contoh, jika kami ingin menghasilkan model 3D kuda, kami mahu imej 2D kuda dari semua sudut yang mungkin. Matlamatnya adalah untuk menggunakan Imagen untuk menyediakan maklumat sebanyak mungkin (warna, pantulan, ketumpatan) untuk model seterusnya dalam algoritma kami.
Mencipta Model 3D dengan NeRF
Seterusnya, Dreamfusion menggunakan model yang dikenali sebagai a Medan Sinaran Neural atau NeRF untuk benar-benar mencipta model 3D daripada set imej yang dijana. NeRF dapat mencipta pemandangan 3D yang kompleks diberikan set data imej 2D.
Mari cuba fahami cara NeRF berfungsi.
Model ini bertujuan untuk mencipta fungsi pemandangan isipadu berterusan yang dioptimumkan daripada set data imej 2D yang disediakan.
Jika model mencipta fungsi, apakah input dan output?
Fungsi pemandangan mengambil lokasi 3D dan arah tontonan 2D sebagai input. Fungsi itu kemudian mengeluarkan warna (dalam bentuk RGB) dan ketumpatan volum tertentu.
Untuk menjana imej 2D dari sudut pandangan tertentu, model akan menjana satu set titik 3D dan menjalankan titik tersebut melalui fungsi pemandangan untuk mengembalikan satu set nilai ketumpatan warna dan volum. Teknik pemaparan volum kemudiannya akan menukar nilai tersebut kepada output imej 2D.
Menggunakan Model Resapan NeRF dan 2D Bersama
Sekarang setelah kita tahu cara NeRF berfungsi, mari lihat cara model ini boleh menjana model 3D yang tepat daripada imej yang dijana kami.
Untuk setiap gesaan teks yang disediakan, DreamFusion melatih NeRF yang dimulakan secara rawak dari awal. Setiap lelaran memilih kedudukan kamera rawak dalam satu set koordinat sfera. Fikirkan model yang terbungkus dalam sfera kaca. Setiap kali kami menjana imej baharu model 3D kami, kami akan memilih titik rawak dalam sfera kami sebagai titik pandangan output kami. DreamFusion juga akan memilih kedudukan cahaya rawak l untuk digunakan untuk rendering.
Sebaik sahaja kami mempunyai kamera dan kedudukan cahaya, model NeRF akan dipaparkan. DreamFusion juga akan memilih secara rawak antara render berwarna, render tanpa tekstur dan rendering albedo tanpa sebarang lorekan.
Kami telah menyatakan sebelum ini bahawa kami mahu model teks-ke-imej (Imej) kami menghasilkan imej yang mencukupi untuk mencipta sampel yang mewakili.
Bagaimanakah Dreamfusion mencapai ini?
Dreamfusion hanya mengubah suai gesaan input sedikit untuk mencapai sudut yang dimaksudkan. Sebagai contoh, kita boleh mencapai sudut ketinggian tinggi dengan menambahkan "pandangan atas" pada gesaan kami. Kita boleh menjana sudut lain dengan menambahkan frasa seperti "pandangan hadapan", "pandangan sisi" dan "pandangan belakang".
Adegan berulang kali dipaparkan daripada kedudukan kamera rawak. Penyampaian ini kemudiannya melalui fungsi kehilangan penyulingan skor. Pendekatan penurunan kecerunan yang mudah perlahan-lahan akan meningkatkan Model 3D sehingga ia sepadan dengan adegan yang diterangkan oleh teks.
Sebaik sahaja kami telah memaparkan model 3D menggunakan NeRF, kami boleh menggunakan Algoritma Kiub Kawad untuk mengeluarkan jaringan 3D model kami. Jaring ini kemudiannya boleh diimport ke pemapar 3D atau perisian pemodelan yang popular.
Batasan
Walaupun output DreamFusion cukup mengagumkan kerana ia menggunakan model penyebaran teks-ke-imej sedia ada dengan cara yang baru, para penyelidik telah mencatatkan beberapa batasan.
Fungsi kehilangan SDS telah diperhatikan untuk menghasilkan keputusan tepu dan terlalu licin. Anda boleh melihat ini dalam pewarnaan yang tidak semulajadi dan kekurangan perincian tepat yang terdapat dalam output.
Algoritma DreamFusion juga dihadkan oleh resolusi output model Imagen, iaitu 64 x 64 piksel. Ini menyebabkan model yang disintesis tidak mempunyai butiran yang lebih halus.
Akhir sekali, para penyelidik telah menyatakan bahawa terdapat cabaran yang wujud dalam mensintesis model 3D daripada data 2D. Terdapat banyak kemungkinan model 3D yang boleh kami hasilkan daripada satu set imej 2D, yang menjadikan pengoptimuman agak sukar dan malah tidak jelas.
Kesimpulan
Penyampaian 3D DreamFusion berfungsi dengan baik kerana keupayaan model resapan teks ke imej untuk mencipta sebarang objek atau pemandangan. Sungguh mengagumkan bagaimana rangkaian saraf boleh memahami pemandangan dalam ruang 3D tanpa sebarang data latihan 3D. Saya mengesyorkan membaca keseluruhan kertas untuk mengetahui lebih lanjut mengenai butiran teknikal algoritma DreamFusion.
Mudah-mudahan, teknologi ini akan bertambah baik untuk akhirnya mencipta model 3D foto-realistik. Bayangkan keseluruhan permainan video atau simulasi yang menggunakan persekitaran yang dijana AI. Ia boleh mengurangkan halangan kemasukan untuk pembangun permainan video untuk mencipta dunia 3D yang mengasyikkan!
Apakah peranan yang anda fikir model teks-ke-3D akan dimainkan pada masa hadapan?
Sila tinggalkan balasan anda