So'nggi bir necha yil ichida matndan tasvirga AI modellari qanchalik kuchli bo'lgani haqida eshitgan bo'lishingiz mumkin. Ammo xuddi shu texnologiya 2D dan 3D ga sakrashga yordam berishi mumkinligini bilarmidingiz?
AI tomonidan yaratilgan 3D modellar bugungi raqamli landshaftda keng qo'llaniladi. Video O'yinlar va kino kompyuterda yaratilgan sahnalarni to'ldirish uchun 3D aktivlarini yaratish uchun malakali 3D rassomlari va Blender kabi modellashtirish dasturlariga tayanadi.
Biroq, bugungi kunda 3D rassomlari DALL-E kabi texnologiyalarni o'zlashtira boshlaganiga o'xshab, sanoat 2D aktivlarini kamroq kuch bilan yaratish uchun mashinani o'rganishdan foydalanishi mumkinmi? O'rta sayohat?
Ushbu maqola mavjud algoritmlardan foydalangan holda matndan 3Dga samarali model yaratishga harakat qiladigan yangi algoritmni o'rganadi. diffuziya modellari.
Nima bu Dreamfusion?
To'g'ridan-to'g'ri 3D aktivlarini yaratadigan diffuziya modelini yaratish bilan bog'liq asosiy muammolardan biri shundaki, 3D ma'lumotlari juda ko'p emas. 2D diffuziya modellari Internetda topilgan tasvirlarning katta ma'lumotlar to'plami tufayli juda kuchli bo'ldi. 3D aktivlari haqida ham shunday deyish mumkin emas.
Ba'zi 3D generativ texnikalar 2D ma'lumotlarning ko'pligidan foydalanib, ma'lumotlar etishmasligini bartaraf etadi.
DreamFusion taqdim etilgan matn tavsifi asosida 3D modellarni yaratishi mumkin bo'lgan generativ modeldir. DreamFusion modeli matn takliflaridan real uch o‘lchamli modellarni yaratish uchun oldindan o‘rgatilgan matndan tasvirga diffuziya modelidan foydalanadi.
3D ta'lim ma'lumotlariga ega bo'lmaganiga qaramay, bu yondashuv yuqori aniqlik va chuqurlikka ega bo'lgan izchil 3D aktivlarni yaratdi.
Bu qanday ishlaydi?
DreamFusion algoritmi ikkita asosiy modeldan iborat: 2D diffuziya modeli va neyron tarmoq bu 2D tasvirlarni birlashtirilgan 3D sahnaga aylantirishi mumkin.
Googlening Imagen matndan tasvirga modeli
Algoritmning birinchi qismi diffuziya modelidir. Ushbu model matnni tasvirga aylantirish uchun javobgardir.
Tasavvur qiling ma'lum bir ob'ektning tasvir o'zgarishlarining katta namunasini yaratishi mumkin bo'lgan diffuziya modeli. Bunday holda, bizning rasm o'zgarishlarimiz taqdim etilgan ob'ektning barcha mumkin bo'lgan burchaklarini qamrab olishi kerak. Misol uchun, agar biz otning 3D modelini yaratmoqchi bo'lsak, biz otning barcha mumkin bo'lgan burchaklaridan 2D tasvirlarini olishni xohlaymiz. Maqsad, algoritmimizdagi keyingi model uchun imkon qadar ko'proq ma'lumot (ranglar, aks ettirish, zichlik) bilan ta'minlash uchun Imagen-dan foydalanishdir.
NeRF yordamida 3D modellarni yaratish
Keyinchalik, Dreamfusion a deb nomlanuvchi modeldan foydalanadi Neyron nurlanish maydoni yoki NeRF yaratilgan tasvirlar to'plamidan 3D modelini yaratish uchun. NeRFlar 3D tasvirlar ma'lumotlar to'plamini hisobga olgan holda murakkab 2D sahnalarni yaratishga qodir.
Keling, NeRF qanday ishlashini tushunishga harakat qilaylik.
Model 2D tasvirlarning taqdim etilgan ma'lumotlar to'plamidan optimallashtirilgan doimiy hajmli sahna funktsiyasini yaratishga qaratilgan.
Agar model funksiya yaratsa, kirish va chiqish nima?
Sahna funksiyasi kirish sifatida 3D joylashuvi va 2D koʻrish yoʻnalishini oladi. Keyin funksiya rangni (RGB shaklida) va ma'lum hajm zichligini chiqaradi.
Muayyan nuqtai nazardan 2D tasvirni yaratish uchun model 3D nuqtalar to'plamini yaratadi va rang va hajm zichligi qiymatlari to'plamini qaytarish uchun ushbu nuqtalarni sahna funktsiyasi orqali boshqaradi. Ovoz balandligini ko'rsatish texnikasi keyinchalik bu qiymatlarni 2D tasvir chiqishiga aylantiradi.
NeRF va 2D diffuziya modellaridan birgalikda foydalanish
Endi biz NeRF qanday ishlashini bilganimizdan so'ng, keling, ushbu model bizning yaratilgan tasvirlarimizdan qanday qilib aniq 3D modellarni yaratishini ko'rib chiqaylik.
Har bir taqdim etilgan matn so'rovi uchun DreamFusion noldan tasodifiy ishga tushirilgan NeRFni o'rgatadi. Har bir iteratsiya sferik koordinatalar to'plamida tasodifiy kamera o'rnini tanlaydi. Shisha sharga o'ralgan modelni tasavvur qiling. Har safar biz 3D modelimizning yangi tasvirini yaratganimizda, biz chiqish nuqtasi sifatida o'z sohamizdagi tasodifiy nuqtani tanlaymiz. DreamFusion ham tasodifiy yorug'lik holatini tanlaydi l ko'rsatish uchun foydalanish.
Kamera va yorug'lik holatiga ega bo'lganimizdan so'ng, NeRF modeli ko'rsatiladi. DreamFusion, shuningdek, tasodifiy ravishda rangli render, teksturasiz render va albedoning hech qanday soyasiz ko'rinishini tanlaydi.
Biz yuqorida aytib o'tgan edik, biz matndan tasvirga modelimiz (Imagen) vakillik namunasini yaratish uchun etarli tasvirlarni ishlab chiqarishni xohlaymiz.
Dreamfusion buni qanday amalga oshiradi?
Dreamfusion mo'ljallangan burchaklarga erishish uchun kiritish so'rovini biroz o'zgartiradi. Misol uchun, biz taklifimizga "yuqori ko'rinish" ni qo'shish orqali yuqori balandlik burchaklariga erishishimiz mumkin. Biz "old ko'rinish", "yon ko'rinish" va "orqa ko'rinish" kabi iboralarni qo'shish orqali boshqa burchaklarni yaratishimiz mumkin.
Sahnalar tasodifiy kamera pozitsiyalaridan qayta-qayta ko'rsatiladi. Keyinchalik bu renderlar ball distillash yo'qotish funksiyasidan o'tadi. Oddiy gradient tushish yondashuvi asta-sekin yaxshilanadi 3D modeli matn tomonidan tasvirlangan sahnaga mos kelguncha.
NeRF yordamida 3D modelni ko'rsatganimizdan so'ng, biz foydalanishimiz mumkin Kublarni yurish algoritmi modelimizning 3D mashini chiqarish uchun. Keyinchalik bu mash mashhur 3D rendererlarga yoki modellashtirish dasturiga import qilinishi mumkin.
cheklashlar
DreamFusion-ning chiqishi etarlicha ta'sirli bo'lsa-da, u mavjud matndan tasvirga diffuziya modellarini yangi usulda ishlatadi, tadqiqotchilar bir nechta cheklovlarni qayd etdilar.
SDS yo'qotish funksiyasi haddan tashqari to'yingan va haddan tashqari silliq natijalarni keltirib chiqarishi kuzatilgan. Siz buni g'ayritabiiy rang berishda va chiqishlarda aniq tafsilotlarning yo'qligida kuzatishingiz mumkin.
DreamFusion algoritmi, shuningdek, 64 x 64 piksel bo'lgan Imagen modeli chiqishining o'lchamlari bilan cheklangan. Bu sintezlangan modellarning nozik detallari yo'qligiga olib keladi.
Va nihoyat, tadqiqotchilar 3D ma'lumotlaridan 2D modellarni sintez qilishda o'ziga xos qiyinchilik mavjudligini ta'kidladilar. 3D tasvirlar to'plamidan yaratishimiz mumkin bo'lgan ko'plab 2D modellar mavjud, bu esa optimallashtirishni juda qiyin va hatto noaniq qiladi.
Xulosa
DreamFusion-ning 3D renderlari matndan tasvirga diffuziya modellarining istalgan ob'ekt yoki sahnani yaratish qobiliyati tufayli juda yaxshi ishlaydi. Neyron tarmog'i 3D kosmosdagi sahnani hech qanday 3D ta'lim ma'lumotlarisiz qanday tushunishi juda ta'sirli. ni o'qishni tavsiya qilaman butun qog'oz DreamFusion algoritmining texnik tafsilotlari haqida ko'proq ma'lumot olish uchun.
Umid qilamizki, bu texnologiya oxir-oqibat fotorealistik 3D modellarni yaratish uchun yaxshilanadi. AI tomonidan yaratilgan muhitdan foydalanadigan butun video o'yinlar yoki simulyatsiyalarni tasavvur qiling. Bu video o'yinlar ishlab chiquvchilari uchun immersiv 3D olamlarni yaratish uchun kirish to'sig'ini kamaytirishi mumkin!
Sizningcha, matnni 3Dga o'tkazish modellari kelajakda qanday rol o'ynaydi?
Leave a Reply