Son bir neçə ildə mətndən-şəklə AI modellərinin necə güclü hala gəldiyini eşitmiş ola bilərsiniz. Ancaq eyni texnologiyanın 2D-dən 3D-yə sıçrayış etməyə kömək edə biləcəyini bilirdinizmi?
Süni intellektlə yaradılan 3D modellər bugünkü rəqəmsal mənzərədə geniş istifadə olunur. Video oyunlar və film kompüter tərəfindən yaradılan səhnələri doldurmaq üçün 3D aktivləri yaratmaq üçün Blender kimi bacarıqlı 3D rəssamlara və modelləşdirmə proqramlarına əsaslanır.
Bununla belə, sənayenin bu gün 3D rəssamlarının DALL-E kimi texnologiyanı mənimsəməyə başladığı kimi, daha az səylə 2D aktivləri yaratmaq üçün maşın öyrənməsindən istifadə edə bilərmi? Yolun ortası?
Bu məqalə mövcud alqoritmdən istifadə edərək effektiv mətndən 3D-yə model yaratmağa çalışan yeni alqoritmi araşdıracaq. diffuziya modelləri.
Nədir Dreamfusion?
Birbaşa 3D aktivləri yaradan diffuziya modelinin yaradılması ilə bağlı əsas problemlərdən biri sadəcə olaraq çoxlu 3D məlumatın olmamasıdır. 2D diffuziya modelləri internetdə tapılan geniş təsvirlər toplusuna görə çox güclü olmuşdur. Eyni şeyi 3D aktivləri ilə demək olmaz.
Bəzi 3D generativ üsullar bu 2D məlumat bolluğundan istifadə edərək bu məlumat çatışmazlığını aradan qaldırır.
DreamFusion təqdim olunan mətn təsviri əsasında 3D modellər yarada bilən generativ modeldir. DreamFusion modeli mətn göstərişlərindən real üçölçülü modellər yaratmaq üçün əvvəlcədən öyrədilmiş mətndən təsvirə diffuziya modelindən istifadə edir.
3D təlim məlumatlarının olmamasına baxmayaraq, bu yanaşma yüksək dəqiqlikli görünüş və dərinliyə malik ardıcıl 3D aktivləri yaratmışdır.
Bu necə çalışır mı?
DreamFusion alqoritmi iki əsas modeldən ibarətdir: 2D diffuziya modeli və bir neyron şəbəkə ki, 2D təsvirləri vahid 3D səhnəyə çevirə bilir.
Google-un Imagen Text-to-Image Modeli
Alqoritmin birinci hissəsi diffuziya modelidir. Bu model mətni şəkillərə çevirməkdən məsuldur.
Təsvir müəyyən bir obyektin təsvir variasiyalarının böyük bir nümunəsini yarada bilən diffuziya modelidir. Bu halda, bizim təsvir varyasyonlarımız təqdim olunan obyektin bütün mümkün bucaqlarını əhatə etməlidir. Məsələn, bir atın 3D modelini yaratmaq istəsək, atın bütün mümkün bucaqlardan 2D şəkillərini istərdik. Məqsəd alqoritmimizdəki növbəti model üçün mümkün qədər çox məlumat (rənglər, əkslər, sıxlıq) təmin etmək üçün Imagen-dən istifadə etməkdir.
NeRF ilə 3D modellərin yaradılması
Sonra Dreamfusion a kimi tanınan bir modeldən istifadə edir Neyro Radiance Sahəsi və ya NeRF, əslində yaradılan təsvir dəstindən 3D modeli yaratmaq üçün. NeRF-lər 3D təsvirlər toplusunu nəzərə alaraq mürəkkəb 2D səhnələr yarada bilirlər.
NeRF-nin necə işlədiyini anlamağa çalışaq.
Model 2D təsvirlərin təqdim olunmuş verilənlər bazasından optimallaşdırılmış davamlı həcmli səhnə funksiyası yaratmağı hədəfləyir.
Model bir funksiya yaradırsa, giriş və çıxış nədir?
Səhnə funksiyası giriş kimi 3D məkanı və 2D baxış istiqamətini alır. Bundan sonra funksiya rəng (RGB şəklində) və müəyyən həcm sıxlığını verir.
Müəyyən bir nöqteyi-nəzərdən 2D təsvir yaratmaq üçün model bir sıra 3D nöqtələri yaradacaq və bir sıra rəng və həcm sıxlığı dəyərlərini qaytarmaq üçün həmin nöqtələri səhnə funksiyasından keçirəcək. Həcmi göstərmə üsulları daha sonra bu dəyərləri 2D görüntü çıxışına çevirəcək.
NeRF və 2D Diffuziya Modellərinin Birgə İstifadəsi
İndi NeRF-nin necə işlədiyini bildiyimizə görə gəlin bu modelin yaratdığımız şəkillərdən necə dəqiq 3D modellər yarada biləcəyinə baxaq.
Təqdim olunan hər bir mətn sorğusu üçün DreamFusion sıfırdan təsadüfi işə salınmış NeRF hazırlayır. Hər bir iterasiya sferik koordinatlar dəstində təsadüfi kamera mövqeyini seçir. Şüşə kürə ilə örtülmüş modeli düşünün. Hər dəfə 3D modelimizin yeni şəklini yaradanda çıxışımızın baxış nöqtəsi kimi sferamızda təsadüfi bir nöqtə seçəcəyik. DreamFusion həmçinin təsadüfi işıq mövqeyini seçəcək l göstərmək üçün istifadə etmək.
Kamera və işıq mövqeyimiz olduqdan sonra NeRF modeli göstəriləcək. DreamFusion həmçinin təsadüfi olaraq rəngli render, fakturasız render və heç bir kölgə olmadan albedonun göstərilməsi arasında seçim edəcək.
Daha əvvəl qeyd etdik ki, biz mətndən-şəklə modelimizin (Imagen) təmsilçi nümunə yaratmaq üçün kifayət qədər təsvirlər istehsal etməsini istəyirik.
Dreamfusion bunu necə həyata keçirir?
Dreamfusion sadəcə olaraq nəzərdə tutulan bucaqlara nail olmaq üçün daxiletmə əmrini bir qədər dəyişdirir. Məsələn, sorğumuza “yuxarı görünüş” əlavə etməklə yüksək hündürlük açılarına nail ola bilərik. Biz “ön görünüş”, “yan görünüş” və “arxa görünüş” kimi ifadələr əlavə etməklə başqa bucaqlar yarada bilərik.
Səhnələr təsadüfi kamera mövqelərindən dəfələrlə göstərilir. Bu təsvirlər daha sonra bal distillə itkisi funksiyasından keçir. Sadə bir gradient eniş yanaşması yavaş-yavaş yaxşılaşdıracaq 3D modeli mətnin təsvir etdiyi səhnəyə uyğun gələnə qədər.
NeRF istifadə edərək 3D modeli təqdim etdikdən sonra istifadə edə bilərik Yürüş kubları alqoritmi modelimizin 3D şəbəkəsini çıxarmaq üçün. Bu şəbəkə daha sonra məşhur 3D rendererlərə və ya modelləşdirmə proqramına idxal edilə bilər.
Məhdudiyyətlər
DreamFusion-un çıxışı kifayət qədər təsir edici olsa da, mövcud mətndən təsvirə yayılma modellərindən yeni şəkildə istifadə edir, tədqiqatçılar bir neçə məhdudiyyəti qeyd ediblər.
SDS itkisi funksiyasının həddindən artıq doymuş və həddindən artıq hamarlanmış nəticələr çıxardığı müşahidə edilmişdir. Bunu çıxışlarda aşkar edilən qeyri-təbii rəngləmə və dəqiq detalların olmamasında müşahidə edə bilərsiniz.
DreamFusion alqoritmi də 64 x 64 piksel olan Imagen model çıxışının həlli ilə məhdudlaşır. Bu, sintez edilmiş modellərin daha incə detalların olmamasına gətirib çıxarır.
Nəhayət, tədqiqatçılar qeyd etdilər ki, 3D məlumatlardan 2D modelləri sintez etməkdə özünəməxsus problem var. 3D təsvirlər toplusundan yarada biləcəyimiz bir çox mümkün 2D modellər var ki, bu da optimallaşdırmanı olduqca çətin və hətta qeyri-müəyyən edir.
Nəticə
DreamFusion-un 3D renderləri mətndən-şəklə diffuziya modellərinin istənilən obyekt və ya səhnə yaratmaq qabiliyyətinə görə çox yaxşı işləyir. Neyron şəbəkənin 3D məkanında səhnəni heç bir 3D təlim məlumatı olmadan necə anlaya bilməsi heyranedicidir. oxumağı tövsiyə edirəm bütün kağız DreamFusion alqoritminin texniki detalları haqqında ətraflı öyrənmək üçün.
Ümid edirik ki, bu texnologiya nəticədə foto-real 3D modellər yaratmaq üçün təkmilləşəcək. Süni intellekt tərəfindən yaradılan mühitlərdən istifadə edən bütün video oyunları və ya simulyasiyaları təsəvvür edin. Bu, video oyun tərtibatçılarının immersiv 3D dünyaları yaratmaq üçün giriş maneəsini azalda bilər!
Sizcə, mətndən 3D-yə modellər gələcəkdə hansı rolu oynayacaq?
Cavab yaz