Baliteke azken bi urteetan testutik irudirako AI ereduak zein indartsuak izan diren entzun izana. Baina ba al zenekien teknologia berak 2Dtik 3Drako jauzia ematen lagun dezakeela?
AI-k sortutako 3D ereduek erabilera-kasu zabala dute gaur egungo panorama digitalean. Bideo-jokoak eta filmak 3D artista trebeetan eta Blender bezalako modelizazio softwareetan oinarritzen dira ordenagailuz sortutako eszenak betetzeko 3D aktiboak sortzeko.
Hala ere, posible al da industriak ikaskuntza automatikoa erabiltzea esfortzu gutxiagorekin 3D aktiboak sortzeko, gaur egun 2Dko artistak DALL-E eta teknologiak hartzen hasi diren bezala. Bidaia erdikoa?
Artikulu honek lehendik dagoen erabiliz testurako 3D eredu eraginkor bat sortzen saiatzen den algoritmo berri bat aztertuko du difusio ereduak.
Zer da Dreamfusion?
3D aktiboak zuzenean sortzen dituen difusio-eredu bat sortzearen arazo nagusi bat 3D datu asko eskuragarri ez dagoela da. 2D difusio-ereduak hain indartsuak bihurtu dira Interneten aurkitutako irudien datu multzo zabalagatik. Ezin da gauza bera esan 3D aktiboekin.
3D sorkuntza-teknika batzuek datu-gabezia horren inguruan lan egiten dute, 2D datuen ugaritasun hori aprobetxatuz.
DreamFusion Emandako testu-deskribapen batean oinarrituta 3D ereduak sor ditzakeen eredu sortzailea da. DreamFusion ereduak testu-irudiaren hedapen-eredu bat erabiltzen du testu-aurretik hiru dimentsioko eredu errealistak sortzeko.
3D prestakuntza-daturik ez izan arren, ikuspegi honek fideltasun handiko itxura eta sakonera duten 3D aktiboak koherenteak sortu ditu.
Nola funtzionatzen du?
DreamFusion algoritmoak bi eredu nagusi ditu: 2D difusio eredua eta a sare neural 2D irudiak 3D eszena kohesionatu bihur ditzakeena.
Google-ren Imagen Testutik Irudi eredua
Algoritmoaren lehen zatia difusio-eredua da. Eredu hau testua irudi bihurtzeaz arduratzen da.
Irudia objektu jakin baten irudi-aldaketen lagin handi bat sor dezakeen difusio-eredu bat da. Kasu honetan, gure irudien aldaerek emandako objektuaren angelu posible guztiak estali beharko lituzke. Adibidez, zaldi baten 3D eredua sortu nahi bagenu, zaldiaren 2D irudiak nahi izango genituzke angelu posible guztietatik. Helburua Imagen erabiltzea da gure algoritmoko hurrengo ereduari ahalik eta informazio gehien emateko (koloreak, islak, dentsitatea).
NeRF-ekin 3D ereduak sortzea
Ondoren, Dreamfusion-ek a izenez ezagutzen den eredua erabiltzen du Distira Neural Eremua edo NeRF benetan sortutako irudi multzotik 3D eredua sortzeko. NeRFak 3D eszena konplexuak sortzeko gai dira 2D irudien datu multzo bat emanda.
Saia gaitezen NeRF batek nola funtzionatzen duen ulertzen.
Ereduaren helburua da eszena bolumetriko etengabeko funtzio bat sortzea 2D irudien datu multzotik optimizatuta.
Ereduak funtzio bat sortzen badu, zein dira sarrera eta irteera?
Eszena funtzioak 3D kokapena eta 2D ikusteko norabidea hartzen ditu sarrera gisa. Ondoren, funtzioak kolore bat (RGB moduan) eta bolumen-dentsitate zehatz bat ateratzen ditu.
Ikuspuntu zehatz batetik 2D irudi bat sortzeko, modeloak 3D puntu multzo bat sortuko du eta puntu horiek eszena funtzioaren bidez exekutatuko ditu kolore eta bolumen dentsitate balioen multzo bat itzultzeko. Bolumena errendatzeko teknikek balio horiek 2D irudien irteera bihurtuko dituzte.
NeRF eta 2D difusio ereduak elkarrekin erabiltzea
NeRF batek nola funtzionatzen duen dakigunez, ikus dezagun nola sor ditzakeen eredu honek 3D eredu zehatzak sortu ditugun irudietatik.
Emandako testu-abisu bakoitzeko, DreamFusion-ek ausaz hasieratutako NeRF bat entrenatzen du hutsetik. Iterazio bakoitzak ausazko kameraren posizioa aukeratzen du koordenatu esferiko multzo batean. Pentsa ezazu beirazko esfera batean sartutako modeloa. Gure 3D ereduaren irudi berri bat sortzen dugun bakoitzean, gure esferan ausazko puntu bat aukeratuko dugu gure irteeraren talaia gisa. DreamFusion-ek ausazko argi-posizio bat ere aukeratuko du l errendatzeko erabiltzeko.
Kamera eta argiaren posizioa dugunean, NeRF eredu bat errendatuko da. DreamFusion-ek ere ausaz aukeratuko du koloretako errendaketa, ehundurarik gabeko errendaketa eta albedoaren errendatze bat itzalik gabe.
Lehen aipatu dugu gure testutik irudi ereduak (Imagen) lagin adierazgarri bat sortzeko nahikoa irudi ekoiztea nahi dugula.
Nola lortzen du Dreamfusion-ek hori?
Dreamfusion-ek sarrerako gonbita pixka bat aldatzen du nahi diren angeluak lortzeko. Esate baterako, kota angelu handiak lor ditzakegu gure gonbidapenari "goiko ikuspegia" erantsiz. Beste angelu batzuk sor ditzakegu "aurrealdeko ikuspegia", "alboko ikuspegia" eta "atzeko ikuspegia" bezalako esaldiak erantsiz.
Eszenak behin eta berriz errendatzen dira ausazko kameraren posizioetatik. Ondoren, errendatze hauek puntuazio-destilazio-galera funtzio batetik igarotzen dira. Desnibelaren jaitsiera soil batek poliki-poliki hobetuko du 3D eredua testuak deskribatutako eszenarekin bat etorri arte.
NeRF erabiliz 3D eredua errendatu ondoren, erabil dezakegu Marching Cubes algoritmoa gure ereduaren 3D sare bat ateratzeko. Sare hau 3D errendatzaile ezagunetara edo modelatzeko softwareetara inporta daiteke.
Mugak
DreamFusion-en irteera nahikoa ikusgarria den arren, lehendik dauden testu-irudi hedapen ereduak modu berri batean erabiltzen dituenez, ikertzaileek muga batzuk adierazi dituzte.
SDS galtze-funtzioak gehiegizko saturatuak eta gehiegizko leunduak sortzen dituela ikusi da. Irteeretan aurkitutako kolore ez-naturalean eta xehetasun zehatzen faltan ikus dezakezu hori.
DreamFusion algoritmoa Imagen modeloaren irteeraren bereizmenak ere mugatzen du, hau da, 64 x 64 pixelekoa. Horrek sintetizatutako modeloak xehetasun finagoak ez izatea dakar.
Azkenik, ikertzaileek adierazi dute berezko erronka bat dagoela 3D datuetatik 2D ereduak sintetizatzean. 3D irudi multzo batetik sor ditzakegun 2D eredu posible asko daude, eta horrek optimizazioa nahiko zaila egiten du eta are anbiguoa egiten du.
Ondorioa
DreamFusion-en 3D errendatzeak oso ondo funtzionatzen du testutik irudira zabaltzeko ereduek edozein objektu edo eszena sortzeko duten gaitasunagatik. Ikusgarria da sare neuronal batek 3D espazioko eszena bat nola uler dezakeen 3D prestakuntza-daturik gabe. irakurtzea gomendatzen dut paper osoa DreamFusion algoritmoaren xehetasun teknikoei buruz gehiago jakiteko.
Zorionez, teknologia hau hobetuko da azkenean 3D eredu foto-errealistak sortzeko. Imajinatu AI bidez sortutako inguruneak erabiltzen dituzten bideo-joko edo simulazio osoak. Bideo-jokoen garatzaileentzako sarrera-hesia jaitsi lezake 3D mundu murgilgarriak sortzeko!
Zure ustez, zein funtzio izango dute testu-3D ereduak etorkizunean?
Utzi erantzun bat