Olet ehkä kuullut, kuinka tehokkaita tekstistä kuvaksi AI-malleista on tullut parin viime vuoden aikana. Mutta tiesitkö, että sama tekniikka voisi auttaa tekemään harppauksen 2D:stä 3D:hen?
Tekoälyn luomilla 3D-malleilla on laaja käyttökohde nykypäivän digitaalisessa ympäristössä. Videopelit ja elokuvat luottavat taitaviin 3D-taiteilijoihin ja mallinnusohjelmistoihin, kuten Blender, 3D-resurssien luomiseen tietokoneella luotujen kohtausten täyttämiseksi.
Onko kuitenkin mahdollista, että teollisuus voisi käyttää koneoppimista luodakseen 3D-resursseja pienemmällä vaivalla, samalla tavalla kuin 2D-taiteilijat ovat nykyään alkaneet omaksua teknologiaa, kuten DALL-E ja Keskimatka?
Tässä artikkelissa tarkastellaan uutta algoritmia, joka yrittää luoda tehokkaan tekstistä 3D-mallin olemassa olevan avulla diffuusio malleja.
Mikä on Dreamfusion?
Yksi suuri ongelma 3D-resursseja suoraan luovan diffuusiomallin luomisessa on se, että saatavilla ei yksinkertaisesti ole paljon 3D-dataa. 2D-diffuusiomalleista on tullut niin tehokkaita Internetistä löytyvän laajan tietojoukon ansiosta. Samaa ei voida sanoa 3D-resursseista.
Jotkut 3D-generatiiviset tekniikat kiertävät tämän tiedon puutteen hyödyntämällä tätä 2D-datan runsautta.
DreamFusion on generatiivinen malli, joka voi luoda 3D-malleja toimitetun tekstikuvauksen perusteella. DreamFusion-malli käyttää valmiiksi koulutettua tekstistä kuvaksi diffuusiomallia luodakseen realistisia kolmiulotteisia malleja tekstikehotteista.
Vaikka 3D-harjoitusdataa ei ole, tämä lähestymistapa on luonut yhtenäisiä 3D-resursseja, joiden ulkonäkö ja syvyys ovat korkealaatuisia.
Kuinka se toimii?
DreamFusion-algoritmi koostuu kahdesta päämallista: 2D-diffuusiomallista ja a neuroverkkomallien joka voi muuntaa 2D-kuvat yhtenäiseksi 3D-näkymäksi.
Googlen Imagen Text-to-Image -malli
Algoritmin ensimmäinen osa on diffuusiomalli. Tämä malli vastaa tekstin muuntamisesta kuviksi.
Kuva on diffuusiomalli, joka voi luoda suuren otoksen kuvamuunnelmia tietystä kohteesta. Tässä tapauksessa kuvamuunnelmiemme tulisi kattaa tarjotun kohteen kaikki mahdolliset kulmat. Jos esimerkiksi halusimme luoda 3D-mallin hevosesta, haluaisimme hevosesta 2D-kuvia kaikista mahdollisista kulmista. Tavoitteena on käyttää Imagen-ohjelmaa antamaan mahdollisimman paljon tietoa (värit, heijastukset, tiheys) seuraavalle algoritmimme mallille.
3D-mallien luominen NeRF:llä
Seuraavaksi Dreamfusion käyttää mallia, joka tunnetaan nimellä a Neuraalinen säteilykenttä tai NeRF luodaksesi 3D-mallin luodusta kuvajoukosta. NeRF:t pystyvät luomaan monimutkaisia 3D-kohtauksia 2D-kuvien tietojoukon perusteella.
Yritetään ymmärtää, kuinka NeRF toimii.
Mallin tavoitteena on luoda jatkuva tilavuusnäkymätoiminto, joka on optimoitu toimitetusta 2D-kuvien tietojoukosta.
Jos malli luo funktion, mitkä ovat tulo ja tulos?
Kohtaustoiminto ottaa tulona 3D-sijainnin ja 2D-katselun suunnan. Toiminto tulostaa sitten värin (RGB-muodossa) ja tietyn tilavuustiheyden.
Luodakseen 2D-kuvan tietystä näkökulmasta malli luo joukon 3D-pisteitä ja ajaa ne pisteet kohtaustoiminnon läpi palauttaakseen joukon väri- ja tilavuustiheysarvoja. Tilavuusrenderöintitekniikat muuntaa sitten nämä arvot 2D-kuvaksi.
NeRF- ja 2D-diffuusiomallien käyttö yhdessä
Nyt kun tiedämme, kuinka NeRF toimii, katsotaan kuinka tämä malli voi luoda tarkkoja 3D-malleja luomistamme kuvista.
DreamFusion kouluttaa jokaiselle tekstikehoteelle satunnaisesti alustetun NeRF:n tyhjästä. Jokainen iteraatio valitsee satunnaisen kameran sijainnin pallomaisten koordinaattien joukosta. Ajattele lasipalloon koteloitua mallia. Joka kerta kun luomme uuden kuvan 3D-mallistamme, valitsemme satunnaisen pisteen pallostamme tulosteemme näkökulmaksi. DreamFusion valitsee myös satunnaisen valoasennon l käyttää renderöintiin.
Kun meillä on kamera ja valon sijainti, renderöidään NeRF-malli. DreamFusion valitsee myös satunnaisesti värillisen renderöinnin, tekstuurittoman renderoinnin ja albedon renderöinnin ilman varjostusta.
Olemme maininneet aiemmin, että haluamme tekstistä kuvaksi -mallimme (Imagen) tuottavan tarpeeksi kuvia edustavan näytteen luomiseksi.
Miten Dreamfusion saa tämän aikaan?
Dreamfusion yksinkertaisesti muuttaa syöttökehotetta hieman aiottujen kulmien saavuttamiseksi. Voimme esimerkiksi saavuttaa korkeita korkeuskulmia lisäämällä kehotteeseen "overhead view". Voimme luoda muita kuvakulmia lisäämällä lauseita, kuten "näkymä edestä", "sivunäkymä" ja "takanäkymä".
Kohtaukset renderöidään toistuvasti satunnaisista kamerapaikoista. Nämä rappaukset kulkevat sitten pistetislaushäviöfunktion läpi. Yksinkertainen kaltevuuslaskumenetelmä parantaa hitaasti 3D-malli kunnes se vastaa tekstissä kuvattua kohtausta.
Kun olemme renderöineet 3D-mallin NeRF:llä, voimme käyttää Marching Cubes -algoritmi tulostaaksesi mallimme 3D-verkon. Tämä verkko voidaan sitten tuoda suosittuihin 3D-hahmontajiin tai mallinnusohjelmistoihin.
Rajoitukset
Vaikka DreamFusionin tuotos on riittävän vaikuttava, koska se käyttää olemassa olevia tekstistä kuvaksi diffuusiomalleja uudella tavalla, tutkijat ovat havainneet muutamia rajoituksia.
SDS-häviötoiminnon on havaittu tuottavan ylikyllästyneitä ja liian tasoitettuja tuloksia. Voit havaita tämän tulosten luonnottomassa värityksessä ja tarkkojen yksityiskohtien puutteessa.
DreamFusion-algoritmia rajoittaa myös Imagen-mallin lähdön resoluutio, joka on 64 x 64 pikseliä. Tämä johtaa siihen, että syntetisoiduista malleista puuttuu hienompia yksityiskohtia.
Lopuksi tutkijat ovat havainneet, että 3D-mallien syntetisoinnissa 2D-datasta on luontainen haaste. On olemassa monia mahdollisia 3D-malleja, joita voimme luoda joukosta 2D-kuvia, mikä tekee optimoinnista melko vaikeaa ja jopa epäselvää.
Yhteenveto
DreamFusionin 3D-renderöinnit toimivat niin hyvin, koska tekstistä kuvaksi - diffuusiomallit pystyvät luomaan mitä tahansa esinettä tai kohtausta. On vaikuttavaa, kuinka hermoverkko voi ymmärtää näkymän 3D-avaruudessa ilman 3D-harjoitusdataa. Suosittelen lukemaan koko paperi saadaksesi lisätietoja DreamFusion-algoritmin teknisistä yksityiskohdista.
Toivottavasti tämä tekniikka paranee, jotta lopulta voidaan luoda fotorealistisia 3D-malleja. Kuvittele kokonaisia videopelejä tai simulaatioita, jotka käyttävät tekoälyn luomia ympäristöjä. Se voisi alentaa videopelien kehittäjien pääsyn estettä mukaansatempaavien 3D-maailmojen luomiseen!
Millainen rooli tekstistä 3D-malliksi mielestäsi on tulevaisuudessa?
Jätä vastaus