Võib-olla olete kuulnud, kui võimsaks on tekstist pildiks muutmise AI mudelid viimase paari aasta jooksul muutunud. Kuid kas teadsite, et sama tehnoloogia võib aidata teha hüppe 2D-lt 3D-le?
AI-ga loodud 3D-mudelitel on tänapäeva digitaalsel maastikul lai kasutusvaldkond. Video-ja arvutimängud ja filmid toetuvad 3D-varade loomiseks kogenud 3D-kunstnikele ja modelleerimistarkvarale, näiteks Blenderile, et luua arvutiga loodud stseene.
Kuid kas on võimalik, et tööstus saaks kasutada masinõpet, et luua 3D-varasid väiksema vaevaga, sarnaselt sellele, kuidas 2D-kunstnikud hakkavad tänapäeval kasutusele võtma selliseid tehnoloogiaid nagu DALL-E ja Keskteekond?
See artikkel uurib uudset algoritmi, mis üritab olemasolevaid kasutades luua tõhusat teksti-3D-mudelit difusioonimudelid.
Mis on Dreamfusion?
3D-varasid otse genereeriva difusioonimudeli loomise üks peamisi probleeme on see, et 3D-andmeid pole lihtsalt palju. 2D difusioonimudelid on muutunud nii võimsaks, kuna Internetis on tohutult palju pilte. Sama ei saa öelda 3D-varade kohta.
Mõned 3D-generatiivsed tehnikad aitavad selle andmepuuduse ümber hoida, kasutades ära seda 2D-andmete rohkust.
DreamFusion on generatiivne mudel, millega saab luua 3D-mudeleid esitatud tekstikirjelduse põhjal. DreamFusioni mudel kasutab tekstiviipade põhjal realistlike kolmemõõtmeliste mudelite loomiseks eelkoolitatud tekstist pildiks hajutamise mudelit.
Hoolimata 3D-treeningu andmete puudumisest on see lähenemisviis loonud ühtsed 3D-varad, millel on kõrge täpsusega välimus ja sügavus.
Kuidas see toimib?
DreamFusioni algoritm koosneb kahest põhimudelist: 2D difusioonimudelist ja a Närvivõrgus mis suudab teisendada 2D-pildid ühtseks 3D-stseeniks.
Google'i Imagen Text-to-Image mudel
Algoritmi esimene osa on difusioonimudel. See mudel vastutab teksti kujutisteks teisendamise eest.
Pilt on difusioonimudel, mis suudab luua suure hulga konkreetse objekti kujutise variatsioone. Sel juhul peaksid meie kujutise variatsioonid katma kõik pakutava objekti võimalikud nurgad. Näiteks kui sooviksime luua hobuse 3D-mudelit, sooviksime hobusest 2D-kujutisi kõigi võimalike nurkade alt. Eesmärk on kasutada Imagenit, et pakkuda meie algoritmi järgmise mudeli jaoks võimalikult palju teavet (värvid, peegeldused, tihedus).
3D-mudelite loomine NeRF-iga
Järgmisena kasutab Dreamfusion mudelit, mida tuntakse a Neuraalse kiirguse väli või NeRF, et tegelikult luua loodud pildikomplektist 3D-mudel. NeRF-id on võimelised looma keerulisi 3D-stseene, võttes arvesse 2D-piltide andmekogu.
Proovime mõista, kuidas NeRF töötab.
Mudeli eesmärk on luua pidev mahuline stseenifunktsioon, mis on optimeeritud pakutava 2D-kujutiste andmekogumi põhjal.
Kui mudel loob funktsiooni, mis on sisend ja väljund?
Stseeni funktsioon võtab sisendiks 3D-asukoha ja 2D-vaatamise suuna. Seejärel väljastab funktsioon värvi (RGB kujul) ja kindla helitugevuse tiheduse.
Konkreetsest vaatepunktist 2D-kujutise genereerimiseks loob mudel 3D-punktide komplekti ja käivitab need punktid läbi stseenifunktsiooni, et tagastada värvi- ja helitugevuse väärtuste komplekt. Mahurenderdustehnika teisendab need väärtused 2D-kujutise väljundiks.
NeRF ja 2D difusioonimudelite koos kasutamine
Nüüd, kui teame, kuidas NeRF töötab, vaatame, kuidas see mudel saab meie loodud piltidest täpseid 3D-mudeleid genereerida.
DreamFusion treenib iga pakutava tekstiviipa jaoks juhuslikult lähtestatud NeRF-i nullist. Iga iteratsioon valib juhusliku kaamera asukoha sfääriliste koordinaatide komplektis. Mõelge mudelile, mis on ümbritsetud klaassfääriga. Iga kord, kui genereerime oma 3D-mudelist uue pildi, valime väljundi vaatepunktiks oma sfääris juhusliku punkti. DreamFusion valib ka juhusliku valguse asendi l renderdamiseks kasutada.
Kui meil on kaamera ja valgusasend, renderdatakse NeRF-mudel. DreamFusion valib juhuslikult ka värvilise renderduse, tekstuurita renderduse ja albeedo ilma varjutuseta renderduse vahel.
Oleme varem maininud, et tahame, et meie tekstist pildiks muutev mudel (Imagen) toodaks piisavalt pilte, et luua representatiivne näidis.
Kuidas Dreamfusion seda saavutab?
Dreamfusion lihtsalt muudab veidi sisendviipa, et saavutada kavandatud nurgad. Näiteks võime saavutada suuri kõrgusnurki, kui lisame oma viipale „ülevaate”. Saame luua muid vaatenurki, lisades fraasid, nagu "eestvaade", "külgvaade" ja "tagavaade".
Stseene renderdatakse korduvalt juhuslikest kaameraasenditest. Need töötlused läbivad seejärel skoori destilleerimise kadufunktsiooni. Lihtne gradiendiga laskumise lähenemisviis parandab aeglaselt 3D mudel kuni see ühtib tekstis kirjeldatud stseeniga.
Kui oleme 3D-mudeli NeRF-i abil renderdanud, saame kasutada Marsikuubikute algoritm et väljastada meie mudeli 3D-võrk. Seejärel saab selle võrgu importida populaarsetesse 3D-renderdajatesse või modelleerimistarkvaradesse.
Piirangud
Kuigi DreamFusioni väljund on piisavalt muljetavaldav, kuna see kasutab olemasolevaid teksti-pildi hajutamise mudeleid uudsel viisil, on teadlased märkinud mõningaid piiranguid.
On täheldatud, et SDS-i kadumise funktsioon annab üleküllastunud ja silutud tulemusi. Seda võib täheldada väljundite ebaloomulikus värvingus ja täpsete detailide puudumises.
DreamFusioni algoritmi piirab ka Imageni mudeli väljundi eraldusvõime, milleks on 64 x 64 pikslit. See viib selleni, et sünteesitud mudelitel puuduvad peenemad detailid.
Lõpuks on teadlased märkinud, et 3D-andmetest 2D-mudelite sünteesimisel on omane väljakutse. On palju võimalikke 3D-mudeleid, mida saame luua 2D-piltide komplektist, mis muudab optimeerimise üsna keeruliseks ja isegi mitmetähenduslikuks.
Järeldus
DreamFusioni 3D-renderdused töötavad nii hästi, kuna teksti-pildiks hajutamise mudelid suudavad luua mis tahes objekti või stseeni. On muljetavaldav, kuidas närvivõrk suudab 3D-ruumis stseeni mõista ilma 3D-treeninguandmeteta. Soovitan lugeda kogu paber DreamFusioni algoritmi tehniliste üksikasjade kohta lisateabe saamiseks.
Loodetavasti paraneb see tehnoloogia, et lõpuks luua fotorealistlikke 3D-mudeleid. Kujutage ette terveid videomänge või simulatsioone, mis kasutavad AI-ga loodud keskkondi. See võib vähendada videomängude arendajate sisenemisbarjääri kaasahaarava 3D-maailma loomisel!
Millist rolli mängivad teie arvates tekstist 3D-vormingus mudelid tulevikus?
Jäta vastus