Talán hallott már arról, hogy a szöveg-kép AI-modellek milyen erőteljesek lettek az elmúlt néhány évben. De tudtad, hogy ugyanez a technológia segíthet a 2D-ről a 3D-re való ugrásban?
A mesterséges intelligencia által generált 3D modellek széles körben használhatók a mai digitális környezetben. Videojátékok és a filmek képzett 3D művészekre és modellező szoftverekre, például a Blenderre támaszkodnak, hogy 3D-s eszközöket hozzanak létre a számítógéppel generált jelenetek feltöltéséhez.
Lehetséges-e azonban, hogy az iparág a gépi tanulás segítségével kevesebb erőfeszítéssel hozzon létre 3D-s eszközöket, hasonlóan ahhoz, ahogy a 2D-s művészek manapság kezdik átvenni az olyan technológiákat, mint a DALL-E és középút?
Ez a cikk egy újszerű algoritmust vizsgál meg, amely hatékony szöveg-3D modellt próbál létrehozni a meglévők felhasználásával diffúziós modellek.
Mi Álomfúzió?
A 3D-s eszközöket közvetlenül generáló diffúziós modell létrehozásának egyik fő problémája az, hogy egyszerűen nem áll rendelkezésre sok 3D-s adat. A 2D-s diffúziós modellek az interneten található hatalmas képadatkészlet miatt váltak ilyen erőteljessé. Ugyanez nem mondható el a 3D-s eszközökről.
Egyes 3D-s generatív technikák az adathiányt úgy oldják meg, hogy kihasználják ezt a rengeteg 2D-s adatot.
DreamFusion egy generatív modell, amely 3D modelleket tud létrehozni egy megadott szöveges leírás alapján. A DreamFusion modell egy előre betanított szöveg-kép diffúziós modellt használ a valósághű háromdimenziós modellek létrehozásához szöveges promptokból.
Annak ellenére, hogy nincsenek 3D-s betanítási adatok, ez a megközelítés koherens 3D-eszközöket hozott létre nagy pontosságú megjelenéssel és mélységgel.
Hogyan működik?
A DreamFusion algoritmus két fő modellből áll: egy 2D diffúziós modellből és a neurális hálózat amely a 2D képeket összefüggő 3D jelenetté alakíthatja.
A Google Imagen Text-to-Image modellje
Az algoritmus első része a diffúziós modell. Ez a modell felelős a szöveg képpé alakításáért.
Kép egy diffúziós modell, amely egy adott objektum képváltozatainak nagy mintáját képes generálni. Ebben az esetben a képváltozatainknak le kell fedniük a megadott objektum összes lehetséges szögét. Például, ha egy ló 3D-s modelljét szeretnénk létrehozni, akkor 2D-s képeket szeretnénk a lóról minden lehetséges szögből. A cél az, hogy az Imagen segítségével a lehető legtöbb információt (színek, tükröződések, sűrűség) biztosítsuk az algoritmusunk következő modelljéhez.
3D modellek készítése NeRF segítségével
Ezután a Dreamfusion egy olyan modellt használ, amely a Neurális sugárzási mező vagy NeRF, hogy ténylegesen létrehozza a 3D modellt a generált képkészletből. A NeRF-ek képesek összetett 3D-s jeleneteket létrehozni egy 2D-s képek adatkészletével.
Próbáljuk megérteni a NeRF működését.
A modell célja egy folyamatos volumetrikus jelenetfüggvény létrehozása, amelyet a rendelkezésre álló 2D képek adatkészletéből optimalizálnak.
Ha a modell függvényt hoz létre, mi a bemenet és a kimenet?
A jelenet funkció bemenetként egy 3D-s helyet és egy 2D-s nézési irányt vesz fel. A funkció ezután egy színt (RGB formájában) és egy adott térfogatsűrűséget ad ki.
Ha egy adott nézőpontból szeretne 2D-s képet létrehozni, a modell 3D-s pontokat generál, és ezeket a pontokat a jelenet függvényen keresztül futtatja, hogy visszaadja a szín- és térfogatsűrűség-értékkészletet. A kötetleképezési technikák ezután ezeket az értékeket 2D-s képkimenetté alakítják.
NeRF és 2D diffúziós modellek együttes használata
Most, hogy ismerjük a NeRF működését, nézzük meg, hogyan tud ez a modell pontos 3D modelleket generálni a generált képeinkből.
A DreamFusion minden megadott szöveges prompthoz véletlenszerűen inicializált NeRF-et képez a semmiből. Minden iteráció véletlenszerű kamerapozíciót választ a gömbkoordináták halmazában. Gondoljon az üveggömbbe burkolt modellre. Minden alkalommal, amikor létrehozunk egy új képet a 3D modellünkről, a gömbünk egy véletlenszerű pontját választjuk ki a kimenetünk nézőpontjaként. A DreamFusion véletlenszerű világítási pozíciót is választ l rendereléshez használni.
Ha megvan a kamera és a fényállás, akkor egy NeRF modell készül. A DreamFusion véletlenszerűen választ a színes renderelés, a textúra nélküli renderelés és az albedó árnyékolás nélküli renderelése között is.
Korábban már említettük, hogy azt szeretnénk, ha a szöveg-kép modellünk (Imagen) elegendő képet produkálna egy reprezentatív minta létrehozásához.
Hogyan éri el ezt a Dreamfusion?
A Dreamfusion egyszerűen módosítja a beviteli promptot, hogy elérje a kívánt szögeket. Például nagy emelkedési szögeket érhetünk el, ha a prompthoz hozzáfűzzük a „felülnézetet”. Más szögeket is létrehozhatunk olyan kifejezések hozzáfűzésével, mint az „elölnézet”, „oldalnézet” és „hátulnézet”.
A jelenetek ismételten véletlenszerű kameraállásokból jelennek meg. Ezek a renderelések ezután átmennek egy pontszámdesztillációs veszteségfüggvényen. Egy egyszerű gradiens süllyedési megközelítés lassan javítja a 3D modell amíg nem egyezik a szöveg által leírt jelenettel.
Miután a 3D modellt NeRF segítségével rendereltük, használhatjuk a Marching Cubes algoritmus modellünk 3D-s hálójának megjelenítéséhez. Ez a háló importálható népszerű 3D renderelőkbe vagy modellező szoftverekbe.
korlátozások
Bár a DreamFusion teljesítménye kellően lenyűgöző, mivel újszerű módon használja a meglévő szöveg-kép diffúziós modelleket, a kutatók felfigyeltek néhány korlátozásra.
A megfigyelések szerint az SDS veszteségfüggvény túltelített és túlsimított eredményeket produkál. Ez megfigyelhető a kimenetekben található természetellenes színezésben és a pontos részletek hiányában.
A DreamFusion algoritmust az Imagen modell kimenetének felbontása is korlátozza, ami 64 x 64 pixel. Ez ahhoz vezet, hogy a szintetizált modellekből hiányoznak a finomabb részletek.
Végül a kutatók megjegyezték, hogy a 3D-s modellek 2D-s adatokból történő szintetizálása alapvető kihívást jelent. Számos lehetséges 3D modell létezik, amelyeket 2D képek halmazából generálhatunk, ami meglehetősen nehézzé, sőt kétértelművé teszi az optimalizálást.
Következtetés
A DreamFusion 3D-s megjelenítései azért működnek jól, mert a szöveg-kép diffúziós modellek képesek bármilyen objektumot vagy jelenetet létrehozni. Lenyűgöző, hogy egy neurális hálózat hogyan képes megérteni egy jelenetet a 3D-s térben 3D betanítási adatok nélkül. Javaslom elolvasni a az egész papírt hogy többet megtudjon a DreamFusion algoritmus technikai részleteiről.
Remélhetőleg ez a technológia tovább fog fejlődni, és végül fotórealisztikus 3D-s modelleket készíthet. Képzeljen el teljes videojátékokat vagy szimulációkat, amelyek mesterséges intelligencia által generált környezeteket használnak. Csökkentheti a belépési korlátot a videojáték-fejlesztők előtt, hogy magával ragadó 3D-s világokat hozzanak létre!
Mit gondol, milyen szerepet fognak játszani a szöveg-3D modellek a jövőben?
Hagy egy Válaszol