DreamFusion – 3D modellek generálása szövegből

Tartalomjegyzék[Elrejt][Előadás]

Mi az a Dreamfusion?
Hogyan működik?+-
korlátozások
Következtetés

Talán hallott már arról, hogy a szöveg-kép AI-modellek milyen erőteljesek lettek az elmúlt néhány évben. De tudtad, hogy ugyanez a technológia segíthet a 2D-ről a 3D-re való ugrásban?

A mesterséges intelligencia által generált 3D modellek széles körben használhatók a mai digitális környezetben. Videojátékok és a filmek képzett 3D művészekre és modellező szoftverekre, például a Blenderre támaszkodnak, hogy 3D-s eszközöket hozzanak létre a számítógéppel generált jelenetek feltöltéséhez.

Lehetséges-e azonban, hogy az iparág a gépi tanulás segítségével kevesebb erőfeszítéssel hozzon létre 3D-s eszközöket, hasonlóan ahhoz, ahogy a 2D-s művészek manapság kezdik átvenni az olyan technológiákat, mint a DALL-E és középút?

Ez a cikk egy újszerű algoritmust vizsgál meg, amely hatékony szöveg-3D modellt próbál létrehozni a meglévők felhasználásával diffúziós modellek.

Mi Álomfúzió?

A 3D-s eszközöket közvetlenül generáló diffúziós modell létrehozásának egyik fő problémája az, hogy egyszerűen nem áll rendelkezésre sok 3D-s adat. A 2D-s diffúziós modellek az interneten található hatalmas képadatkészlet miatt váltak ilyen erőteljessé. Ugyanez nem mondható el a 3D-s eszközökről.

Egyes 3D-s generatív technikák az adathiányt úgy oldják meg, hogy kihasználják ezt a rengeteg 2D-s adatot.

A Dreamfusion összefüggő 3D-s modelleket generál a megadott szöveges leírásból

DreamFusion egy generatív modell, amely 3D modelleket tud létrehozni egy megadott szöveges leírás alapján. A DreamFusion modell egy előre betanított szöveg-kép diffúziós modellt használ a valósághű háromdimenziós modellek létrehozásához szöveges promptokból.

Annak ellenére, hogy nincsenek 3D-s betanítási adatok, ez a megközelítés koherens 3D-eszközöket hozott létre nagy pontosságú megjelenéssel és mélységgel.

Hogyan működik?

A DreamFusion algoritmus két fő modellből áll: egy 2D diffúziós modellből és a neurális hálózat amely a 2D képeket összefüggő 3D jelenetté alakíthatja.

A Google Imagen Text-to-Image modellje

Az algoritmus első része a diffúziós modell. Ez a modell felelős a szöveg képpé alakításáért.

Kép egy diffúziós modell, amely egy adott objektum képváltozatainak nagy mintáját képes generálni. Ebben az esetben a képváltozatainknak le kell fedniük a megadott objektum összes lehetséges szögét. Például, ha egy ló 3D-s modelljét szeretnénk létrehozni, akkor 2D-s képeket szeretnénk a lóról minden lehetséges szögből. A cél az, hogy az Imagen segítségével a lehető legtöbb információt (színek, tükröződések, sűrűség) biztosítsuk az algoritmusunk következő modelljéhez.

A Dreamfusion a Google Imagen segítségével állít elő képeket szövegből

3D modellek készítése NeRF segítségével

Ezután a Dreamfusion egy olyan modellt használ, amely a Neurális sugárzási mező vagy NeRF, hogy ténylegesen létrehozza a 3D modellt a generált képkészletből. A NeRF-ek képesek összetett 3D-s jeleneteket létrehozni egy 2D-s képek adatkészletével.

Próbáljuk megérteni a NeRF működését.

A modell célja egy folyamatos volumetrikus jelenetfüggvény létrehozása, amelyet a rendelkezésre álló 2D képek adatkészletéből optimalizálnak.

Ha a modell függvényt hoz létre, mi a bemenet és a kimenet?

A jelenet funkció bemenetként egy 3D-s helyet és egy 2D-s nézési irányt vesz fel. A funkció ezután egy színt (RGB formájában) és egy adott térfogatsűrűséget ad ki.

Ha egy adott nézőpontból szeretne 2D-s képet létrehozni, a modell 3D-s pontokat generál, és ezeket a pontokat a jelenet függvényen keresztül futtatja, hogy visszaadja a szín- és térfogatsűrűség-értékkészletet. A kötetleképezési technikák ezután ezeket az értékeket 2D-s képkimenetté alakítják.

A Dreamfusion egy NeRF-modellt használ egy függvény létrehozására, amely új nézeteket hoz létre egy jelenetről

NeRF és 2D diffúziós modellek együttes használata

Most, hogy ismerjük a NeRF működését, nézzük meg, hogyan tud ez a modell pontos 3D modelleket generálni a generált képeinkből.

A DreamFusion minden megadott szöveges prompthoz véletlenszerűen inicializált NeRF-et képez a semmiből. Minden iteráció véletlenszerű kamerapozíciót választ a gömbkoordináták halmazában. Gondoljon az üveggömbbe burkolt modellre. Minden alkalommal, amikor létrehozunk egy új képet a 3D modellünkről, a gömbünk egy véletlenszerű pontját választjuk ki a kimenetünk nézőpontjaként. A DreamFusion véletlenszerű világítási pozíciót is választ l rendereléshez használni.

Ha megvan a kamera és a fényállás, akkor egy NeRF modell készül. A DreamFusion véletlenszerűen választ a színes renderelés, a textúra nélküli renderelés és az albedó árnyékolás nélküli renderelése között is.

A Dreamfusion különböző szögekből bocsát ki képeket

Korábban már említettük, hogy azt szeretnénk, ha a szöveg-kép modellünk (Imagen) elegendő képet produkálna egy reprezentatív minta létrehozásához.

Hogyan éri el ezt a Dreamfusion?

A Dreamfusion egyszerűen módosítja a beviteli promptot, hogy elérje a kívánt szögeket. Például nagy emelkedési szögeket érhetünk el, ha a prompthoz hozzáfűzzük a „felülnézetet”. Más szögeket is létrehozhatunk olyan kifejezések hozzáfűzésével, mint az „elölnézet”, „oldalnézet” és „hátulnézet”.

A jelenetek ismételten véletlenszerű kameraállásokból jelennek meg. Ezek a renderelések ezután átmennek egy pontszámdesztillációs veszteségfüggvényen. Egy egyszerű gradiens süllyedési megközelítés lassan javítja a 3D modell amíg nem egyezik a szöveg által leírt jelenettel.

Miután a 3D modellt NeRF segítségével rendereltük, használhatjuk a Marching Cubes algoritmus modellünk 3D-s hálójának megjelenítéséhez. Ez a háló importálható népszerű 3D renderelőkbe vagy modellező szoftverekbe.

korlátozások

Bár a DreamFusion teljesítménye kellően lenyűgöző, mivel újszerű módon használja a meglévő szöveg-kép diffúziós modelleket, a kutatók felfigyeltek néhány korlátozásra.

A megfigyelések szerint az SDS veszteségfüggvény túltelített és túlsimított eredményeket produkál. Ez megfigyelhető a kimenetekben található természetellenes színezésben és a pontos részletek hiányában.

A DreamFusion algoritmust az Imagen modell kimenetének felbontása is korlátozza, ami 64 x 64 pixel. Ez ahhoz vezet, hogy a szintetizált modellekből hiányoznak a finomabb részletek.

Végül a kutatók megjegyezték, hogy a 3D-s modellek 2D-s adatokból történő szintetizálása alapvető kihívást jelent. Számos lehetséges 3D modell létezik, amelyeket 2D képek halmazából generálhatunk, ami meglehetősen nehézzé, sőt kétértelművé teszi az optimalizálást.

Következtetés

A DreamFusion 3D-s megjelenítései azért működnek jól, mert a szöveg-kép diffúziós modellek képesek bármilyen objektumot vagy jelenetet létrehozni. Lenyűgöző, hogy egy neurális hálózat hogyan képes megérteni egy jelenetet a 3D-s térben 3D betanítási adatok nélkül. Javaslom elolvasni a az egész papírt hogy többet megtudjon a DreamFusion algoritmus technikai részleteiről.

Remélhetőleg ez a technológia tovább fog fejlődni, és végül fotórealisztikus 3D-s modelleket készíthet. Képzeljen el teljes videojátékokat vagy szimulációkat, amelyek mesterséges intelligencia által generált környezeteket használnak. Csökkentheti a belépési korlátot a videojáték-fejlesztők előtt, hogy magával ragadó 3D-s világokat hozzanak létre!

Mit gondol, milyen szerepet fognak játszani a szöveg-3D modellek a jövőben?

DreamFusion – 3D-s modellek generálása szövegből

DreamFusion – 3D-s modellek generálása szövegből

Mi Álomfúzió?

Hogyan működik?

A Google Imagen Text-to-Image modellje

3D modellek készítése NeRF segítségével

NeRF és 2D diffúziós modellek együttes használata

korlátozások

Következtetés

Rólunk Deion Menor

További cikkek a HashDorkról:

Hogyan csökkentsük a hallucinációkat az AI-ban

Colossyan vs Heygen

Ez a Future Tech hírlevél nem szívás

DreamFusion – 3D-s modellek generálása szövegből

Mi Álomfúzió?

Hogyan működik?

A Google Imagen Text-to-Image modellje

3D modellek készítése NeRF segítségével

NeRF és 2D diffúziós modellek együttes használata

korlátozások

Következtetés

Rólunk Deion Menor

További cikkek a HashDorkról:

Hogyan csökkentsük a hallucinációkat az AI-ban

A 10 legjobb AI-eszköz a közösségi médiához

Colossyan vs Heygen

A 10 legjobb AI animációs videókészítő eszköz

Reader interakciók

Hagy egy Válaszol Mégsem válaszát

Ez a Future Tech hírlevél nem szívás