Možno ste už počuli o tom, aké výkonné sa za posledných pár rokov stali modely umelej inteligencie typu text-to-image. Vedeli ste však, že rovnaká technológia môže pomôcť pri skoku z 2D do 3D?
3D modely generované AI majú v dnešnom digitálnom prostredí široké využitie. Video hry a film sa spolieha na skúsených 3D umelcov a modelovací softvér, ako je Blender, aby vytvorili 3D prvky na naplnenie počítačom generovaných scén.
Je však možné, že by priemysel mohol použiť strojové učenie na vytvorenie 3D aktív s menším úsilím, podobne ako dnes 2D umelci začínajú prijímať technológie ako DALL-E a Stredná cesta?
Tento článok preskúma nový algoritmus, ktorý sa pokúša vytvoriť efektívny model prevodu textu do 3D pomocou existujúceho difúzne modely.
Čo je Dreamfusion?
Jedným z hlavných problémov pri vytváraní modelu difúzie, ktorý priamo generuje 3D aktíva, je to, že jednoducho nie je k dispozícii veľa 3D údajov. 2D modely difúzie sa stali tak silnými kvôli obrovskému súboru údajov, ktorý sa nachádza na internete. To isté sa nedá povedať o 3D aktívach.
Niektoré 3D generatívne techniky obchádzajú tento nedostatok údajov využitím tohto množstva 2D údajov.
DreamFusion je generatívny model, ktorý dokáže vytvárať 3D modely na základe poskytnutého textového popisu. Model DreamFusion využíva vopred pripravený model šírenia textu na obrázok na generovanie realistických trojrozmerných modelov z textových výziev.
Napriek tomu, že neexistujú žiadne 3D školiace údaje, tento prístup vytvoril koherentné 3D prvky s verným vzhľadom a hĺbkou.
Ako to funguje?
Algoritmus DreamFusion pozostáva z dvoch hlavných modelov: 2D difúzneho modelu a a neurónové sieť ktorý dokáže previesť 2D obrazy na súdržnú 3D scénu.
Google Imagen Text-to-Image Model
Prvou časťou algoritmu je difúzny model. Tento model je zodpovedný za konverziu textu na obrázky.
Obraz je difúzny model, ktorý dokáže generovať veľkú vzorku variácií obrazu konkrétneho objektu. V tomto prípade by naše variácie obrázkov mali pokrývať všetky možné uhly poskytnutého objektu. Napríklad, ak by sme chceli vygenerovať 3D model koňa, chceli by sme 2D obrázky koňa zo všetkých možných uhlov. Cieľom je použiť Imagen na poskytnutie čo najväčšieho množstva informácií (farby, odrazy, hustota) pre ďalší model v našom algoritme.
Vytváranie 3D modelov pomocou NeRF
Ďalej Dreamfusion používa model známy ako a Pole neurálneho žiarenia alebo NeRF na skutočné vytvorenie 3D modelu z vygenerovanej sady obrázkov. NeRF sú schopné vytvárať zložité 3D scény na základe súboru údajov 2D obrázkov.
Pokúsme sa pochopiť, ako funguje NeRF.
Cieľom modelu je vytvoriť spojitú objemovú funkciu scény optimalizovanú z poskytnutého súboru údajov 2D obrázkov.
Ak model vytvára funkciu, aký je vstup a výstup?
Funkcia scény využíva ako vstup 3D umiestnenie a 2D smer pohľadu. Funkcia potom vypíše farbu (vo forme RGB) a špecifickú hustotu hlasitosti.
Na vygenerovanie 2D obrazu zo špecifického uhla pohľadu model vygeneruje množinu 3D bodov a tieto body spustí cez funkciu scény, aby vrátil množinu hodnôt hustoty farieb a objemu. Techniky vykresľovania objemu potom prevedú tieto hodnoty na výstup 2D obrazu.
Spoločné používanie modelov NeRF a 2D difúzie
Teraz, keď vieme, ako funguje NeRF, pozrime sa, ako tento model dokáže generovať presné 3D modely z našich vygenerovaných obrázkov.
Pre každú poskytnutú textovú výzvu DreamFusion trénuje náhodne inicializovaný NeRF od začiatku. Každá iterácia vyberie náhodnú polohu kamery v súbore sférických súradníc. Predstavte si model uzavretý v sklenenej guli. Zakaždým, keď vygenerujeme nový obrázok nášho 3D modelu, vyberieme si náhodný bod v našej sfére ako pozorovací bod nášho výstupu. DreamFusion tiež vyberie náhodnú polohu svetla l použiť na vykresľovanie.
Keď máme polohu kamery a svetla, vykreslí sa model NeRF. DreamFusion si tiež náhodne vyberie medzi farebným vykreslením, vykreslením bez textúr a vykreslením albeda bez akéhokoľvek tieňovania.
Už sme spomenuli, že chceme, aby náš model prevodu textu na obrázok (Imagen) produkoval dostatok obrázkov na vytvorenie reprezentatívnej vzorky.
Ako to Dreamfusion dosahuje?
Dreamfusion jednoducho mierne upraví výzvu na zadanie, aby sa dosiahli zamýšľané uhly. Napríklad môžeme dosiahnuť vysoké uhly elevácie pridaním „horného pohľadu“ k našej výzve. Ďalšie uhly môžeme vygenerovať pridaním fráz ako „predný pohľad“, „pohľad zboku“ a „pohľad zozadu“.
Scény sa opakovane vykresľujú z náhodných pozícií kamery. Tieto omietky potom prechádzajú funkciou straty destilácie skóre. Jednoduchý postup zostupu s gradientom pomaly zlepší Model 3D kým sa nezhoduje so scénou opísanou textom.
Keď vykreslíme 3D model pomocou NeRF, môžeme použiť Algoritmus pochodových kociek na výstup 3D siete nášho modelu. Táto sieť môže byť potom importovaná do populárnych 3D rendererov alebo modelovacieho softvéru.
Obmedzenia
Zatiaľ čo výstup DreamFusion je dostatočne pôsobivý, pretože využíva existujúce modely difúzie textu na obrázok novým spôsobom, výskumníci zaznamenali niekoľko obmedzení.
Bolo pozorované, že funkcia straty SDS vytvára presýtené a príliš vyhladené výsledky. Môžete to pozorovať na neprirodzenom sfarbení a nedostatku presných detailov nájdených vo výstupoch.
Algoritmus DreamFusion je obmedzený aj rozlíšením výstupu modelu Imagen, ktoré je 64 x 64 pixelov. To vedie k tomu, že syntetizovaným modelom chýbajú jemnejšie detaily.
Nakoniec výskumníci poznamenali, že pri syntéze 3D modelov z 2D údajov existuje inherentná výzva. Existuje veľa možných 3D modelov, ktoré dokážeme vygenerovať zo sady 2D obrázkov, čo robí optimalizáciu dosť náročnou a dokonca nejednoznačnou.
záver
3D vykresľovanie DreamFusion funguje tak dobre vďaka schopnosti modelov šírenia textu do obrazu vytvoriť akýkoľvek objekt alebo scénu. Je pôsobivé, ako dokáže neurónová sieť porozumieť scéne v 3D priestore bez akýchkoľvek 3D tréningových dát. Odporúčam prečítať si celý papier sa dozviete viac o technických podrobnostiach algoritmu DreamFusion.
Dúfajme, že táto technológia sa zlepší a nakoniec vytvorí fotorealistické 3D modely. Predstavte si celé videohry alebo simulácie, ktoré využívajú prostredia generované AI. Mohlo by to znížiť bariéru vstupu pre vývojárov videohier, aby vytvorili pohlcujúce 3D svety!
Akú úlohu podľa vás zohrajú modely textu na 3D v budúcnosti?
Nechaj odpoveď