Galbūt girdėjote apie tai, kokie galingi teksto į vaizdą AI modeliai tapo per pastaruosius porą metų. Bet ar žinojote, kad ta pati technologija gali padėti pereiti nuo 2D į 3D?
Dirbtinio intelekto sukurti 3D modeliai yra plačiai naudojami šiuolaikinėje skaitmeninėje aplinkoje. Video žaidimai ir filmai pasikliauja kvalifikuotais 3D menininkais ir modeliavimo programine įranga, tokia kaip „Blender“, kad sukurtų 3D išteklius, kad būtų galima užpildyti kompiuteriu sukurtas scenas.
Tačiau ar įmanoma, kad pramonė galėtų panaudoti mašininį mokymąsi 3D turtui sukurti su mažiau pastangų, panašiai kaip šiandien 2D menininkai pradeda taikyti tokias technologijas kaip DALL-E ir Vidurinė kelionė?
Šiame straipsnyje bus nagrinėjamas naujas algoritmas, kuris bando sukurti veiksmingą teksto į 3D modelį naudojant esamą difuzijos modeliai.
Kas yra Dreamfusion?
Viena iš pagrindinių problemų kuriant difuzijos modelį, kuris tiesiogiai generuoja 3D išteklius, yra ta, kad tiesiog nėra daug 3D duomenų. 2D difuzijos modeliai tapo tokie galingi dėl daugybės internete rastų vaizdų duomenų rinkinio. To negalima pasakyti apie 3D išteklius.
Kai kurie 3D generavimo metodai padeda išspręsti šį duomenų trūkumą, pasinaudodami šia 2D duomenų gausa.
DreamFusion yra generatyvinis modelis, galintis sukurti 3D modelius pagal pateiktą tekstinį aprašymą. „DreamFusion“ modelis naudoja iš anksto paruoštą teksto į vaizdą sklaidos modelį, kad iš teksto raginimų generuotų realistiškus trimačius modelius.
Nepaisant to, kad nėra 3D mokymo duomenų, šis metodas sukūrė nuoseklų 3D išteklius, pasižyminčius aukštos kokybės išvaizda ir gyliu.
Kaip tai veikia?
DreamFusion algoritmą sudaro du pagrindiniai modeliai: 2D difuzijos modelis ir a neuroninis tinklas kurios gali paversti 2D vaizdus į vientisą 3D sceną.
„Google“ vaizdo tekstas į vaizdą modelis
Pirmoji algoritmo dalis yra difuzijos modelis. Šis modelis yra atsakingas už teksto konvertavimą į vaizdus.
Vaizdas yra difuzijos modelis, galintis sukurti didelį konkretaus objekto vaizdo variantų pavyzdį. Šiuo atveju mūsų vaizdo variantai turėtų apimti visus galimus pateikto objekto kampus. Pavyzdžiui, jei norėtume sukurti 3D arklio modelį, norėtume 2D arklio vaizdų visais įmanomais kampais. Tikslas yra naudoti Imagen, kad būtų pateikta kuo daugiau informacijos (spalvų, atspindžių, tankio) kitam mūsų algoritmo modeliui.
3D modelių kūrimas naudojant NeRF
Tada Dreamfusion naudoja modelį, žinomą kaip a Neuroninio spinduliavimo laukas arba NeRF, kad iš sugeneruoto vaizdo rinkinio iš tikrųjų sukurtumėte 3D modelį. NeRF gali sukurti sudėtingas 3D scenas, turinčias 2D vaizdų duomenų rinkinį.
Pabandykime suprasti, kaip veikia NeRF.
Modeliu siekiama sukurti nuolatinę tūrinę scenos funkciją, optimizuotą iš pateikto 2D vaizdų duomenų rinkinio.
Jei modelis sukuria funkciją, kas yra įvestis ir išvestis?
Scenos funkcija kaip įvestis paima 3D vietą ir 2D žiūrėjimo kryptį. Tada funkcija išveda spalvą (RGB pavidalu) ir tam tikrą tūrio tankį.
Norėdami sugeneruoti 2D vaizdą iš konkretaus požiūrio taško, modelis sugeneruos 3D taškų rinkinį ir paleis tuos taškus per scenos funkciją, kad grąžintų spalvų ir tūrio tankio verčių rinkinį. Tada tūrio atvaizdavimo metodai konvertuos šias reikšmes į 2D vaizdo išvestį.
NeRF ir 2D difuzijos modelių naudojimas kartu
Dabar, kai žinome, kaip veikia NeRF, pažiūrėkime, kaip šis modelis gali generuoti tikslius 3D modelius iš mūsų sukurtų vaizdų.
Kiekvienam pateiktam teksto raginimui „DreamFusion“ treniruoja atsitiktinai inicijuotą NeRF nuo nulio. Kiekviena iteracija pasirenka atsitiktinę kameros padėtį sferinių koordinačių rinkinyje. Pagalvokite apie modelį, įdėtą į stiklinę sferą. Kiekvieną kartą, kai generuojame naują 3D modelio vaizdą, mes pasirinksime atsitiktinį tašką savo sferoje kaip savo išvesties apžvalgos tašką. „DreamFusion“ taip pat pasirinks atsitiktinę apšvietimo padėtį l naudoti atvaizdavimui.
Kai turėsime kamerą ir šviesos padėtį, bus pateiktas NeRF modelis. „DreamFusion“ taip pat atsitiktinai pasirinks spalvotą atvaizdą, be tekstūros atvaizdavimą ir albedo atvaizdavimą be jokio atspalvio.
Anksčiau minėjome, kad norime, kad mūsų tekstas į vaizdą modelis (Imagen) sukurtų pakankamai vaizdų, kad būtų sukurtas reprezentatyvus pavyzdys.
Kaip Dreamfusion tai pasiekia?
Dreamfusion tiesiog šiek tiek pakeičia įvesties raginimą, kad būtų pasiekti numatyti kampai. Pavyzdžiui, galime pasiekti didelius aukščio kampus, prie mūsų raginimo pridėję „vaizdą iš viršaus“. Galime sukurti kitus kampus, pridėdami tokias frazes kaip „vaizdas iš priekio“, „vaizdas iš šono“ ir „vaizdas iš galo“.
Scenos pakartotinai atvaizduojamos iš atsitiktinių kameros pozicijų. Tada šie atvaizdai praeina per distiliavimo praradimo funkciją. Paprastas gradiento nusileidimo metodas pamažu pagerins 3D modelis kol sutampa su tekstu aprašyta scena.
Sukūrę 3D modelį naudodami NeRF, galime naudoti „Marching Cubes“ algoritmas norėdami išvesti mūsų modelio 3D tinklelį. Tada šį tinklelį galima importuoti į populiarius 3D atvaizdavimo įrenginius arba modeliavimo programinę įrangą.
Trūkumai
Nors „DreamFusion“ produkcija yra pakankamai įspūdinga, nes ji naudoja esamus teksto į vaizdą sklaidos modelius nauju būdu, mokslininkai pastebėjo keletą apribojimų.
Pastebėta, kad SDS praradimo funkcija duoda persotintus ir per daug išlygintus rezultatus. Tai galite pastebėti dėl nenatūralios spalvos ir tikslių detalių trūkumo išvestyje.
DreamFusion algoritmą taip pat riboja Imagen modelio išvesties skiriamoji geba, kuri yra 64 x 64 pikseliai. Dėl to susintetintuose modeliuose trūksta smulkesnių detalių.
Galiausiai, mokslininkai pastebėjo, kad 3D modelių sintezė iš 2D duomenų yra sudėtinga. Yra daug galimų 3D modelių, kuriuos galime sukurti iš 2D vaizdų rinkinio, todėl optimizavimas yra gana sudėtingas ir net dviprasmiškas.
Išvada
„DreamFusion“ 3D atvaizdai veikia taip gerai, nes teksto į vaizdą sklaidos modeliai gali sukurti bet kokį objektą ar sceną. Įspūdinga, kaip neuroninis tinklas gali suprasti sceną 3D erdvėje be jokių 3D mokymo duomenų. Rekomenduoju perskaityti visas popierius Norėdami sužinoti daugiau apie DreamFusion algoritmo technines detales.
Tikimasi, kad ši technologija bus tobulinama, kad galiausiai būtų sukurti fotorealistiški 3D modeliai. Įsivaizduokite visus vaizdo žaidimus ar modeliavimus, kuriuose naudojama dirbtinio intelekto sukurta aplinka. Tai gali sumažinti vaizdo žaidimų kūrėjų patekimo barjerą kurti įtraukiančius 3D pasaulius!
Kaip manote, kokį vaidmenį teksto į 3D modeliai atliks ateityje?
Palikti atsakymą