Þú gætir hafa heyrt um hversu öflug gervigreind líkön með texta-í-mynd hafa orðið á undanförnum tveimur árum. En vissir þú að sama tækni gæti hjálpað til við að taka stökkið úr 2D í 3D?
AI-mynduð þrívíddarlíkön hafa víðtæka notkun í stafrænu landslagi nútímans. Video Games og kvikmyndir treysta á hæfa þrívíddarlistamenn og líkanahugbúnað eins og Blender til að búa til þrívíddareignir til að búa til tölvugerðar senur.
Hins vegar er mögulegt að iðnaðurinn gæti notað vélanám til að búa til þrívíddareignir með minni fyrirhöfn, svipað og tvívíddarlistamenn í dag eru að byrja að tileinka sér tækni eins og DALL-E og Miðferð?
Þessi grein mun kanna nýtt reiknirit sem reynir að búa til skilvirkt texta-í-3D líkan með því að nota það sem fyrir er dreifingarlíkön.
Hvað er Dreamfusion?
Eitt stórt vandamál við að búa til dreifingarlíkan sem býr til þrívíddareignir beint er að það er einfaldlega ekki mikið af þrívíddargögnum tiltækt. 3D dreifingarlíkön eru orðin svo öflug vegna mikils gagnasafns mynda sem finnast á internetinu. Það sama er ekki hægt að segja um þrívíddareignir.
Sumar 3D kynslóðartækni vinna í kringum þennan skort á gögnum með því að nýta sér þessa gnægð af 2D gögnum.
DreamFusion er skapandi líkan sem getur búið til þrívíddarlíkön byggð á textalýsingu. DreamFusion líkanið notar fyrirfram þjálfað texta-í-mynd dreifingarlíkan til að búa til raunhæf þrívíddarlíkön úr textabeiðnum.
Þrátt fyrir að hafa engin 3D þjálfunargögn, hefur þessi nálgun skapað samhangandi 3D eignir með hágæða útliti og dýpt.
Hvernig virkar það?
DreamFusion reikniritið samanstendur af tveimur aðallíkönum: 2D dreifingarlíkani og a tauga net sem getur umbreytt tvívíddarmyndum í samræmda þrívíddarsenu.
Imagen Text-to-Image líkan Google
Fyrsti hluti reikniritsins er dreifingarlíkanið. Þetta líkan er ábyrgt fyrir því að breyta texta í myndir.
Mynd er dreifingarlíkan sem getur búið til stórt sýnishorn af myndafbrigðum af tilteknum hlut. Í þessu tilviki ættu myndafbrigði okkar að ná yfir öll möguleg sjónarhorn hlutarins sem gefinn er upp. Til dæmis, ef við vildum búa til 3D líkan af hesti, myndum við vilja 2D myndir af hestinum frá öllum mögulegum sjónarhornum. Markmiðið er að nota Imagen til að veita eins miklar upplýsingar og mögulegt er (litir, endurkast, þéttleiki) fyrir næsta líkan í reikniritinu okkar.
Að búa til þrívíddarlíkön með NeRF
Næst notar Dreamfusion líkan sem kallast a Taugageislunarsvið eða NeRF til að búa til þrívíddarlíkanið úr myndasettinu. NeRFs geta búið til flóknar þrívíddarsenur með gagnasafni með tvívíddarmyndum.
Við skulum reyna að skilja hvernig NeRF virkar.
Líkanið miðar að því að búa til samfellda rúmmálssenuaðgerð sem er fínstillt úr meðfylgjandi gagnasafni með tvívíddarmyndum.
Ef líkanið býr til fall, hver eru inntakið og úttakið?
Senuaðgerðin tekur þrívíddarstaðsetningu og tvívíddarskoðunarstefnu sem inntak. Aðgerðin gefur síðan út lit (í formi RGB) og ákveðinn rúmmálsþéttleika.
Til að búa til tvívíddarmynd frá ákveðnu sjónarhorni mun líkanið búa til sett af þrívíddarpunktum og keyra þá punkta í gegnum senuaðgerðina til að skila setti af lita- og rúmmálsþéttleikagildum. Rúmmálsflutningstækni mun síðan breyta þessum gildum í 2D myndúttak.
Notkun NeRF og 2D dreifingarlíkön saman
Nú þegar við vitum hvernig NeRF virkar, skulum við sjá hvernig þetta líkan getur búið til nákvæmar þrívíddarlíkön úr myndunum okkar.
Fyrir hverja uppgefna textakvaðningu þjálfar DreamFusion NeRF frumstillt af handahófi frá grunni. Hver endurtekning velur handahófskennda staðsetningu myndavélarinnar í setti kúlulaga hnita. Hugsaðu um líkanið sem er hjúpað í glerkúlu. Í hvert skipti sem við búum til nýja mynd af þrívíddarlíkaninu okkar, veljum við tilviljunarkenndan punkt í kúlu okkar sem sjónarhorn framleiðslu okkar. DreamFusion mun einnig velja handahófskennda ljósstöðu l til að nota til flutnings.
Þegar við höfum myndavél og ljósstöðu verður NeRF líkan birt. DreamFusion mun einnig velja af handahófi á milli litaðrar myndgerðar, áferðarlausrar myndgerðar og birtingar á albedo án nokkurrar skyggingar.
Við höfum nefnt áðan að við viljum að texta-í-mynd líkanið okkar (Imagen) framleiði nógu margar myndir til að búa til dæmigert sýnishorn.
Hvernig gerir Dreamfusion þetta?
Dreamfusion breytir einfaldlega inntakshvetjunni örlítið til að ná tilætluðum sjónarhornum. Til dæmis getum við náð háum hæðarhornum með því að bæta „yfirsýn“ við tilkynninguna okkar. Við getum búið til önnur sjónarhorn með því að bæta við setningum eins og „framsýn“, „hliðarsýn“ og „baksýn“.
Senur eru endurteknar sýndar úr handahófi myndavélastaða. Þessar vinnslur fara síðan í gegnum stigaeimingartapsaðgerð. Einföld halli niður nálgun mun hægt og rólega bæta 3D líkan þar til það passar við atriðið sem textinn lýsir.
Þegar við höfum gert 3D líkanið með NeRF, getum við notað Marching Cubes reiknirit til að gefa út 3D möskva af líkaninu okkar. Þetta möskva er síðan hægt að flytja inn í vinsæla þrívíddarmyndara eða líkanahugbúnað.
Takmarkanir
Þó framleiðsla DreamFusion sé nógu áhrifamikill þar sem hún notar núverandi texta-í-mynd dreifingarlíkön á nýjan hátt, hafa vísindamennirnir tekið eftir nokkrum takmörkunum.
Sýnt hefur verið fram á að SDS tapsaðgerðin skilar ofmettuðum og of sléttum niðurstöðum. Þú getur fylgst með þessu í óeðlilegum litarefnum og skorti á nákvæmum smáatriðum sem finnast í úttakunum.
DreamFusion reikniritið er einnig takmarkað af upplausn Imagen líkansins, sem er 64 x 64 pixlar. Þetta leiðir til þess að tilbúnu módelin skortir fínni smáatriði.
Að lokum hafa vísindamenn tekið fram að það er eðlislæg áskorun í því að búa til þrívíddarlíkön úr tvívíddargögnum. Það eru mörg möguleg þrívíddarlíkön sem við getum búið til úr safni af tvívíddarmyndum, sem gerir fínstillingu nokkuð erfiða og jafnvel óljósa.
Niðurstaða
3D flutningur DreamFusion virkar svo vel vegna getu texta-í-mynddreifingarlíkana til að búa til hvaða hlut eða atriði sem er. Það er áhrifamikið hvernig taugakerfi getur skilið atriði í þrívíddarrými án nokkurra þrívíddarþjálfunargagna. Ég mæli með því að lesa allt blaðið til að læra meira um tæknilegar upplýsingar DreamFusion reikniritsins.
Vonandi mun þessi tækni batna til að mynda raunhæf 3D módel að lokum. Ímyndaðu þér heila tölvuleiki eða eftirlíkingar sem nota gervigreind-myndað umhverfi. Það gæti lækkað aðgangshindrun fyrir tölvuleikjaframleiðendur að búa til yfirgripsmikla þrívíddarheima!
Hvaða hlutverki heldurðu að texta-í-þrívíddarlíkön muni gegna í framtíðinni?
Skildu eftir skilaboð