Vi eble aŭdis pri kiom potencaj tekst-al-bildaj AI-modeloj fariĝis en la pasintaj du jaroj. Sed ĉu vi sciis, ke la sama teknologio povus helpi fari la salton de 2D al 3D?
AI-generitaj 3D-modeloj havas larĝan uzon en la hodiaŭa cifereca pejzaĝo. Videoludoj kaj filmo dependas de lertaj 3D artistoj kaj modeliga softvaro kiel ekzemple Blender por krei 3D-aktivaĵojn por loĝi komputil-generitaj scenoj.
Tamen, ĉu eblas, ke la industrio povus uzi maŝinlernadon por krei 3D-aktivaĵojn kun malpli da peno, simile al kiel 2D-artistoj hodiaŭ komencas adopti teknologion kiel DALL-E kaj Mezvojaĝo?
Ĉi tiu artikolo esploros novan algoritmon, kiu provas krei efikan tekst-al-3D-modelon uzante ekzistantan elsendaj modeloj.
Kio estas Dreamfusion?
Unu grava problemo kun kreado de disvastigmodelo kiu generas 3D-aktivaĵojn rekte estas ke ekzistas simple ne multaj 3D-datenoj haveblaj. 2D disvastigmodeloj fariĝis tiel potencaj pro la vasta datumaro de bildoj trovitaj en la interreto. La samon ne povas esti dirita kun 3D-aktivoj.
Iuj 3D generaj teknikoj funkcias ĉirkaŭ ĉi tiu manko de datumoj utiligante ĉi tiun abundon de 2D datumoj.
DreamFusion estas genera modelo kiu povas krei 3D modelojn surbaze de provizita teksta priskribo. La DreamFusion-modelo uzas antaŭtrejnitan tekst-al-bildan difuzmodelon por generi realismajn tridimensiajn modelojn de tekstaj instigoj.
Malgraŭ ne havi 3D-trejnaddatenojn, ĉi tiu aliro generis koherajn 3D-aktivaĵojn kun altfideleca aspekto kaj profundo.
Kiel ĝi funkcias?
La DreamFusion-algoritmo konsistas el du ĉefaj modeloj: 2D difuzmodelo kaj a Neŭra reto kiu povas konverti 2D bildojn en kohezian 3D scenon.
La Bildo-Teksto-al-Bilda Modelo de Guglo
La unua parto de la algoritmo estas la difuzmodelo. Ĉi tiu modelo respondecas pri konverti tekston al bildoj.
Bildo estas difuzmodelo kiu povas generi grandan provaĵon de bildvarioj de speciala objekto. En ĉi tiu kazo, niaj bildaj varioj devas kovri ĉiujn eblajn angulojn de la provizita objekto. Ekzemple, se ni volus generi 3D modelon de ĉevalo, ni dezirus 2D bildojn de la ĉevalo de ĉiuj eblaj anguloj. La celo estas uzi Imagen por provizi kiel eble plej multe da informoj (koloroj, reflektoj, denseco) por la sekva modelo en nia algoritmo.
Kreante 3D-Modelojn kun NeRF
Poste, Dreamfusion uzas modelon konatan kiel a Neŭrala Radia Kampo aŭ NeRF por fakte krei la 3D modelon de la generita bildaro. NeRFoj povas krei kompleksajn 3D scenojn surbaze de datumaroj de 2D bildoj.
Ni provu kompreni kiel funkcias NeRF.
La modelo celas krei kontinuan volumetran scenfunkcion optimumigitan de la provizita datumaro de 2D bildoj.
Se la modelo kreas funkcion, kio estas la enigo kaj eligo?
La scenfunkcio prenas 3D lokon kaj 2D rigardan direkton kiel enigaĵon. La funkcio tiam eligas koloron (en la formo de RGB) kaj specifan volumendensecon.
Por generi 2D-bildon de specifa vidpunkto, la modelo generos aron de 3D-punktoj kaj kuros tiujn punktojn tra la scenfunkcio por resendi aron de koloraj kaj volumenaj densecvaloroj. Volumaj bildigaj teknikoj tiam konvertos tiujn valorojn en 2D bildproduktaĵon.
Uzante NeRF kaj 2D Difuzajn Modelojn Kune
Nun kiam ni scias kiel funkcias NeRF, ni vidu kiel ĉi tiu modelo povas generi precizajn 3D-modelojn el niaj generitaj bildoj.
Por ĉiu provizita teksta prompto, DreamFusion trejnas hazarde pravigitan NeRF de nulo. Ĉiu ripeto elektas hazardan fotilpozicion en aro de sferaj koordinatoj. Pensu pri la modelo enfermita en vitra sfero. Ĉiufoje kiam ni generas novan bildon de nia 3D-modelo, ni elektos hazardan punkton en nia sfero kiel la vidpunkton de nia eligo. DreamFusion ankaŭ elektos hazardan luman pozicion l uzi por bildigi.
Post kiam ni havas fotilon kaj luman pozicion, modelo NeRF estos prezentita. DreamFusion ankaŭ hazarde elektos inter kolora bildigo, sentekstura bildigo kaj bildigo de la albedo sen ia ombro.
Ni menciis pli frue, ke ni volas, ke nia tekst-al-bilda modelo (Imagen) kreu sufiĉe da bildoj por krei reprezentan specimenon.
Kiel Dreamfusion faras tion?
Dreamfusion simple modifas la enigpromon iomete por atingi la celitajn angulojn. Ekzemple, ni povas atingi altajn altecajn angulojn aldonante "superan vidon" al nia prompto. Ni povas generi aliajn angulojn aldonante frazojn kiel "antaŭa vido", "flanka vido", kaj "malantaŭa vido".
Scenoj estas plurfoje prezentitaj de hazardaj fotilpozicioj. Tiuj bildigoj tiam pasas tra poentaro-distila perdfunkcio. Simpla gradienta descenda alproksimiĝo malrapide plibonigos la 3D-modelo ĝis ĝi kongruas kun la sceno priskribita de la teksto.
Post kiam ni faris la 3D-modelon per NeRF, ni povas uzi la Algoritmo de Marching Cubes por eligi 3D-reton de nia modelo. Ĉi tiu maŝo tiam povas esti importita en popularajn 3D-bildilojn aŭ modeligan programaron.
Limigoj
Dum la produktado de DreamFusion estas sufiĉe impona ĉar ĝi uzas ekzistantajn tekst-al-bildajn disvastigmodelojn en nova maniero, la esploristoj notis kelkajn limigojn.
La SDS-perdfunkcio estis observita produkti trosaturitajn kaj tro-glatigitajn rezultojn. Vi povas observi ĉi tion en la nenatura kolorigo kaj manko de preciza detalo trovita en la eliroj.
La DreamFusion-algoritmo ankaŭ estas limigita de la rezolucio de la eligo de la modelo Imagen, kiu estas 64 x 64 pikseloj. Ĉi tio kondukas al la sintezitaj modeloj malhavantaj pli bonajn detalojn.
Finfine, la esploristoj rimarkis, ke ekzistas eneca defio en sintezi 3D-modelojn el 2D-datumoj. Estas multaj eblaj 3D-modeloj, kiujn ni povas generi el aro de 2D-bildoj, kio faras la optimumigon sufiĉe malfacila kaj eĉ ambigua.
konkludo
La 3D-bildigoj de DreamFusion funkcias tiel bone pro la kapablo de tekst-al-bildaj disvastigmodeloj krei ajnan objekton aŭ scenon. Estas impona kiel neŭrala reto povas kompreni scenon en 3D-spaco sen iuj 3D-trejnaj datumoj. Mi rekomendas legi la tuta papero por lerni pli pri la teknikaj detaloj de la DreamFusion-algoritmo.
Espereble, ĉi tiu teknologio pliboniĝos por eventuale krei foto-realismajn 3D modelojn. Imagu tutajn videoludojn aŭ simuladojn, kiuj uzas AI-generitajn mediojn. Ĝi povus malaltigi la barieron de eniro por programistoj de videoludoj krei mergajn 3D-mondojn!
Kian rolon vi pensas, ke teksto-al-3D-modeloj ludos estonte?
Lasi Respondon