Morda ste že slišali, kako zmogljivi modeli umetne inteligence besedila v sliko so postali v zadnjih nekaj letih. Toda ali ste vedeli, da lahko ista tehnologija pomaga pri preskoku iz 2D v 3D?
3D-modeli, ustvarjeni z umetno inteligenco, imajo široko uporabo v današnjem digitalnem okolju. Video igre in film se za ustvarjanje 3D sredstev za zapolnitev računalniško ustvarjenih prizorov zanašata na usposobljene 3D umetnike in programsko opremo za modeliranje, kot je Blender.
Vendar, ali je možno, da bi industrija uporabila strojno učenje za ustvarjanje 3D sredstev z manj truda, podobno kot danes 2D umetniki začenjajo sprejemati tehnologije, kot sta DALL-E in vmesna pot?
Ta članek bo raziskal nov algoritem, ki poskuša ustvariti učinkovit model besedila v 3D z uporabo obstoječih difuzijski modeli.
Kaj je Dreamfusion?
Ena glavnih težav pri ustvarjanju difuzijskega modela, ki neposredno ustvarja 3D-sredstva, je, da preprosto ni na voljo veliko 3D-podatkov. 2D difuzijski modeli so postali tako močni zaradi obsežnega nabora podatkov slik, ki jih najdemo na internetu. Enako ne moremo reči za 3D sredstva.
Nekatere 3D generativne tehnike to pomanjkanje podatkov odpravijo tako, da izkoristijo to obilje 2D podatkov.
DreamFusion je generativni model, ki lahko ustvari 3D modele na podlagi podanega besedilnega opisa. Model DreamFusion uporablja vnaprej usposobljen model difuzije besedila v sliko za ustvarjanje realističnih tridimenzionalnih modelov iz besedilnih pozivov.
Kljub temu, da ni podatkov o 3D usposabljanju, je ta pristop ustvaril koherentna 3D sredstva z visoko zvestobo videza in globine.
Kako deluje?
Algoritem DreamFusion je sestavljen iz dveh glavnih modelov: 2D difuzijskega modela in nevronska mreža ki lahko pretvori 2D slike v kohezivno 3D sceno.
Googlov Imagen model besedila v sliko
Prvi del algoritma je difuzijski model. Ta model je odgovoren za pretvorbo besedila v slike.
Slika je difuzijski model, ki lahko ustvari velik vzorec variacij slike določenega predmeta. V tem primeru naj naše variacije slike pokrivajo vse možne kote podanega predmeta. Če bi na primer želeli ustvariti 3D model konja, bi želeli 2D slike konja iz vseh možnih kotov. Cilj je uporabiti Imagen za zagotavljanje čim več informacij (barve, odsevi, gostota) za naslednji model v našem algoritmu.
Ustvarjanje 3D modelov z NeRF
Nato Dreamfusion uporablja model, znan kot a Nevralno sevalno polje ali NeRF, da dejansko ustvarite 3D model iz ustvarjenega niza slik. NeRF-ji lahko ustvarijo zapletene 3D-prizore glede na nabor podatkov 2D-slik.
Poskusimo razumeti, kako deluje NeRF.
Cilj modela je ustvariti neprekinjeno volumetrično scensko funkcijo, optimizirano iz predloženega nabora podatkov 2D slik.
Če model ustvari funkcijo, kaj sta vhod in izhod?
Funkcija prizora kot vhod sprejme 3D lokacijo in 2D smer gledanja. Funkcija nato izda barvo (v obliki RGB) in določeno gostoto glasnosti.
Za generiranje 2D-slike z določenega zornega kota bo model ustvaril nabor 3D-točk in jih pognal skozi funkcijo prizora, da vrne nabor vrednosti gostote barv in volumna. Tehnike volumskega upodabljanja bodo te vrednosti nato pretvorile v izhod 2D slike.
Skupna uporaba modelov NeRF in 2D difuzije
Zdaj, ko vemo, kako deluje NeRF, poglejmo, kako lahko ta model ustvari natančne 3D modele iz naših ustvarjenih slik.
Za vsak naveden besedilni poziv DreamFusion usposobi naključno inicializiran NeRF od začetka. Vsaka ponovitev izbere naključni položaj kamere v nizu sferičnih koordinat. Pomislite na model, obdan s stekleno kroglo. Vsakič, ko ustvarimo novo sliko našega 3D modela, bomo izbrali naključno točko v naši krogli kot izhodiščno točko našega rezultata. DreamFusion bo izbral tudi naključni položaj svetlobe l uporabiti za upodabljanje.
Ko imamo kamero in položaj luči, bo upodobljen model NeRF. DreamFusion bo prav tako naključno izbiral med barvnim upodabljanjem, upodabljanjem brez teksture in upodabljanjem albeda brez senčenja.
Prej smo omenili, da želimo, da naš model besedila v sliko (Imagen) ustvari dovolj slik za ustvarjanje reprezentativnega vzorca.
Kako Dreamfusion to doseže?
Dreamfusion preprosto nekoliko spremeni poziv za vnos, da doseže želene kote. Na primer, lahko dosežemo visoke kote višine tako, da našemu pozivu dodamo "pogled od zgoraj". Ustvarimo lahko druge kote z dodajanjem fraz, kot so "pogled od spredaj", "pogled s strani" in "pogled od zadaj".
Prizori se večkrat upodobijo iz naključnih položajev kamere. Te upodobitve gredo nato skozi funkcijo izgube rezultatov destilacije. Preprost pristop gradientnega spuščanja bo počasi izboljšal Model 3D dokler se ne ujema s prizorom, ki ga opisuje besedilo.
Ko smo 3D model upodobili z NeRF, lahko uporabimo Algoritem Marching Cubes za izpis 3D mreže našega modela. To mrežo lahko nato uvozite v priljubljene 3D upodabljalnike ali programsko opremo za modeliranje.
Omejitve
Medtem ko je rezultat DreamFusion dovolj impresiven, saj uporablja obstoječe modele difuzije besedila v sliko na nov način, so raziskovalci opazili nekaj omejitev.
Opazili so, da funkcija izgube SDS daje prenasičene in preveč zglajene rezultate. To lahko opazite v nenaravnih barvah in pomanjkanju natančnih podrobnosti v rezultatih.
Algoritem DreamFusion je omejen tudi z ločljivostjo izhoda modela Imagen, ki je 64 x 64 slikovnih pik. To vodi do tega, da sintetiziranim modelom manjkajo natančnejše podrobnosti.
Nazadnje so raziskovalci ugotovili, da je sintetiziranje 3D modelov iz 2D podatkov inherenten izziv. Obstaja veliko možnih 3D modelov, ki jih lahko ustvarimo iz niza 2D slik, zaradi česar je optimizacija precej težka in celo dvoumna.
zaključek
3D-upodobitve DreamFusion delujejo tako dobro zaradi zmožnosti modelov difuzije besedila v sliko, da ustvarijo poljuben predmet ali prizor. Impresivno je, kako lahko nevronska mreža razume prizor v 3D prostoru brez kakršnih koli 3D podatkov za usposabljanje. Priporočam branje celoten papir če želite izvedeti več o tehničnih podrobnostih algoritma DreamFusion.
Upajmo, da se bo ta tehnologija izboljšala in sčasoma ustvarila fotorealistične 3D modele. Predstavljajte si celotne video igre ali simulacije, ki uporabljajo okolja, ustvarjena z umetno inteligenco. Lahko bi znižal vstopno oviro za razvijalce video iger, da bi ustvarili poglobljene 3D svetove!
Kakšno vlogo bodo po vašem mnenju imeli modeli besedila v 3D v prihodnosti?
Pustite Odgovori