Можда сте чули колико су моћни АИ модели за претварање текста у слику постали у последњих неколико година. Али да ли сте знали да иста технологија може помоћи да се направи скок са 2Д на 3Д?
3Д модели генерисани вештачком интелигенцијом имају широку употребу у данашњем дигиталном пејзажу. Видео игре а филм се ослања на веште 3Д уметнике и софтвер за моделирање као што је Блендер за креирање 3Д средстава за попуњавање компјутерски генерисаних сцена.
Међутим, да ли је могуће да би индустрија могла да користи машинско учење за креирање 3Д имовине са мање напора, слично ономе како 2Д уметници данас почињу да усвајају технологију као што су ДАЛЛ-Е и Мидјоурнеи?
Овај чланак ће истражити нови алгоритам који покушава да створи ефикасан модел текста у 3Д користећи постојећи дифузиони модели.
Шта је Дреамфусион?
Један од главних проблема са креирањем модела дифузије који директно генерише 3Д средства је то што једноставно нема пуно доступних 3Д података. 2Д модели дифузије постали су толико моћни због огромног скупа података слика пронађених на интернету. Исто се не може рећи за 3Д средства.
Неке 3Д генеративне технике заобилазе овај недостатак података тако што користе предности овог обиља 2Д података.
ДреамФусион је генеративни модел који може да креира 3Д моделе на основу датог текстуалног описа. ДреамФусион модел користи унапред обучени модел дифузије текста у слику за генерисање реалистичних тродимензионалних модела из текстуалних упита.
Упркос томе што нема 3Д података за обуку, овај приступ је генерисао кохерентна 3Д средства са изгледом и дубином високе верности.
Како то функционише?
ДреамФусион алгоритам се састоји од два главна модела: 2Д дифузионог модела и неуронска мрежа који могу да конвертују 2Д слике у кохезивну 3Д сцену.
Гоогле-ов модел сликања текста у слику
Први део алгоритма је модел дифузије. Овај модел је одговоран за претварање текста у слике.
Слика је модел дифузије који може да генерише велики узорак варијација слике одређеног објекта. У овом случају, наше варијације слике треба да покрију све могуће углове датог објекта. На пример, ако желимо да генеришемо 3Д модел коња, желели бисмо 2Д слике коња из свих могућих углова. Циљ је да користимо Имаген да пружимо што више информација (боје, рефлексије, густина) за следећи модел у нашем алгоритму.
Креирање 3Д модела помоћу НеРФ-а
Затим, Дреамфусион користи модел познат као а Неурал Радианце Фиелд или НеРФ да заправо креирате 3Д модел од генерисаног скупа слика. НеРФ-ови су у стању да креирају сложене 3Д сцене са скупом података 2Д слика.
Хајде да покушамо да разумемо како функционише НеРФ.
Модел има за циљ да креира континуирану волуметријску функцију сцене оптимизовану из обезбеђеног скупа података 2Д слика.
Ако модел креира функцију, који су улаз и излаз?
Функција сцене узима 3Д локацију и 2Д смер гледања као улаз. Функција затим даје боју (у облику РГБ) и специфичну густину запремине.
Да би генерисао 2Д слику из одређене тачке гледишта, модел ће генерисати скуп 3Д тачака и покренути те тачке кроз функцију сцене да би вратио скуп вредности густине боје и запремине. Технике обимног рендеровања ће затим претворити те вредности у излаз 2Д слике.
Заједничко коришћење НеРФ и 2Д модела дифузије
Сада када знамо како НеРФ функционише, хајде да видимо како овај модел може да генерише тачне 3Д моделе из наших генерисаних слика.
За сваку пружену текстуалну промпт, ДреамФусион обучава насумично иницијализовани НеРФ од нуле. Свака итерација бира насумични положај камере у скупу сферних координата. Замислите модел затворен у стаклену сферу. Сваки пут када генеришемо нову слику нашег 3Д модела, ми ћемо изабрати насумично тачку у нашој сфери као тачку посматрања нашег резултата. ДреамФусион ће такође изабрати насумични положај светла l користити за приказивање.
Када будемо имали позицију камере и светла, НеРФ модел ће бити приказан. ДреамФусион ће такође насумично бирати између рендера у боји, рендера без текстуре и приказивања албеда без икаквог сенчења.
Раније смо споменули да желимо да наш модел текста у слику (Имаген) произведе довољно слика за креирање репрезентативног узорка.
Како Дреамфусион то постиже?
Дреамфусион једноставно мало модификује упит за унос да би постигао жељене углове. На пример, можемо постићи велике углове елевације додавањем „преглед изнад главе“ нашем упиту. Можемо да генеришемо друге углове додавањем фраза као што су „поглед спреда“, „поглед са стране“ и „поглед позади“.
Сцене се више пута приказују са насумичних позиција камере. Ови прикази затим пролазе кроз функцију губитка дестилације резултата. Једноставан приступ спуштању са градијентом ће полако побољшати КСНУМКСД модел док се не поклопи са сценом описаном у тексту.
Када рендерујемо 3Д модел користећи НеРФ, можемо да користимо Алгоритам марширајућих коцки да добијемо 3Д мрежу нашег модела. Ова мрежа се затим може увести у популарне 3Д рендерере или софтвер за моделирање.
Ограничења
Иако је излаз ДреамФусион довољно импресиван јер користи постојеће моделе дифузије текста у слику на нов начин, истраживачи су приметили неколико ограничења.
Примећено је да функција губитка СДС-а даје презасићене и превише углађене резултате. Ово можете приметити у неприродном колориту и недостатку прецизних детаља који се налазе у излазима.
ДреамФусион алгоритам је такође ограничен резолуцијом излазног модела Имаген, која износи 64 к 64 пиксела. То доводи до тога да синтетизовани модели немају финије детаље.
На крају, истраживачи су приметили да постоји инхерентан изазов у синтези 3Д модела из 2Д података. Постоји много могућих 3Д модела које можемо да генеришемо из скупа 2Д слика, што оптимизацију чини прилично тешком, па чак и двосмисленом.
Zakljucak
ДреамФусион-ови 3Д прикази функционишу тако добро због способности модела дифузије текста у слику да креирају било који објекат или сцену. Импресивно је како неуронска мрежа може да разуме сцену у 3Д простору без икаквих 3Д података о обуци. Препоручујем читање цео папир да сазнате више о техничким детаљима ДреамФусион алгоритма.
Надајмо се да ће се ова технологија побољшати да би на крају створила фотореалистичне 3Д моделе. Замислите читаве видео игре или симулације које користе окружења генерисана вештачком интелигенцијом. То би могло да снизи баријеру уласка за програмере видео игара да креирају импресивне 3Д светове!
Шта мислите, какву ће улогу имати модели за претварање текста у 3Д у будућности?
Ostavite komentar