Магчыма, вы чулі пра тое, наколькі магутнымі сталі мадэлі штучнага інтэлекту тэксту ў малюнак за апошнія пару гадоў. Але ці ведаеце вы, што тая ж тэхналогія можа дапамагчы зрабіць скачок ад 2D да 3D?
3D-мадэлі, створаныя штучным інтэлектам, маюць шырокае прымяненне ў сучасным лічбавым ландшафце. Відэа гульні і фільм спадзяюцца на кваліфікаваных 3D-мастакоў і праграмнае забеспячэнне для мадэлявання, такое як Blender, для стварэння 3D-рэсурсаў для запаўнення створаных камп'ютэрам сцэн.
Аднак ці магчыма, што прамысловасць можа выкарыстоўваць машыннае навучанне для стварэння 3D-рэсурсаў з меншымі намаганнямі, падобна таму, як 2D-мастакі сёння пачынаюць пераймаць такія тэхналогіі, як DALL-E і Прамежак падарожжа?
У гэтым артыкуле будзе вывучаны новы алгарытм, які спрабуе стварыць эфектыўную мадэль пераўтварэння тэксту ў 3D з выкарыстаннем існуючых дыфузійныя мадэлі.
Што такое Dreamfusion?
Адной з асноўных праблем са стварэннем дыфузійнай мадэлі, якая непасрэдна стварае 3D-актывы, з'яўляецца тое, што проста не так шмат даступных 3D-дадзеных. Двухмерныя мадэлі дыфузіі сталі такімі магутнымі з-за шырокага набору даных малюнкаў, знойдзеных у Інтэрнэце. Гэтага нельга сказаць пра 2D-рэсурсы.
Некаторыя 3D-генератыўныя метады дазваляюць абыйсці гэты недахоп даных, выкарыстоўваючы перавагі гэтага багацця 2D-даных.
DreamFusion гэта генератыўная мадэль, якая можа ствараць 3D-мадэлі на аснове тэкставага апісання. Мадэль DreamFusion выкарыстоўвае папярэдне падрыхтаваную мадэль распаўсюджвання тэксту ў малюнак для стварэння рэалістычных трохмерных мадэляў з тэкставых падказак.
Нягледзячы на адсутнасць даных 3D-навучання, гэты падыход стварыў кагерэнтныя 3D-рэсурсы з высокім выглядам і глыбінёй.
Як гэта працуе?
Алгарытм DreamFusion складаецца з дзвюх асноўных мадэляў: мадэлі 2D дыфузіі і нейронных сеткі які можа канвертаваць 2D выявы ў згуртаваную 3D сцэну.
Мадэль Google Imagen для пераўтварэння тэксту ў відарыс
Першая частка алгарытму - гэта мадэль дыфузіі. Гэтая мадэль адказвае за пераўтварэнне тэксту ў выявы.
Малюнак гэта дыфузійная мадэль, якая можа стварыць вялікую выбарку варыяцый відарыса пэўнага аб'екта. У гэтым выпадку нашы варыянты выявы павінны ахопліваць усе магчымыя ракурсы прадстаўленага аб'екта. Напрыклад, калі мы хочам стварыць 3D-мадэль каня, нам патрэбныя будуць двухмерныя выявы каня з усіх магчымых ракурсаў. Мэта складаецца ў тым, каб выкарыстоўваць Imagen, каб даць як мага больш інфармацыі (колеры, адлюстраванне, шчыльнасць) для наступнай мадэлі ў нашым алгарытме.
Стварэнне 3D-мадэляў з дапамогай NeRF
Далей Dreamfusion выкарыстоўвае мадэль, вядомую як a Нейроннае поле выпраменьвання або NeRF, каб фактычна стварыць 3D-мадэль са згенераванага набору малюнкаў. NeRF здольныя ствараць складаныя 3D-сцэны з наборам даных 2D-малюнкаў.
Давайце паспрабуем зразумець, як працуе NeRF.
Мадэль накіравана на стварэнне функцыі бесперапыннай аб'ёмнай сцэны, аптымізаванай з прадастаўленага набору даных 2D-малюнкаў.
Калі мадэль стварае функцыю, што такое ўваход і выхад?
Функцыя сцэны прымае 3D месцазнаходжанне і 2D кірунак прагляду ў якасці ўваходных дадзеных. Затым функцыя выдае колер (у выглядзе RGB) і пэўную шчыльнасць аб'ёму.
Каб стварыць 2D-малюнак з пэўнай кропкі агляду, мадэль створыць набор 3D-кропак і прапусціць гэтыя кропкі праз функцыю сцэны, каб вярнуць набор значэнняў шчыльнасці колеру і аб'ёму. Затым метады аб'ёмнага рэндэрынгу пераўтвораць гэтыя значэнні ў выхад 2D-малюнка.
Выкарыстанне мадэляў NeRF і 2D дыфузіі разам
Цяпер, калі мы ведаем, як працуе NeRF, давайце паглядзім, як гэтая мадэль можа ствараць дакладныя 3D-мадэлі з нашых створаных малюнкаў.
Для кожнага прадстаўленага тэкставага запыту DreamFusion з нуля навучае выпадкова ініцыялізаваны NeRF. Кожная ітэрацыя выбірае выпадковую пазіцыю камеры ў наборы сферычных каардынат. Уявіце сабе мадэль, зняволеную ў шкляны шар. Кожны раз, калі мы ствараем новы відарыс нашай 3D-мадэлі, мы будзем выбіраць выпадковую кропку ў нашай сферы ў якасці пункту агляду нашых вынікаў. DreamFusion таксама абярэ выпадковую пазіцыю святла l выкарыстоўваць для рэндэрынгу.
Калі ў нас ёсць камера і становішча святла, будзе візуалізавана мадэль NeRF. DreamFusion таксама будзе выпадковым чынам выбіраць паміж каляровым візуалізацыяй, візуалізацыяй без тэкстуры і візуалізацыяй альбеда без зацянення.
Раней мы згадвалі, што хочам, каб наша мадэль пераўтварэння тэксту ў малюнак (Imagen) стварала дастатковую колькасць малюнкаў для стварэння рэпрэзентатыўнай выбаркі.
Як Dreamfusion дасягае гэтага?
Dreamfusion проста злёгку змяняе падказку для ўводу, каб дасягнуць жаданых ракурсаў. Напрыклад, мы можам дасягнуць вялікіх вуглоў узвышэння, дадаўшы да падказкі «выгляд зверху». Мы можам ствараць іншыя ракурсы, дадаючы такія фразы, як «выгляд спераду», «выгляд збоку» і «выгляд ззаду».
Сцэны паўтараюцца з выпадковых пазіцый камеры. Затым гэтыя візуалізацыі праходзяць праз функцыю страт пры дыстыляцыі. Просты градыентны падыход паступова палепшыць мадэль 3D пакуль не супадзе са сцэнай, апісанай у тэксце.
Пасля таго, як мы візуалізавалі 3D-мадэль з дапамогай NeRF, мы можам выкарыстоўваць Алгарытм Marching Cubes каб вывесці 3D-сетку нашай мадэлі. Затым гэту сетку можна імпартаваць у папулярныя 3D-рэндэры або праграмнае забеспячэнне для мадэлявання.
Недахопы
У той час як вынік DreamFusion досыць уражвае, паколькі ён выкарыстоўвае існуючыя мадэлі распаўсюджвання тэксту ў відарыс па-новаму, даследчыкі звярнулі ўвагу на некалькі абмежаванняў.
Было заўважана, што функцыя страты SDS дае перанасычаныя і празмерна згладжаныя вынікі. Вы можаце заўважыць гэта ў ненатуральнай афарбоўцы і адсутнасці дакладных дэталяў у выніках.
Алгарытм DreamFusion таксама абмежаваны раздзяленнем вываду мадэлі Imagen, якое складае 64 x 64 пікселяў. Гэта прыводзіць да таго, што ў сінтэзаваных мадэлях адсутнічаюць дробныя дэталі.
Нарэшце, даследчыкі адзначылі, што сінтэз 3D-мадэляў з 2D-дадзеных выклікае складанасці. Ёсць шмат магчымых 3D-мадэляў, якія мы можам стварыць з набору 2D-малюнкаў, што робіць аптымізацыю даволі складанай і нават неадназначнай.
заключэнне
3D-візуалізацыя DreamFusion працуе так добра дзякуючы здольнасці мадэляў распаўсюджвання тэксту ў малюнак ствараць любы аб'ект або сцэну. Уражвае, як нейронавая сетка можа разумець сцэну ў 3D-прасторы без якіх-небудзь трохмерных навучальных дадзеных. Рэкамендую прачытаць усю паперу каб даведацца больш пра тэхнічныя дэталі алгарытму DreamFusion.
Будзем спадзявацца, што гэтая тэхналогія будзе ўдасканальвацца, каб у канчатковым выніку ствараць фотарэалістычныя 3D-мадэлі. Уявіце сабе цэлыя відэагульні або сімулятары, якія выкарыстоўваюць асяроддзе, створанае штучным інтэлектам. Гэта можа знізіць уваходны бар'ер для распрацоўшчыкаў відэагульняў, каб ствараць захапляльныя 3D-светы!
Якую ролю, на вашу думку, будуць адыгрываць мадэлі пераўтварэння тэксту ў 3D у будучыні?
Пакінуць каментар