Соңғы екі жылда мәтіннен суретке AI модельдерінің қаншалықты қуатты болғаны туралы естіген шығарсыз. Бірақ дәл сол технология 2D-ден 3D-ге секіруге көмектесетінін білесіз бе?
AI-генерацияланған 3D модельдері бүгінгі цифрлық ландшафтта кеңінен қолданылады. Видео ойындары және фильм компьютерде жасалған көріністерді толтыру үшін 3D активтерін жасау үшін білікті 3D суретшілеріне және Blender сияқты модельдеу бағдарламалық құралына сүйенеді.
Дегенмен, бүгінде 3D суретшілері DALL-E және сияқты технологияларды қабылдай бастаған сияқты, сала аз күш жұмсап, 2D активтерін жасау үшін машиналық оқытуды пайдалана алады ма? Орташа сапар?
Бұл мақалада бар мәтінді пайдаланып, мәтіннен 3D-ге дейінгі тиімді модель жасауға тырысатын жаңа алгоритм зерттеледі. диффузиялық модельдер.
қандай Dreamfusion?
3D активтерін тікелей генерациялайтын диффузиялық үлгіні жасаудағы басты мәселенің бірі - 3D деректерінің көп болмауы. 2D диффузиялық модельдер интернетте табылған суреттердің үлкен деректер жиынтығының арқасында соншалықты күшті болды. Мұны 3D активтері туралы айту мүмкін емес.
Кейбір 3D генеративті әдістер осы 2D деректерінің көптігін пайдалана отырып, деректердің жетіспеушілігін айналып өтеді.
DreamFusion берілген мәтіндік сипаттама негізінде 3D үлгілерін жасай алатын генеративті үлгі болып табылады. DreamFusion үлгісі мәтіндік шақырулардан шынайы үш өлшемді үлгілерді жасау үшін алдын ала дайындалған мәтіннен кескінге диффузия үлгісін пайдаланады.
3D оқыту деректерінің жоқтығына қарамастан, бұл тәсіл сыртқы түрі мен тереңдігі жоғары үйлесімді 3D активтерін жасады.
Ол қалай жұмыс істейді?
DreamFusion алгоритмі екі негізгі үлгіден тұрады: 2D диффузиялық үлгісі және нейрондық желі ол 2D кескіндерді біртұтас 3D көрінісіне түрлендіре алады.
Google-дың Imagen мәтіннен кескінге моделі
Алгоритмнің бірінші бөлігі диффузиялық модель болып табылады. Бұл модель мәтінді кескіндерге түрлендіруге жауап береді.
Сурет белгілі бір нысанның кескін вариацияларының үлкен үлгісін жасай алатын диффузиялық модель болып табылады. Бұл жағдайда біздің кескіннің вариациялары ұсынылған нысанның барлық мүмкін бұрыштарын қамтуы керек. Мысалы, егер біз жылқының 3D моделін жасағымыз келсе, біз жылқының барлық ықтимал бұрыштарынан 2D кескіндерін алғымыз келеді. Мақсат - алгоритмдегі келесі модель үшін мүмкіндігінше көбірек ақпарат (түстер, шағылысулар, тығыздық) беру үшін Imagen пайдалану.
NeRF көмегімен 3D модельдерін жасау
Содан кейін Dreamfusion a деп аталатын үлгіні пайдаланады Нейрондық сәулелену өрісі немесе NeRF генерацияланған кескіндер жинағынан 3D үлгісін жасау үшін. NeRF құрылғылары 3D кескіндерінің деректер жиынтығын ескере отырып, күрделі 2D көріністерін жасай алады.
NeRF қалай жұмыс істейтінін түсінуге тырысайық.
Модель 2D кескіндердің берілген деректер жиынынан оңтайландырылған үздіксіз көлемді көрініс функциясын жасауға бағытталған.
Модель функцияны жасаса, кіріс және шығыс дегеніміз не?
Көрініс функциясы кіріс ретінде 3D орнын және 2D көру бағытын алады. Содан кейін функция түсті (RGB түрінде) және белгілі бір көлемнің тығыздығын шығарады.
Белгілі бір көзқарастан 2D кескінін жасау үшін модель 3D нүктелерінің жинағын жасайды және түс пен көлем тығыздығы мәндерінің жинағын қайтару үшін сол нүктелерді көрініс функциясы арқылы іске қосады. Дыбыс деңгейін көрсету әдістері сол мәндерді 2D кескін шығысына түрлендіреді.
NeRF және 2D диффузиялық модельдерін бірге пайдалану
Енді біз NeRF қалай жұмыс істейтінін білетіндіктен, бұл модель біздің жасалған кескіндерден дәл 3D үлгілерін қалай жасай алатынын көрейік.
Әрбір берілген мәтіндік шақыру үшін DreamFusion кездейсоқ инициализацияланған NeRF-ді нөлден бастап жаттықтырады. Әрбір итерация сфералық координаттар жинағында кездейсоқ камера орнын таңдайды. Шыны шармен қапталған модельді елестетіп көріңіз. Біз 3D үлгісінің жаңа кескінін жасаған сайын, шығарылымның көру нүктесі ретінде сферадағы кездейсоқ нүктені таңдаймыз. DreamFusion сонымен қатар кездейсоқ жарық орнын таңдайды l көрсету үшін пайдалануға арналған.
Бізде камера мен жарық позициясы болғаннан кейін NeRF үлгісі көрсетіледі. DreamFusion сонымен қатар түсті рендер, текстурасыз рендер және ешқандай көлеңкесіз альбедо кескіні арасында кездейсоқ таңдайды.
Жоғарыда біз мәтіннен кескінге үлгінің (Imagen) өкілдік үлгіні жасау үшін жеткілікті кескіндерді шығаруын қалайтынымызды айттық.
Dreamfusion мұны қалай орындайды?
Dreamfusion жоспарланған бұрыштарға қол жеткізу үшін енгізу сұрауын жай ғана өзгертеді. Мысалы, сұрауымызға «жоғарғы көріністі» қосу арқылы жоғары биіктік бұрыштарына қол жеткізе аламыз. Біз «алдыңғы көрініс», «бүйірден көрініс» және «артқы көрініс» сияқты сөз тіркестерін қосу арқылы басқа бұрыштарды жасай аламыз.
Көріністер кездейсоқ камера орындарынан қайта-қайта көрсетіледі. Содан кейін бұл көрсетулер ұпайды айдау жоғалту функциясы арқылы өтеді. Қарапайым градиентті түсіру тәсілі баяу жақсартады 3D модель мәтінмен сипатталған көрініске сәйкес келгенше.
NeRF көмегімен 3D үлгісін көрсеткеннен кейін, біз пайдалана аламыз Маршинг текшелерінің алгоритмі үлгінің 3D торын шығару үшін. Содан кейін бұл торды танымал 3D рендерерлеріне немесе модельдеу бағдарламалық құралына импорттауға болады.
шектеулер
DreamFusion нәтижесі жеткілікті әсерлі болғанымен, ол қолданыстағы мәтіннен кескінге диффузиялық үлгілерді жаңа жолмен пайдаланады, зерттеушілер бірнеше шектеулерді атап өтті.
SDS жоғалту функциясы шамадан тыс қаныққан және шамадан тыс тегістелген нәтижелерді беретіні байқалды. Сіз мұны табиғи емес бояудан және нәтижелерде табылған нақты мәліметтердің болмауынан байқауға болады.
DreamFusion алгоритмі 64 x 64 пиксельді құрайтын Imagen үлгісі шығысының ажыратымдылығымен де шектеледі. Бұл синтезделген модельдердің ұсақ бөлшектері жоқ болуына әкеледі.
Соңында, зерттеушілер 3D деректерінен 2D модельдерін синтездеудің өзіндік қиындықтары бар екенін атап өтті. 3D кескіндер жинағынан жасай алатын көптеген мүмкін болатын 2D модельдері бар, бұл оңтайландыруды айтарлықтай қиын және тіпті түсініксіз етеді.
қорытынды
DreamFusion 3D рендерингтері мәтіннен кескінге диффузиялық үлгілердің кез келген нысанды немесе көріністі жасау мүмкіндігіне байланысты өте жақсы жұмыс істейді. Нейрондық желінің 3D кеңістігіндегі көріністі 3D оқу деректерінсіз қалай түсіне алатыны таң қалдырады. оқуға кеңес беремін бүкіл қағаз DreamFusion алгоритмінің техникалық мәліметтері туралы көбірек білу үшін.
Бұл технология фотореалистік 3D модельдерін жасау үшін жақсарады деп үміттенеміз. AI жасалған орталарды пайдаланатын толық бейне ойындарды немесе модельдеулерді елестетіңіз. Бұл бейне ойын әзірлеушілерінің иммерсивті 3D әлемдерін жасау үшін кіру кедергісін төмендетуі мүмкін!
Болашақта мәтінді 3D-ге ауыстыру модельдері қандай рөл атқарады деп ойлайсыз?
пікір қалдыру