Сиз акыркы эки жылда AI моделдери канчалык күчтүү тексттен сүрөткө айланганын уккандырсыз. Бирок ошол эле технология 2Dден 3Dге секирик жасоого жардам бере аларын билесизби?
AI тарабынан түзүлгөн 3D моделдери бүгүнкү санариптик пейзажда кеңири колдонууга ээ. Video оюндар жана тасма компьютерде түзүлгөн көрүнүштөрдү толтуруу үчүн 3D активдерин түзүү үчүн чебер 3D сүрөтчүлөрүнө жана Blender сыяктуу моделдөөчү программалык камсыздоого таянат.
Бирок, бүгүнкү күндө 3D сүрөтчүлөрү DALL-E жана DALL-E сыяктуу технологияларды кабыл ала баштагандай, өнөр жай 2D активдерин азыраак күч менен түзүү үчүн машина үйрөнүүсүн колдонушу мүмкүнбү? Орто жол?
Бул макалада учурдагы алгоритмдерди колдонуу менен эффективдүү тексттен 3Dге моделин түзүүгө аракет кылган жаңы алгоритм изилденет. диффузиялык моделдер.
Эмне Dreamfusion?
Түздөн-түз 3D активдерин түзүүчү диффузиялык моделди түзүүдөгү негизги көйгөйлөрдүн бири 3D маалыматтарынын көп эместигинде. 2D диффузиялык моделдер интернетте табылган сүрөттөрдүн кеңири топтомунан улам абдан күчтүү болуп калды. 3D активдери менен да ушуну айтууга болбойт.
Кээ бир 3D генеративдик ыкмалар 2D маалыматтарынын бул көптүгүнөн пайдаланып, бул маалыматтын жетишсиздигине айланат.
DreamFusion берилген тексттин сыпаттамасынын негизинде 3D моделдерин түзө ала турган генеративдик модель. DreamFusion модели текст сунуштарынан реалдуу үч өлчөмдүү моделдерди түзүү үчүн алдын ала даярдалган тексттен сүрөткө диффузиялык моделин колдонот.
3D окутуу маалыматтары жок болгонуна карабастан, бул ыкма жогорку тактыктагы көрүнүшү жана тереңдиги менен ырааттуу 3D активдерин түздү.
Бул кантип иштейт?
DreamFusion алгоритми эки негизги моделден турат: 2D диффузиялык модели жана нейрон тармак 2D сүрөттөрдү бирдиктүү 3D көрүнүшүнө айландыра алат.
Google'дун Imagen Text-to-Image модели
Алгоритмдин биринчи бөлүгү диффузиялык модель болуп саналат. Бул модель текстти сүрөттөргө айландыруу үчүн жооптуу.
Картинки белгилүү бир объекттин сүрөт вариацияларынын чоң үлгүсүн түзө алган диффузиялык модель. Бул учурда, биздин сүрөттүн вариациялары берилген объекттин бардык мүмкүн болгон бурчтарын камтышы керек. Мисалы, биз аттын 3D моделин түзүүнү кааласак, анда биз аттын бардык мүмкүн болгон бурчтарынан 2D сүрөттөрүн каалайбыз. Максаты - алгоритмибиздин кийинки модели үчүн мүмкүн болушунча көбүрөөк маалымат (түстөр, чагылуулар, тыгыздык) берүү үчүн Imagenди колдонуу.
NeRF менен 3D моделдерин түзүү
Андан кийин, Dreamfusion a деп аталган моделди колдонот Нейрондук нурлануу талаасы же NeRF генерацияланган сүрөттөр топтомунан 3D моделин түзүү үчүн. NeRFs 3D сүрөттөрүнүн маалымат топтомун эске алуу менен татаал 2D көрүнүштөрдү түзө алат.
Келгиле, NeRF кантип иштээрин түшүнүүгө аракет кылалы.
Модель 2D сүрөттөрүнүн берилген маалымат топтомунан оптималдаштырылган үзгүлтүксүз көлөмдүү көрүнүш функциясын түзүүгө багытталган.
Эгерде модель функцияны түзсө, киргизүү жана чыгаруу деген эмне?
Сахна функциясы киргизүү катары 3D жайгашкан жерди жана 2D көрүү багытын алат. Андан кийин функция түстү (RGB түрүндө) жана белгилүү бир көлөмдүн тыгыздыгын чыгарат.
Белгилүү бир көз караштан 2D сүрөттү түзүү үчүн, модель 3D чекиттеринин топтомун жаратат жана түс жана көлөмдүн тыгыздыгынын маанилеринин топтомун кайтаруу үчүн ошол чекиттерди сахна функциясы аркылуу иштетет. Көлөмдү көрсөтүү ыкмалары андан кийин бул маанилерди 2D сүрөт чыгаруусуна айлантат.
NeRF жана 2D диффузиялык моделдерин бирге колдонуу
Эми биз NeRF кантип иштээрин билгенден кийин, келгиле, бул модель кантип биздин түзүлгөн сүрөттөрдөн так 3D моделдерин түзө аларын карап көрөлү.
Ар бир берилген текст сунушу үчүн DreamFusion нөлдөн баштап туш келди инициализацияланган NeRFти үйрөтөт. Ар бир итерация сфералык координаттардын топтомунда туш келди камеранын ордун тандайт. Айнек чөйрөгө салынган моделди ойлоп көрүңүз. Ар бир жолу биз 3D моделибиздин жаңы сүрөтүн жаратканда, биз чөйрөбүздөгү кокустук чекитти өзүбүздүн натыйжабыз үчүн тандап алабыз. DreamFusion да кокус жарык абалын тандайт l көрсөтүү үчүн колдонуу.
Камера жана жарык абалына ээ болгондон кийин, NeRF модели көрсөтүлөт. DreamFusion ошондой эле түстүү рендерди, текстурасыз рендерди жана эч кандай көлөкө түшүрбөгөн альбедо рендерлигини туш келди тандайт.
Биз тексттен сүрөткө моделибиздин (Imagen) өкүл үлгүсүн түзүү үчүн жетиштүү сүрөттөрдү чыгарышын каалайбыз деп жогоруда айтканбыз.
Dreamfusion муну кантип ишке ашырат?
Dreamfusion жөн гана көздөгөн бурчтарга жетүү үчүн киргизүү сунушун бир аз өзгөртөт. Мисалы, биз сунушубузга "үстүнөн көрүнүштү" кошуу менен бийиктик бурчтарына жетише алабыз. Биз "алдынкы көрүнүш", "капталдан көрүнүш" жана "арткы көрүнүш" сыяктуу сөз айкаштарын кошуу менен башка бурчтарды түзө алабыз.
Сахналар камеранын туш келди жерлеринен кайра-кайра көрсөтүлөт. Бул көрсөтүүлөр андан кийин баллдык дистилляцияны жоготуу функциясы аркылуу өтөт. Жөнөкөй градиенттик түшүү ыкмасы акырындык менен жакшыртат 3D модель текстте сүрөттөлгөн көрүнүшкө дал келгенге чейин.
NeRF аркылуу 3D моделин көрсөткөндөн кийин, биз колдоно алабыз Cubes жүрүш алгоритми биздин моделдин 3D сетин чыгаруу үчүн. Бул торду андан кийин популярдуу 3D рендерерлерге же моделдөө программасына импорттоого болот.
чектөөлөр
DreamFusion натыйжасы жетиштүү таасирдүү болгону менен, ал учурдагы тексттен сүрөткө диффузиялык моделдерди жаңыча колдонот, изилдөөчүлөр бир нече чектөөлөрдү белгилешти.
SDS жоготуу функциясы ашыкча тойгон жана ашыкча жылмакай натыйжаларды бергени байкалган. Сиз муну табигый эмес боёктон жана натыйжаларда табылган так деталдардын жоктугунан байкай аласыз.
DreamFusion алгоритми 64 x 64 пиксель болгон Imagen моделинин чыгарылышынын чечими менен да чектелген. Бул синтезделген моделдердин майда деталдары жок болушуна алып келет.
Акырында, изилдөөчүлөр 3D маалыматтарынан 2D моделдерин синтездөөдө өзгөчө кыйынчылык бар экенин белгилешти. Биз 3D сүрөттөрдүн топтомун түзө турган көптөгөн мүмкүн болгон 2D моделдери бар, бул оптималдаштырууну бир топ кыйын жана ал тургай эки ачакей кылат.
жыйынтыктоо
DreamFusion'дун 3D рендеринги тексттен сүрөткө диффузиялык моделдердин каалаган объектини же көрүнүштү жаратуу жөндөмдүүлүгүнөн абдан жакшы иштейт. Нейрондук тармак 3D мейкиндигиндеги көрүнүштү эч кандай 3D окутуу маалыматтарысыз түшүнө алганы таң калыштуу. окууну сунуштайм бүт кагаз DreamFusion алгоритминин техникалык деталдары жөнүндө көбүрөөк билүү үчүн.
Бул технология акыры фотореалдуу 3D моделдерин түзүү үчүн жакшыртат деп үмүттөнөбүз. AI жараткан чөйрөлөрдү колдонгон бүтүндөй видео оюндарын же симуляцияларды элестетиңиз. Бул видео оюндарды иштеп чыгуучулардын 3D дүйнөсүн түзүү үчүн кирүү тоскоолдуктарын төмөндөтүшү мүмкүн!
Келечекте тексттен 3D моделге кандай роль ойнойт деп ойлойсуз?
Таштап Жооп