شاید شنیده باشید که در چند سال گذشته مدلهای هوش مصنوعی متن به تصویر چقدر قدرتمند شدهاند. اما آیا می دانستید که همین فناوری می تواند به جهش از دو بعدی به سه بعدی کمک کند؟
مدلهای سهبعدی تولید شده با هوش مصنوعی کاربرد گستردهای در چشمانداز دیجیتال امروزی دارند. بازی های ویدئویی و فیلم به هنرمندان ماهر سه بعدی و نرم افزارهای مدل سازی مانند Blender برای ایجاد دارایی های سه بعدی برای پر کردن صحنه های تولید شده توسط کامپیوتر متکی است.
با این حال، آیا این امکان وجود دارد که صنعت بتواند از یادگیری ماشینی برای ایجاد دارایی های سه بعدی با تلاش کمتر استفاده کند، مشابه روشی که امروزه هنرمندان دوبعدی شروع به استفاده از فناوری هایی مانند DALL-E و میانه سفر?
این مقاله الگوریتم جدیدی را بررسی میکند که سعی میکند با استفاده از موجود، یک مدل متن به سه بعدی موثر ایجاد کند مدل های انتشار.
چه شده است Dreamfusion?
یکی از مشکلات اصلی ایجاد یک مدل انتشار که دارایی های سه بعدی را مستقیماً تولید می کند این است که داده های سه بعدی زیادی در دسترس نیست. مدل های انتشار دوبعدی به دلیل مجموعه داده های گسترده ای از تصاویر موجود در اینترنت بسیار قدرتمند شده اند. همین را نمی توان با دارایی های سه بعدی گفت.
برخی از تکنیکهای مولد سهبعدی با بهرهگیری از این فراوانی دادههای دوبعدی، این کمبود داده را برطرف میکنند.
DreamFusion یک مدل تولیدی است که می تواند مدل های سه بعدی را بر اساس توضیحات متن ارائه شده ایجاد کند. مدل DreamFusion از یک مدل انتشار متن به تصویر از پیش آموزش دیده برای تولید مدل های سه بعدی واقع گرایانه از پیام های متنی استفاده می کند.
علیرغم نداشتن داده های آموزشی سه بعدی، این رویکرد دارایی های سه بعدی منسجمی با ظاهر و عمق با وفاداری بالا ایجاد کرده است.
چگونه کار می کند؟
الگوریتم DreamFusion از دو مدل اصلی تشکیل شده است: یک مدل انتشار دو بعدی و یک مدل شبکه های عصبی که می تواند تصاویر دو بعدی را به یک صحنه سه بعدی منسجم تبدیل کند.
مدل Imagen Text-to-Image گوگل
بخش اول الگوریتم مدل انتشار است. این مدل وظیفه تبدیل متن به تصویر را بر عهده دارد.
تصویر یک مدل انتشار است که می تواند نمونه بزرگی از تغییرات تصویری یک شی خاص را ایجاد کند. در این مورد، تغییرات تصویر ما باید تمام زوایای ممکن از شی ارائه شده را پوشش دهد. به عنوان مثال، اگر میخواهیم یک مدل سهبعدی از یک اسب تولید کنیم، باید تصاویر دو بعدی از اسب را از تمام زوایای ممکن بسازیم. هدف استفاده از Imagen برای ارائه هرچه بیشتر اطلاعات (رنگ ها، بازتاب ها، تراکم) برای مدل بعدی در الگوریتم ما است.
ایجاد مدل های سه بعدی با NeRF
بعد، Dreamfusion از مدلی استفاده می کند که به نام a میدان تابش عصبی یا NeRF برای ایجاد مدل سه بعدی از مجموعه تصویر تولید شده. NeRF ها می توانند صحنه های پیچیده سه بعدی را با مجموعه داده ای از تصاویر دو بعدی ایجاد کنند.
بیایید سعی کنیم درک کنیم که یک NeRF چگونه کار می کند.
هدف این مدل ایجاد یک تابع صحنه حجمی پیوسته بهینه شده از مجموعه داده های ارائه شده از تصاویر دو بعدی است.
اگر مدل یک تابع ایجاد می کند، ورودی و خروجی کدامند؟
عملکرد صحنه در یک مکان سه بعدی و جهت مشاهده دو بعدی به عنوان ورودی می گیرد. سپس تابع یک رنگ (به شکل RGB) و یک تراکم حجمی خاص را خروجی می دهد.
برای تولید یک تصویر دو بعدی از یک دیدگاه خاص، مدل مجموعه ای از نقاط سه بعدی را تولید می کند و آن نقاط را از طریق تابع صحنه اجرا می کند تا مجموعه ای از مقادیر تراکم رنگ و حجم را برگرداند. سپس تکنیک های رندر حجم آن مقادیر را به خروجی تصویر دوبعدی تبدیل می کند.
استفاده از مدل های NeRF و 2D Diffusion با هم
اکنون که می دانیم یک NeRF چگونه کار می کند، بیایید ببینیم که چگونه این مدل می تواند مدل های سه بعدی دقیقی را از تصاویر تولید شده ما ایجاد کند.
برای هر پیام متنی ارائه شده، DreamFusion یک NeRF به طور تصادفی اولیه را از ابتدا آموزش می دهد. هر تکرار یک موقعیت تصادفی دوربین را در مجموعه ای از مختصات کروی انتخاب می کند. به مدل محصور شده در یک کره شیشه ای فکر کنید. هر بار که تصویر جدیدی از مدل سه بعدی خود تولید می کنیم، یک نقطه تصادفی در کره خود را به عنوان نقطه برتری خروجی خود انتخاب می کنیم. DreamFusion همچنین یک موقعیت نوری تصادفی را انتخاب می کند l برای رندر استفاده کنید
هنگامی که موقعیت دوربین و نور را داشته باشیم، یک مدل NeRF ارائه می شود. DreamFusion همچنین به صورت تصادفی بین یک رندر رنگی، یک رندر بدون بافت و یک رندر از albedo بدون هیچ سایه ای انتخاب می کند.
قبلاً اشاره کردیم که می خواهیم مدل متن به تصویر ما (Imagen) تصاویر کافی برای ایجاد یک نمونه معرف تولید کند.
Dreamfusion چگونه این کار را انجام می دهد؟
Dreamfusion به سادگی اعلان ورودی را کمی تغییر می دهد تا به زوایای مورد نظر دست یابد. برای مثال، میتوانیم با اضافه کردن «نمای بالای سر» به اعلان خود، به زوایای ارتفاع بالا دست پیدا کنیم. ما می توانیم زوایای دیگری را با اضافه کردن عباراتی مانند "نمای جلو"، "نمای جانبی" و "نمای پشت" ایجاد کنیم.
صحنه ها به طور مکرر از موقعیت های تصادفی دوربین رندر می شوند. سپس این رندرها از یک تابع از دست دادن تقطیر امتیاز عبور می کنند. یک رویکرد شیب نزولی ساده به آرامی بهبود خواهد یافت مدل 3D تا زمانی که با صحنه توصیف شده توسط متن مطابقت داشته باشد.
هنگامی که مدل سه بعدی را با استفاده از NeRF ارائه کردیم، می توانیم از آن استفاده کنیم الگوریتم مکعب های راهپیمایی برای خروجی یک مش سه بعدی از مدل ما. سپس این مش را می توان به رندرهای سه بعدی محبوب یا نرم افزارهای مدل سازی وارد کرد.
محدودیت ها
در حالی که خروجی DreamFusion به اندازه کافی چشمگیر است زیرا از مدل های انتشار متن به تصویر موجود به روشی جدید استفاده می کند، محققان به چند محدودیت اشاره کرده اند.
تابع از دست دادن SDS برای تولید نتایج بیش از حد اشباع و بیش از حد صاف مشاهده شده است. شما می توانید این را در رنگ آمیزی غیر طبیعی و عدم جزئیات دقیق موجود در خروجی ها مشاهده کنید.
الگوریتم DreamFusion نیز با وضوح خروجی مدل Imagen که 64×64 پیکسل است محدود شده است. این منجر به عدم وجود جزئیات دقیق در مدل های سنتز شده می شود.
در نهایت، محققان خاطرنشان کردهاند که یک چالش ذاتی در سنتز مدلهای سه بعدی از دادههای دو بعدی وجود دارد. مدلهای سهبعدی زیادی وجود دارد که میتوانیم از مجموعهای از تصاویر دو بعدی تولید کنیم، که بهینهسازی را بسیار دشوار و حتی مبهم میکند.
نتیجه
رندرهای سه بعدی DreamFusion به دلیل توانایی مدل های انتشار متن به تصویر برای ایجاد هر شی یا صحنه بسیار خوب کار می کنند. این قابل توجه است که چگونه یک شبکه عصبی می تواند یک صحنه را در فضای سه بعدی بدون هیچ داده آموزشی سه بعدی درک کند. خواندن آن را توصیه می کنم کل کاغذ برای کسب اطلاعات بیشتر در مورد جزئیات فنی الگوریتم DreamFusion.
امیدواریم این فناوری در نهایت بهبود یابد تا مدلهای سهبعدی واقعی ایجاد شود. کل بازی های ویدیویی یا شبیه سازی هایی را تصور کنید که از محیط های تولید شده توسط هوش مصنوعی استفاده می کنند. این می تواند مانع ورود توسعه دهندگان بازی های ویدیویی برای ایجاد جهان های سه بعدی همهجانبه را کاهش دهد!
به نظر شما مدل های تبدیل متن به سه بعدی در آینده چه نقشی خواهند داشت؟
پاسخ دهید