DreamFusion - تولید مدل های سه بعدی از متن

فهرست مندرجات[پنهان شدن][نمایش]

Dreamfusion چیست؟
چگونه کار می کند؟+-
محدودیت ها
نتیجه

شاید شنیده باشید که در چند سال گذشته مدل‌های هوش مصنوعی متن به تصویر چقدر قدرتمند شده‌اند. اما آیا می دانستید که همین فناوری می تواند به جهش از دو بعدی به سه بعدی کمک کند؟

مدل‌های سه‌بعدی تولید شده با هوش مصنوعی کاربرد گسترده‌ای در چشم‌انداز دیجیتال امروزی دارند. بازی های ویدئویی و فیلم به هنرمندان ماهر سه بعدی و نرم افزارهای مدل سازی مانند Blender برای ایجاد دارایی های سه بعدی برای پر کردن صحنه های تولید شده توسط کامپیوتر متکی است.

با این حال، آیا این امکان وجود دارد که صنعت بتواند از یادگیری ماشینی برای ایجاد دارایی های سه بعدی با تلاش کمتر استفاده کند، مشابه روشی که امروزه هنرمندان دوبعدی شروع به استفاده از فناوری هایی مانند DALL-E و میانه سفر?

این مقاله الگوریتم جدیدی را بررسی می‌کند که سعی می‌کند با استفاده از موجود، یک مدل متن به سه بعدی موثر ایجاد کند مدل های انتشار.

چه شده است Dreamfusion?

یکی از مشکلات اصلی ایجاد یک مدل انتشار که دارایی های سه بعدی را مستقیماً تولید می کند این است که داده های سه بعدی زیادی در دسترس نیست. مدل های انتشار دوبعدی به دلیل مجموعه داده های گسترده ای از تصاویر موجود در اینترنت بسیار قدرتمند شده اند. همین را نمی توان با دارایی های سه بعدی گفت.

برخی از تکنیک‌های مولد سه‌بعدی با بهره‌گیری از این فراوانی داده‌های دوبعدی، این کمبود داده را برطرف می‌کنند.

Dreamfusion مدل های سه بعدی منسجم را از توضیحات متن ارائه شده تولید می کند

DreamFusion یک مدل تولیدی است که می تواند مدل های سه بعدی را بر اساس توضیحات متن ارائه شده ایجاد کند. مدل DreamFusion از یک مدل انتشار متن به تصویر از پیش آموزش دیده برای تولید مدل های سه بعدی واقع گرایانه از پیام های متنی استفاده می کند.

علیرغم نداشتن داده های آموزشی سه بعدی، این رویکرد دارایی های سه بعدی منسجمی با ظاهر و عمق با وفاداری بالا ایجاد کرده است.

چگونه کار می کند؟

الگوریتم DreamFusion از دو مدل اصلی تشکیل شده است: یک مدل انتشار دو بعدی و یک مدل شبکه های عصبی که می تواند تصاویر دو بعدی را به یک صحنه سه بعدی منسجم تبدیل کند.

مدل Imagen Text-to-Image گوگل

بخش اول الگوریتم مدل انتشار است. این مدل وظیفه تبدیل متن به تصویر را بر عهده دارد.

تصویر یک مدل انتشار است که می تواند نمونه بزرگی از تغییرات تصویری یک شی خاص را ایجاد کند. در این مورد، تغییرات تصویر ما باید تمام زوایای ممکن از شی ارائه شده را پوشش دهد. به عنوان مثال، اگر می‌خواهیم یک مدل سه‌بعدی از یک اسب تولید کنیم، باید تصاویر دو بعدی از اسب را از تمام زوایای ممکن بسازیم. هدف استفاده از Imagen برای ارائه هرچه بیشتر اطلاعات (رنگ ها، بازتاب ها، تراکم) برای مدل بعدی در الگوریتم ما است.

Dreamfusion از Imagen گوگل برای تولید تصاویر از متن استفاده می کند

ایجاد مدل های سه بعدی با NeRF

بعد، Dreamfusion از مدلی استفاده می کند که به نام a میدان تابش عصبی یا NeRF برای ایجاد مدل سه بعدی از مجموعه تصویر تولید شده. NeRF ها می توانند صحنه های پیچیده سه بعدی را با مجموعه داده ای از تصاویر دو بعدی ایجاد کنند.

بیایید سعی کنیم درک کنیم که یک NeRF چگونه کار می کند.

هدف این مدل ایجاد یک تابع صحنه حجمی پیوسته بهینه شده از مجموعه داده های ارائه شده از تصاویر دو بعدی است.

اگر مدل یک تابع ایجاد می کند، ورودی و خروجی کدامند؟

عملکرد صحنه در یک مکان سه بعدی و جهت مشاهده دو بعدی به عنوان ورودی می گیرد. سپس تابع یک رنگ (به شکل RGB) و یک تراکم حجمی خاص را خروجی می دهد.

برای تولید یک تصویر دو بعدی از یک دیدگاه خاص، مدل مجموعه ای از نقاط سه بعدی را تولید می کند و آن نقاط را از طریق تابع صحنه اجرا می کند تا مجموعه ای از مقادیر تراکم رنگ و حجم را برگرداند. سپس تکنیک های رندر حجم آن مقادیر را به خروجی تصویر دوبعدی تبدیل می کند.

Dreamfusion از یک مدل NeRF برای تولید تابعی استفاده می کند که نماهای جدیدی از یک صحنه ایجاد می کند

استفاده از مدل های NeRF و 2D Diffusion با هم

اکنون که می دانیم یک NeRF چگونه کار می کند، بیایید ببینیم که چگونه این مدل می تواند مدل های سه بعدی دقیقی را از تصاویر تولید شده ما ایجاد کند.

برای هر پیام متنی ارائه شده، DreamFusion یک NeRF به طور تصادفی اولیه را از ابتدا آموزش می دهد. هر تکرار یک موقعیت تصادفی دوربین را در مجموعه ای از مختصات کروی انتخاب می کند. به مدل محصور شده در یک کره شیشه ای فکر کنید. هر بار که تصویر جدیدی از مدل سه بعدی خود تولید می کنیم، یک نقطه تصادفی در کره خود را به عنوان نقطه برتری خروجی خود انتخاب می کنیم. DreamFusion همچنین یک موقعیت نوری تصادفی را انتخاب می کند l برای رندر استفاده کنید

هنگامی که موقعیت دوربین و نور را داشته باشیم، یک مدل NeRF ارائه می شود. DreamFusion همچنین به صورت تصادفی بین یک رندر رنگی، یک رندر بدون بافت و یک رندر از albedo بدون هیچ سایه ای انتخاب می کند.

Dreamfusion تصاویر را از زوایای مختلف خروجی می دهد

قبلاً اشاره کردیم که می خواهیم مدل متن به تصویر ما (Imagen) تصاویر کافی برای ایجاد یک نمونه معرف تولید کند.

Dreamfusion چگونه این کار را انجام می دهد؟

Dreamfusion به سادگی اعلان ورودی را کمی تغییر می دهد تا به زوایای مورد نظر دست یابد. برای مثال، می‌توانیم با اضافه کردن «نمای بالای سر» به اعلان خود، به زوایای ارتفاع بالا دست پیدا کنیم. ما می توانیم زوایای دیگری را با اضافه کردن عباراتی مانند "نمای جلو"، "نمای جانبی" و "نمای پشت" ایجاد کنیم.

صحنه ها به طور مکرر از موقعیت های تصادفی دوربین رندر می شوند. سپس این رندرها از یک تابع از دست دادن تقطیر امتیاز عبور می کنند. یک رویکرد شیب نزولی ساده به آرامی بهبود خواهد یافت مدل 3D تا زمانی که با صحنه توصیف شده توسط متن مطابقت داشته باشد.

هنگامی که مدل سه بعدی را با استفاده از NeRF ارائه کردیم، می توانیم از آن استفاده کنیم الگوریتم مکعب های راهپیمایی برای خروجی یک مش سه بعدی از مدل ما. سپس این مش را می توان به رندرهای سه بعدی محبوب یا نرم افزارهای مدل سازی وارد کرد.

محدودیت ها

در حالی که خروجی DreamFusion به اندازه کافی چشمگیر است زیرا از مدل های انتشار متن به تصویر موجود به روشی جدید استفاده می کند، محققان به چند محدودیت اشاره کرده اند.

تابع از دست دادن SDS برای تولید نتایج بیش از حد اشباع و بیش از حد صاف مشاهده شده است. شما می توانید این را در رنگ آمیزی غیر طبیعی و عدم جزئیات دقیق موجود در خروجی ها مشاهده کنید.

الگوریتم DreamFusion نیز با وضوح خروجی مدل Imagen که 64×64 پیکسل است محدود شده است. این منجر به عدم وجود جزئیات دقیق در مدل های سنتز شده می شود.

در نهایت، محققان خاطرنشان کرده‌اند که یک چالش ذاتی در سنتز مدل‌های سه بعدی از داده‌های دو بعدی وجود دارد. مدل‌های سه‌بعدی زیادی وجود دارد که می‌توانیم از مجموعه‌ای از تصاویر دو بعدی تولید کنیم، که بهینه‌سازی را بسیار دشوار و حتی مبهم می‌کند.

نتیجه

رندرهای سه بعدی DreamFusion به دلیل توانایی مدل های انتشار متن به تصویر برای ایجاد هر شی یا صحنه بسیار خوب کار می کنند. این قابل توجه است که چگونه یک شبکه عصبی می تواند یک صحنه را در فضای سه بعدی بدون هیچ داده آموزشی سه بعدی درک کند. خواندن آن را توصیه می کنم کل کاغذ برای کسب اطلاعات بیشتر در مورد جزئیات فنی الگوریتم DreamFusion.

امیدواریم این فناوری در نهایت بهبود یابد تا مدل‌های سه‌بعدی واقعی ایجاد شود. کل بازی های ویدیویی یا شبیه سازی هایی را تصور کنید که از محیط های تولید شده توسط هوش مصنوعی استفاده می کنند. این می تواند مانع ورود توسعه دهندگان بازی های ویدیویی برای ایجاد جهان های سه بعدی همهجانبه را کاهش دهد!

به نظر شما مدل های تبدیل متن به سه بعدی در آینده چه نقشی خواهند داشت؟

DreamFusion - تولید مدل های سه بعدی از متن

DreamFusion - تولید مدل های سه بعدی از متن

چه شده است Dreamfusion?

چگونه کار می کند؟

مدل Imagen Text-to-Image گوگل

ایجاد مدل های سه بعدی با NeRF

استفاده از مدل های NeRF و 2D Diffusion با هم

محدودیت ها

نتیجه

درباره ما دیون منور

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

کولوسیان مقابل هیگن

این خبرنامه فناوری آینده بد نیست

DreamFusion - تولید مدل های سه بعدی از متن

چه شده است Dreamfusion?

چگونه کار می کند؟

مدل Imagen Text-to-Image گوگل

ایجاد مدل های سه بعدی با NeRF

استفاده از مدل های NeRF و 2D Diffusion با هم

محدودیت ها

نتیجه

درباره ما دیون منور

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

10 بهترین ابزار هوش مصنوعی برای رسانه های اجتماعی

کولوسیان مقابل هیگن

10 بهترین ابزار ساخت ویدیوی متحرک هوش مصنوعی

تداخلات خواننده

پاسخ دهید لغو پاسخ

این خبرنامه فناوری آینده بد نیست