ربما تكون قد سمعت عن مدى قوة نماذج الذكاء الاصطناعي لتحويل النص إلى صورة في العامين الماضيين. لكن هل تعلم أن نفس التقنية يمكن أن تساعد في تحقيق قفزة من ثنائية الأبعاد إلى ثلاثية الأبعاد؟
النماذج ثلاثية الأبعاد التي تم إنشاؤها بواسطة الذكاء الاصطناعي لها حالة استخدام واسعة في المشهد الرقمي اليوم. ألعاب الفيديو يعتمد الفيلم والفيلم على فنانين ثلاثي الأبعاد ماهرين وبرامج نمذجة مثل Blender لإنشاء أصول ثلاثية الأبعاد لملء المشاهد التي تم إنشاؤها بواسطة الكمبيوتر.
ومع ذلك، هل من الممكن أن تستخدم الصناعة التعلم الآلي لإنشاء أصول ثلاثية الأبعاد بجهد أقل، على غرار الطريقة التي بدأ بها الفنانون ثنائيو الأبعاد اليوم في اعتماد تكنولوجيا مثل DALL-E و ميدجورني?
ستستكشف هذه المقالة خوارزمية جديدة تحاول إنشاء نموذج فعال لتحويل النص إلى ثلاثي الأبعاد باستخدام الموجود نماذج الانتشار.
ما هي تفاصيل دريم فيوجن?
تتمثل إحدى المشكلات الرئيسية في إنشاء نموذج نشر يقوم بإنشاء أصول ثلاثية الأبعاد مباشرةً في عدم توفر الكثير من البيانات ثلاثية الأبعاد. أصبحت نماذج الانتشار ثنائية الأبعاد قوية جدًا بسبب مجموعة البيانات الهائلة من الصور الموجودة على الإنترنت. لا يمكن قول الشيء نفسه مع الأصول ثلاثية الأبعاد.
تعمل بعض تقنيات التوليد ثلاثية الأبعاد على حل هذا النقص في البيانات من خلال الاستفادة من هذه الوفرة من البيانات ثنائية الأبعاد.
دريم فيوجن هو نموذج توليدي يمكنه إنشاء نماذج ثلاثية الأبعاد بناءً على وصف نصي مقدم. يستخدم نموذج DreamFusion نموذجًا مدرَّبًا مسبقًا لنشر النص إلى الصورة لإنشاء نماذج واقعية ثلاثية الأبعاد من مطالبات النص.
على الرغم من عدم وجود بيانات تدريب ثلاثية الأبعاد ، فقد أنتج هذا الأسلوب أصولًا ثلاثية الأبعاد متماسكة ذات مظهر وعمق عالي الدقة.
كيف يعمل؟
تتكون خوارزمية DreamFusion من نموذجين رئيسيين: نموذج نشر ثنائي الأبعاد و a الشبكة العصبية يمكنه تحويل الصور ثنائية الأبعاد إلى مشهد ثلاثي الأبعاد متماسك.
نموذج Imagen لتحويل النص إلى صورة من Google
الجزء الأول من الخوارزمية هو نموذج الانتشار. هذا النموذج مسؤول عن تحويل النص إلى صور.
صورة هو نموذج انتشار يمكن أن يولد عينة كبيرة من الأشكال المختلفة للصورة لكائن معين. في هذه الحالة ، يجب أن تغطي اختلافات الصور لدينا جميع الزوايا الممكنة للكائن المقدم. على سبيل المثال ، إذا أردنا إنشاء نموذج ثلاثي الأبعاد لحصان ، فنحن نريد صورًا ثنائية الأبعاد للحصان من جميع الزوايا الممكنة. الهدف هو استخدام Imagen لتوفير أكبر قدر ممكن من المعلومات (الألوان والانعكاسات والكثافة) للنموذج التالي في خوارزمية لدينا.
إنشاء نماذج ثلاثية الأبعاد باستخدام NeRF
بعد ذلك ، يستخدم Dreamfusion نموذجًا يُعرف باسم a مجال الإشعاع العصبي أو NeRF لإنشاء نموذج ثلاثي الأبعاد من مجموعة الصور التي تم إنشاؤها. يمكن لـ NeRFs إنشاء مشاهد ثلاثية الأبعاد معقدة بمجموعة بيانات من الصور ثنائية الأبعاد.
دعنا نحاول فهم كيفية عمل NeRF.
يهدف النموذج إلى إنشاء وظيفة مشهد حجمي مستمرة محسّنة من مجموعة البيانات المتوفرة للصور ثنائية الأبعاد.
إذا قام النموذج بإنشاء دالة ، فما هو المدخل والمخرج؟
تأخذ وظيفة المشهد موقعًا ثلاثي الأبعاد واتجاه عرض ثنائي الأبعاد كإدخال. تقوم الوظيفة بعد ذلك بإخراج لون (على شكل RGB) وكثافة حجم معينة.
لإنشاء صورة ثنائية الأبعاد من وجهة نظر محددة ، سيقوم النموذج بإنشاء مجموعة من النقاط ثلاثية الأبعاد وتشغيل تلك النقاط من خلال وظيفة المشهد لإرجاع مجموعة من قيم كثافة اللون والحجم. ستقوم تقنيات عرض الحجم بعد ذلك بتحويل هذه القيم إلى إخراج صورة ثنائية الأبعاد.
استخدام نماذج الانتشار NeRF و 2D معًا
الآن بعد أن عرفنا كيف يعمل NeRF ، دعنا نرى كيف يمكن لهذا النموذج إنشاء نماذج ثلاثية الأبعاد دقيقة من الصور التي تم إنشاؤها.
لكل مطالبة نصية مقدمة ، يقوم DreamFusion بتدريب NeRF تمت تهيئته عشوائيًا من البداية. يختار كل تكرار موقعًا عشوائيًا للكاميرا في مجموعة من الإحداثيات الكروية. فكر في النموذج المغطى في كرة زجاجية. في كل مرة نقوم فيها بإنشاء صورة جديدة لنموذجنا ثلاثي الأبعاد ، سنختار نقطة عشوائية في مجالنا كنقطة أفضلية لإخراجنا. سيختار DreamFusion أيضًا موضع إضاءة عشوائي l لاستخدامها في التقديم.
بمجرد أن يكون لدينا موقع الكاميرا والضوء ، سيتم عرض نموذج NeRF. سيختار DreamFusion أيضًا بشكل عشوائي بين تصيير ملون ، وتصيير بدون نسيج ، وعرض للألبيدو دون أي تظليل.
لقد ذكرنا سابقًا أننا نريد نموذج تحويل النص إلى صورة (Imagen) الخاص بنا لإنتاج صور كافية لإنشاء عينة تمثيلية.
كيف ينجز Dreamfusion هذا؟
يقوم Dreamfusion ببساطة بتعديل موجه الإدخال قليلاً لتحقيق الزوايا المقصودة. على سبيل المثال ، يمكننا تحقيق زوايا ارتفاع عالية من خلال إلحاق "عرض علوي" بموجهنا. يمكننا إنشاء زوايا أخرى عن طريق إلحاق عبارات مثل "منظر أمامي" و "منظر جانبي" و "منظر خلفي".
يتم عرض المشاهد بشكل متكرر من مواضع الكاميرا العشوائية. ثم تمر هذه التصورات من خلال وظيفة فقدان التقطير. سيؤدي نهج النسب المتدرج البسيط إلى تحسين نموذج 3D حتى يطابق المشهد الذي وصفه النص.
بمجرد عرض النموذج ثلاثي الأبعاد باستخدام NeRF ، يمكننا استخدام خوارزمية زحف مكعبات لإنتاج شبكة ثلاثية الأبعاد لنموذجنا. يمكن بعد ذلك استيراد هذه الشبكة إلى أجهزة عرض ثلاثية الأبعاد أو برامج نمذجة شائعة.
القيود
في حين أن إخراج DreamFusion مثير للإعجاب بدرجة كافية لأنه يستخدم نماذج نشر النص إلى الصورة الحالية بطريقة جديدة ، فقد لاحظ الباحثون بعض القيود.
وقد لوحظت وظيفة فقدان SDS لإنتاج نتائج مفرطة التشبع ومفرطة في النعومة. يمكنك ملاحظة ذلك في التلوين غير الطبيعي ونقص التفاصيل الدقيقة الموجودة في المخرجات.
خوارزمية DreamFusion محدودة أيضًا بدقة إخراج نموذج Imagen ، وهي 64 × 64 بكسل. وهذا يؤدي إلى افتقار النماذج المركبة إلى التفاصيل الدقيقة.
أخيرًا ، لاحظ الباحثون أن هناك تحديًا متأصلًا في تركيب نماذج ثلاثية الأبعاد من بيانات ثنائية الأبعاد. هناك العديد من النماذج ثلاثية الأبعاد المحتملة التي يمكننا إنشاؤها من مجموعة من الصور ثنائية الأبعاد ، مما يجعل عملية التحسين صعبة للغاية وحتى غامضة.
وفي الختام
تعمل عروض DreamFusion ثلاثية الأبعاد بشكل جيد بسبب قدرة نماذج نشر النص إلى صورة لإنشاء أي كائن أو مشهد. إنه لأمر مثير للإعجاب كيف يمكن للشبكة العصبية فهم مشهد في مساحة ثلاثية الأبعاد دون أي بيانات تدريب ثلاثية الأبعاد. أوصي بقراءة ملف ورقة كاملة لمعرفة المزيد حول التفاصيل الفنية لخوارزمية DreamFusion.
نأمل أن تتحسن هذه التقنية لإنشاء نماذج ثلاثية الأبعاد للصور الواقعية. تخيل ألعاب فيديو كاملة أو عمليات محاكاة تستخدم بيئات تم إنشاؤها بواسطة الذكاء الاصطناعي. يمكن أن يقلل من حاجز الدخول لمطوري ألعاب الفيديو لإنشاء عوالم ثلاثية الأبعاد غامرة!
ما الدور الذي تعتقد أن نماذج تحويل النص إلى ثلاثي الأبعاد ستلعبه في المستقبل؟
اترك تعليق