اجتاحت نماذج الانتشار الكرة الأرضية بعاصفة مع إطلاق دال-E 2, صور جوجل, انتشار مستقرو ميدجورني، مما يحفز الابتكار ويوسع حدود التعلم الآلي.
يمكن أن تنتج هذه النماذج عددًا غير محدود تقريبًا من الصور من مطالبات الكلمات ، بما في ذلك الصور الواقعية والسحرية والمستقبلية وبالطبع الصور اللطيفة.
تعيد هذه القدرات تصور ما يعنيه أن يتفاعل البشر مع السيليكون ، مما يمنحنا القدرة على صنع أي صورة يمكننا تخيلها عمليًا.
مع تطور هذه النماذج أو تولي النموذج التوليدي التالي زمام الأمور ، سيتمكن البشر من إنتاج الصور والأفلام والتجارب الغامرة الأخرى بفكرة فقط.
في هذا المنشور ، سوف نناقش نموذج الانتشار، والانتشار المستقر ، وكيف يعمل ، ونموذج الانتشار في البرنامج التعليمي للرسم ، من بين أشياء أخرى.
ما هو نموذج الانتشار؟
يشار إلى نماذج التعلم الآلي التي يمكنها إنشاء بيانات جديدة من بيانات التدريب بالنماذج التوليدية. تشمل النماذج التوليدية الأخرى النماذج القائمة على التدفق ، وأجهزة التشفير التلقائية المتغيرة ، وشبكات الخصومة التوليدية (GANs).
يمكن لكل منها إنشاء صور بجودة ممتازة. تتعلم نماذج الانتشار استعادة البيانات عن طريق عكس عملية إضافة الضوضاء بعد إتلاف بيانات التدريب عن طريق إضافة الضوضاء. بعبارة أخرى ، يمكن لنماذج الانتشار إنشاء صور متماسكة من الضوضاء.
تتعلم نماذج الانتشار عن طريق إدخال ضوضاء على الصور ، والتي يتقن النموذج فيما بعد إزالتها. من أجل إنتاج صور واقعية ، يطبق النموذج بعد ذلك تقنية تقليل الضوضاء هذه على البذور العشوائية.
من خلال تكييف عملية إنتاج الصور ، يمكن استخدام هذه النماذج جنبًا إلى جنب مع إرشادات تحويل النص إلى صورة لإنشاء عدد غير محدود تقريبًا من الصور من النص وحده. يمكن توجيه البذور من خلال مدخلات من حفلات الزفاف مثل CLIP لإعطاء إمكانات قوية لتحويل النص إلى صورة.
يمكن أن تؤدي نماذج الانتشار مجموعة متنوعة من المهام ، بما في ذلك إنشاء الصورة وتقليل التشويش في الصورة وداخل الطلاء والتلوين الخارجي وانتشار البتات.
الآن ، ما هو الانتشار المستقر؟
Stable Diffusion هو نموذج للتعلم الآلي لإنشاء صور نصية مقدمة من الاستقرار. إنه قادر على توليد الصور من النص.
مكونات الانتشار المستقر
انتشار مستقر هو نظام يتكون من عدة مكونات ومفاهيم. إنه ليس نموذجًا واحدًا. عندما نتحقق من وراء الغطاء ، فإن أول شيء نراه هو أن هناك مكونًا لفهم النص يحول المعلومات النصية إلى تمثيل رقمي يلتقط مفاهيم النص.
يمكننا تسمية برنامج ترميز النص هذا بـ Transformer نموذج اللغة (تقنيًا: مشفر النص لنموذج CLIP). يأخذ نص الإدخال ويولد قائمة من الأعداد الصحيحة (متجه) لكل كلمة / رمز مميز في النص. يتم بعد ذلك توفير هذه البيانات لمولد الصور ، والذي يتكون من عدة مكونات.
هناك خطوتان في منشئ الصور:
1. صورة منشئ المعلومات
المكون الرئيسي في Stable Diffusion هو هذا العنصر. إنه المكان الذي يتم فيه إجراء غالبية التحسينات في الأداء مقارنة بالإصدارات السابقة.
يمر هذا المكون بعدة مراحل لتوفير بيانات الصورة. يعمل منشئ معلومات الصورة فقط ضمن مساحة معلومات الصورة (أو المساحة الكامنة).
إنه أسرع من نماذج الانتشار السابقة التي كانت تعمل في مساحة بكسل بسبب هذه الخاصية. من الناحية الفنية ، يتكون هذا المكون من خوارزمية جدولة و UNet الشبكة العصبية.
يشار إلى العملية التي تتم في هذا المكون باسم "الانتشار". يتم إنتاج صورة عالية الجودة في النهاية كنتيجة للمعلومات التي تتم معالجتها في خطوات (بواسطة المكون التالي ، وحدة فك ترميز الصورة).
2. فك الصورة
باستخدام البيانات التي تلقتها من منتج المعلومات ، تقوم وحدة فك ترميز الصور بإنشاء صورة. يتم تنفيذه مرة واحدة فقط لإنشاء صورة البكسل النهائية في نهاية العملية.
انتشار مستقر تعليمي Impainting
رسم صورة الانتشار المستقر هو تقنية ملء المناطق المفقودة أو التالفة من الصورة. الغرض من الرسم الداخلي للصورة هو إخفاء حقيقة استعادة الصورة.
كثيرا ما تستخدم هذه التقنية لإزالة الأشياء غير المرغوب فيها من الصورة أو لاستعادة المناطق المتضررة من الصور التاريخية. انتشار مستقر Inpainting هي طريقة حديثة نسبيًا للرسم تؤدي إلى تأثيرات واعدة.
سيساعدك اتباع الإرشادات أدناه على البدء في استكشاف الصور الموجودة وتعديلها إذا كنت ترغب في تجربة الطلاء باستخدام انتشار ثابت:
- اذهب إلى Huggingface تشوه الانتشار المستقر
- قم بتحميل صورتك الخاصة
- امسح الجزء الذي يجب استبداله من صورتك.
- أدخل مطالبتك هنا (ما تريد إضافته بدلاً من ما تزيله)
- حدد "تشغيل"
في الفيديو في الأعلى ، نرفع صورة بثلاث حبات ليمون ونبادلها بالتفاح. أنا شخصياً أوصي بتجربته باستخدام الصور والمطالبات الخاصة بك.
وفي الختام
بشكل عام ، يعد الطلاء المنتشر الثابت طريقة ممتازة لإنتاج صور أو مقاطع فيديو مزيفة تبدو حقيقية للغاية. بينما نتحرك نحو التقدم التكنولوجي الجديد ، سيصبح التمييز بين الأصالة والاحتيال أصعب فأصعب مع تقدم التكنولوجيا.
سواهر
الشوط الأول لا علاقة له على الإطلاق بالنصف الثاني. كان من الرائع حقًا أن يقوم المؤلف بشرح كيفية عمل inpaint في إطار النموذج الذي شرحه سابقًا ، لإعطاء رؤى. لكن لا! كان سيتطلب ذلك فهمًا حقيقيًا ، بدلاً من جمع نص عشوائي ومعالجته.