بشكل عام ، تتعامل النماذج التوليدية العميقة مثل GANs و VAEs ونماذج الانحدار التلقائي مع مشاكل تركيب الصورة.
نظرًا للجودة العالية للبيانات التي تنشئها ، حظيت شبكات الخصومة التوليدية (GANs) بالكثير من الاهتمام في السنوات الأخيرة.
تعد نماذج الانتشار مجالًا رائعًا آخر للدراسة أثبت نفسه. وجدت مجالات إنشاء الصور والفيديو والصوت استخدامًا مكثفًا لكليهما.
نماذج الانتشار مقابل شبكات GAN: أيهما ينتج نتائج أفضل؟ وبطبيعة الحال ، أدى هذا إلى مناقشة مستمرة.
في العمارة الحسابية المعروفة باسم GAN ، اثنان الشبكات العصبية يتم محاربة بعضها البعض لإنتاج حالات مركبة حديثًا من البيانات التي يمكن أن تمر للحصول على بيانات حقيقية.
أصبحت نماذج الانتشار أكثر شيوعًا لأنها توفر ثباتًا في التدريب ونتائج عالية لإنتاج الموسيقى والرسومات.
ستتناول هذه المقالة نموذج الانتشار وشبكات GAN بالتفصيل ، بالإضافة إلى كيفية اختلافها عن بعضها البعض وبعض الأشياء الأخرى.
إذن ، ما هي شبكات الخصومة التوليدية؟
من أجل إنشاء حالات جديدة ومصطنعة من البيانات التي قد يكون مخطئًا على أنها بيانات حقيقية ، تستخدم شبكات الخصومة التوليدية (GANs) شبكتين عصبيتين وتضعهما في مواجهة بعضهما البعض (وبالتالي "الخصومة" في الاسم).
يتم استخدامها على نطاق واسع لإنشاء الكلام والفيديو والصور.
هدف GAN هو إنشاء بيانات غير مكتشفة سابقًا من مجموعة بيانات محددة. في محاولة لاستنتاج نموذج لتوزيع البيانات الأساسية الفعلية غير المحددة من العينات ، يقوم بذلك.
بدلاً من ذلك ، تعتبر هذه الشبكات نماذج ضمنية تحاول تعلم توزيع إحصائي محدد.
كانت الطريقة التي استخدمتها GAN لاكتشاف كيفية تحقيق هذا الهدف جديدة. في الواقع ، هم ينتجون البيانات من خلال لعب لعبة ثنائية اللاعبين لتطوير نموذج ضمني.
فيما يلي وصف للبنية:
- التمييز الذي يكتسب القدرة على التمييز بين البيانات الحقيقية والمزيفة
- يمكن للمولد الذي يلتقط طرقًا جديدة لإنشاء البيانات أن يخدع أداة التمييز.
يمثل المُميِّز كشبكة عصبية. لذلك ، يحتاج المولد إلى إنشاء صورة بجودة عالية لخداعها.
حقيقة أن هذه المولدات لم يتم تدريبها باستخدام أي توزيع إخراج هو تمييز كبير بين نماذج التشفير التلقائي والنماذج الأخرى.
هناك طريقتان لتحليل دالة الخسارة للنموذج:
- القدرة على تحديد ما إذا كان المُميِّز يتوقع بدقة بيانات حقيقية
- يتم توقع البيانات التي تم إنشاؤها بدقة من خلال جزء.
على أفضل مميّز ممكن ، يتم بعد ذلك تصغير دالة الخسارة هذه:
لذلك يمكن اعتبار النماذج العامة كنماذج لتقليل المسافة ، وإذا كان المميز مثاليًا ، فيمكن اعتبارها بمثابة تقليل الاختلاف بين التوزيع الحقيقي والتوزيع المنتج.
في الواقع ، يمكن استخدام اختلافات مختلفة وتؤدي إلى طرق تدريب مختلفة لـ GAN.
من الصعب اتباع ديناميكيات التعلم ، التي تتضمن مقايضة بين المولد والمميز ، على الرغم من سهولة ضبط وظيفة الخسارة لشبكات GAN.
كما لا توجد تأكيدات على أن التعلم سوف يتقارب. نتيجة لذلك ، يعد تدريب نموذج GAN أمرًا صعبًا ، نظرًا لأنه من المعتاد أن تمر عبر مشاكل مثل اختفاء التدرجات وانهيار الوضع (عندما لا يكون هناك تنوع في العينات التي تم إنشاؤها).
الآن ، حان الوقت لنماذج الانتشار
تمت معالجة مشكلة تقارب تدريب شبكات GAN من خلال تطوير نماذج الانتشار.
تفترض هذه النماذج أن عملية الانتشار تعادل فقدان المعلومات الناتج عن التداخل التدريجي للضوضاء (تتم إضافة ضوضاء غاوسية في كل خطوة من عملية الانتشار).
الغرض من هذا النموذج هو تحديد كيفية تأثير الضوضاء على المعلومات الموجودة في العينة ، أو بعبارة أخرى ، مقدار المعلومات المفقودة بسبب الانتشار.
إذا تمكن النموذج من اكتشاف ذلك ، فيجب أن يكون قادرًا على استرداد العينة الأصلية والتراجع عن فقدان المعلومات الذي حدث.
يتم تحقيق ذلك من خلال نموذج انتشار تقليل الضوضاء. تشكل عملية الانتشار إلى الأمام وعملية الانتشار العكسي الخطوتين.
تتضمن عملية الانتشار الأمامي إضافة تدريجي للضوضاء الغاوسية (أي ، عملية الانتشار) حتى تتلوث البيانات تمامًا بالضوضاء.
يتم تدريب الشبكة العصبية لاحقًا باستخدام طريقة الانتشار العكسي لمعرفة احتمالات التوزيع الشرطي لعكس الضوضاء.
هنا يمكنك فهم المزيد عن نموذج الانتشار.
نموذج الانتشار مقابل شبكات GAN
مثل نموذج الانتشار ، تنتج شبكات GAN صورًا من الضوضاء.
يتكون النموذج من شبكة عصبية للمولد ، والتي تبدأ بضوضاء بعض متغيرات التكييف الإعلامي ، مثل تسمية الفئة أو ترميز النص.
يجب أن تكون النتيجة بعد ذلك شيئًا يشبه الصورة الواقعية.
لإنشاء أجيال صور واقعية وعالية الدقة ، نستخدم شبكات GAN. يتم إنتاج صور أكثر واقعية من شبكات GAN باستخدام نماذج الانتشار.
بطريقة ما ، تكون نماذج الانتشار أكثر دقة في وصف الحقائق.
بينما تأخذ GAN كمدخل ضوضاء عشوائية أو متغير تكييف فئة وتخرج عينة واقعية ، غالبًا ما تكون نماذج الانتشار أبطأ وتكرارية وتحتاج إلى مزيد من التوجيه.
لا يوجد مجال كبير للخطأ عند تطبيق تقليل التشويش بشكل متكرر بهدف العودة إلى الصورة الأصلية من الضوضاء.
يتم تمرير كل نقطة فحص خلال مرحلة الإنشاء ، ومع كل خطوة ، قد تكتسب الصورة المزيد والمزيد من المعلومات.
وفي الختام
في الختام ، نظرًا لقلة الأبحاث المهمة التي تم نشرها فقط في 2020 و 2021 ، يمكن لنماذج الانتشار الآن أن تتفوق على شبكات GAN من حيث تركيب الصورة.
هذا العام ، أطلقت OpenAI DALL-E2، وهو نموذج لإنتاج الصور يسمح للممارسين باستخدام نماذج الانتشار.
على الرغم من أن شبكات GAN متطورة ، إلا أن قيودها تجعل من الصعب توسيع نطاقها واستخدامها في سياقات جديدة.
من أجل تحقيق جودة عينة تشبه GAN باستخدام النماذج المستندة إلى الاحتمالية ، تم بذل الكثير من العمل فيها.
اترك تعليق