في السنوات الأخيرة ، أصبحت النماذج التوليدية المسماة "نماذج الانتشار" شائعة بشكل متزايد ولأسباب وجيهة.
لقد شهد العالم قدرة نماذج الانتشار ، مثل التفوق على شبكات GAN في تركيب الصورة ، وذلك بفضل عدد قليل من المنشورات البارزة التي تم نشرها فقط في عشرينيات و 2020.
رأى الممارسون مؤخرًا استخدام نماذج الانتشار في DALL-E2، نموذج إنشاء صور OpenAI الذي تم نشره الشهر الماضي.
لا شك أن العديد من ممارسي التعلم الآلي فضوليون بشأن الأعمال الداخلية لنماذج الانتشار نظرًا للطفرة الأخيرة في النجاح.
في هذا المنشور ، سنلقي نظرة على الأسس النظرية لنماذج الانتشار وتصميمها ومزاياها وغير ذلك الكثير. هيا بنا نذهب.
ما هو نموذج الانتشار؟
لنبدأ بمعرفة سبب الإشارة إلى هذا النموذج كنموذج انتشار.
تسمى الكلمة المتعلقة بالديناميكا الحرارية في فصول الفيزياء بالانتشار. لا يكون النظام في حالة توازن إذا كان هناك تركيز كبير لمادة ، مثل الرائحة ، في مكان واحد.
يجب أن يحدث الانتشار لكي يدخل النظام في حالة توازن. تنتشر جزيئات الرائحة في جميع أنحاء النظام من منطقة ذات تركيز أعلى ، مما يجعل النظام موحدًا طوال الوقت.
يصبح كل شيء في النهاية متجانسًا بسبب الانتشار.
يتم تحفيز نماذج الانتشار من خلال حالة عدم التوازن الديناميكي الحراري. تستخدم نماذج الانتشار سلسلة ماركوف ، وهي سلسلة من المتغيرات حيث تعتمد قيمة كل متغير على حالة الحدث السابق.
بالتقاط صورة ، نضيف على التوالي قدرًا معينًا من الضوضاء إليها طوال مرحلة الانتشار الأمامية.
بعد تخزين الصورة الأكثر تشويشًا ، ننتقل إلى إنشاء الصورة التالية في السلسلة عن طريق إدخال تشويش إضافي.
عدة مرات ، يتم تنفيذ هذا الإجراء. تنتج صورة ضوضاء نقية من تكرار هذه الطريقة عدة مرات.
فكيف يمكننا إذن إنشاء صورة من هذه الصورة المشوشة؟
يتم عكس عملية الانتشار باستخدام أ الشبكة العصبية. يتم استخدام نفس الشبكات ونفس الأوزان في عملية الانتشار العكسي لإنشاء الصورة من t إلى t-1.
بدلاً من السماح للشبكة بتوقع الصورة ، يمكن للمرء محاولة التنبؤ بالضوضاء في كل خطوة ، والتي يجب إزالتها من الصورة ، من أجل تبسيط المهمة بشكل أكبر.
في أي سيناريو ، فإن ملف تصميم الشبكة العصبية يجب اختياره بطريقة تحافظ على أبعاد البيانات.
الغوص العميق في نموذج الانتشار
مكونات نموذج الانتشار هي عملية أمامية (تُعرف أيضًا باسم عملية الانتشار) ، حيث يتم إصدار ضوضاء تدريجي للمسند (غالبًا صورة) ، وعملية عكسية (تُعرف أيضًا باسم عملية الانتشار العكسي) ، حيث تكون الضوضاء تحويلها مرة أخرى إلى عينة من التوزيع المستهدف.
عندما يكون مستوى الضوضاء منخفضًا بدرجة كافية ، يمكن استخدام Gaussians الشرطي لإنشاء انتقالات سلسلة أخذ العينات في العملية الأمامية. تنتج المعلمات السهلة للعملية المستقبلية من اقتران هذه المعرفة بافتراض ماركوف:
q (x1: T | x0): = YT t = 1 q (xt | xt − 1)، q (xt | xt − 1): = N (xt؛ p 1 - txt − 1، βtI)
هنا 1 ....T هو جدول تباين (سواء تم تعلمه أو ثابتًا) يضمن ، بالنسبة إلى T مرتفع بدرجة كافية ، أن xT هو فعليًا غاوسي متناحي الخواص.
العملية المعاكسة هي المكان الذي يحدث فيه سحر نموذج الانتشار. يتعلم النموذج عكس عملية الانتشار هذه أثناء التدريب لإنتاج بيانات جديدة. يتعلم النموذج التوزيع المشترك مثل (x0: T) نتيجة البدء بمعادلة الضوضاء الغوسية النقية
(xT):=N (xT، 0، I).
pθ (x0: T): = p (xT) YT t = 1 pθ (xt − 1 | xt)، pθ (xt − 1 | xt): = N (xt − 1؛ µθ (xt، t)، Σθ ( xt، t))
حيث يتم اكتشاف المعلمات المعتمدة على الوقت في انتقالات Gaussian. على وجه الخصوص ، لاحظ كيف تنص صيغة ماركوف على أن توزيع انتقال انتشار عكسي معين يعتمد حصريًا على الخطوة الزمنية السابقة (أو الخطوة الزمنية اللاحقة ، اعتمادًا على كيفية النظر إليها):
pθ (xt − 1 | xt): = N (xt − 1 ؛ µθ (xt ، t) ، Σθ (xt ، t))
تدريب نموذجي
يتم استخدام نموذج ماركوف العكسي الذي يزيد من احتمالية بيانات التدريب لتدريب نموذج الانتشار. من الناحية العملية ، يعد التدريب مشابهًا لتقليل الحد الأعلى للتغير على احتمال السجل السلبي.
E [- log pθ (x0)] Eq - log pθ (x0: T) q (x1: T | x0) = Eq - log p (xT) - X t≥1 log pθ (xt − 1 | xt) q (xt | xt − 1) =: L.
الموديلات
نحتاج الآن إلى تحديد كيفية تنفيذ نموذج الانتشار الخاص بنا بعد إنشاء الأسس الرياضية لوظيفة الهدف. القرار الوحيد المطلوب للعملية المستقبلية هو تحديد جدول التباين ، الذي ترتفع قيمه عادةً أثناء الإجراء.
نحن نعتبر بشدة استخدام معلمات التوزيع الغوسي وبنية النموذج للإجراء العكسي.
الشرط الوحيد لتصميمنا هو أن يكون لكل من المدخلات والمخرجات نفس الأبعاد. وهذا يؤكد الدرجة الهائلة من الحرية التي توفرها نماذج الانتشار.
أدناه ، سنتعمق أكثر حول هذه الخيارات.
عملية إلى الأمام
يجب أن نقدم جدول التباين فيما يتعلق بالعملية المستقبلية. لقد حددناها على وجه التحديد لتكون ثوابت تعتمد على الوقت وتجاهلنا إمكانية تعلمها. جدول زمني من
β1 = 10−4 إلى βT = 0.02.
Lt يصبح ثابتًا فيما يتعلق بمجموعتنا من المعلمات القابلة للتعلم بسبب جدول التباين الثابت ، مما يسمح لنا بتجاهلها أثناء التدريب بغض النظر عن القيم المحددة المحددة.
عملية عكسية
ننتقل الآن إلى القرارات اللازمة لتحديد العملية العكسية. تذكر كيف وصفنا انتقالات ماركوف العكسية بأنها غاوسية:
pθ (xt − 1 | xt): = N (xt − 1 ؛ µθ (xt ، t) ، Σθ (xt ، t))
الآن وقد حددنا الأنواع الوظيفية. على الرغم من حقيقة أن هناك تقنيات أكثر تعقيدًا لتحديد المعلمات ، فقد حددناها للتو
Σθ (xt، t) = σ 2 t أنا
σ 2 ر = βt
بعبارة أخرى ، نعتبر أن غاوسي متعدد المتغيرات هو نتيجة لغوسيين منفصلين بنفس التباين ، وهي قيمة تباين يمكن أن تتقلب بمرور الوقت. تم تعيين هذه الانحرافات لتتناسب مع الجدول الزمني لانحرافات عملية إعادة التوجيه.
نتيجة لهذه الصيغة الجديدة، نحن لدينا:
pθ (xt − 1 | xt): = N (xt − 1؛ µθ (xt، t)، Σθ (xt، t)): = N (xt − 1؛ µθ (xt، t)، σ2 t I)
ينتج عن هذا دالة الخسارة البديلة الموضحة أدناه ، والتي وجد المؤلفون أنها تنتج تدريبًا أكثر اتساقًا ونتائج متفوقة:
Lsimple (θ): = Et، x0، h - θ (√ α¯tx0 + √ 1 - α¯t، t) 2
يرسم المؤلفون أيضًا روابط بين هذه الصيغة لنماذج الانتشار والنماذج التوليدية المطابقة للنتائج المستندة إلى Langevin. كما هو الحال مع التطوير المستقل والمتوازي لفيزياء الكم القائمة على الموجة وميكانيكا الكم القائمة على المصفوفة ، والتي كشفت عن صيغتين متشابهتين لنفس الظواهر ، يبدو أن نماذج الانتشار والنماذج القائمة على النقاط يمكن أن تكون وجهين لعملة واحدة.
هندسة الشبكات
على الرغم من حقيقة أن دالة الخسارة المكثفة لدينا تهدف إلى تدريب نموذج Σθ، ما زلنا لم نتخذ قرارًا بشأن بنية هذا النموذج. ضع في اعتبارك أن النموذج يجب أن يكون له نفس أبعاد المدخلات والمخرجات.
بالنظر إلى هذا القيد ، ربما ليس من غير المتوقع أن يتم استخدام معماريات تشبه U-Net بشكل متكرر لإنشاء نماذج لنشر الصور.
يتم إجراء العديد من التغييرات على طول مسار العملية العكسية أثناء استخدام توزيعات جاوس الشرطية المستمرة. تذكر أن الهدف من الإجراء العكسي هو إنشاء صورة مكونة من قيم بكسل صحيحة. لذلك من الضروري تحديد الاحتمالات (السجل) المنفصلة لكل قيمة بكسل محتملة على جميع وحدات البكسل.
يتم تحقيق ذلك عن طريق تعيين وحدة فك ترميز منفصلة إلى الانتقال الأخير لسلسلة الانتشار العكسي. تقدير فرصة صورة معينة x0 معطى X1.
pθ (x0 | x1) = YD i = 1 Z δ + (xi 0) δ− (xi 0) N (x؛ µ i θ (x1، 1)، σ2 1) dx
δ + (x) = ∞ إذا كانت x = 1 x + 1 255 إذا كانت x <1 δ− (x) = −∞ إذا كانت x = −1 x - 1 255 إذا كانت x> 1
حيث يشير الرمز المرتفع I إلى استخراج إحداثي واحد ويشير D إلى عدد الأبعاد في البيانات.
الهدف في هذه المرحلة هو تحديد احتمالية كل قيمة عدد صحيح لبكسل معين بالنظر إلى توزيع القيم المحتملة لذلك البكسل في الوقت المتغير ر = 1.
الهدف النهائي
جاءت أعظم النتائج ، وفقًا للعلماء ، من التنبؤ بمكون الضوضاء في صورة ما في وقت معين. في النهاية ، يوظفون الهدف التالي:
Lsimple (θ): = Et، x0، h - θ (√ α¯tx0 + √ 1 - α¯t، t) 2
في الصورة التالية ، يتم وصف إجراءات التدريب وأخذ العينات لنموذج الانتشار الخاص بنا بإيجاز:
فوائد نموذج الانتشار
كما تمت الإشارة إليه بالفعل ، تضاعف حجم الأبحاث حول نماذج الانتشار مؤخرًا. تقدم نماذج الانتشار الآن جودة صورة حديثة ومستوحاة من الديناميكا الحرارية غير المتوازنة.
توفر نماذج الانتشار مجموعة متنوعة من المزايا الأخرى بالإضافة إلى جودة الصورة المتطورة ، مثل عدم الحاجة إلى تدريب على الخصومة.
إن عيوب التدريب على الخصومة معروفة على نطاق واسع ، ومن ثم يُفضل غالبًا اختيار بدائل غير معادية ذات أداء وفعالية تدريب مكافئة.
توفر نماذج الانتشار أيضًا مزايا قابلية التوسع والتوازي من حيث فعالية التدريب.
على الرغم من أن نماذج الانتشار تبدو وكأنها تولد نتائج على ما يبدو من فراغ ، إلا أن أساس هذه النتائج تم وضعه من خلال عدد من القرارات والتفاصيل الرياضية المدروسة والمثيرة للاهتمام ، ولا تزال أفضل الممارسات الصناعية قيد التطوير.
وفي الختام
في الختام ، أظهر الباحثون نتائج عالية الجودة لتركيب الصور باستخدام نماذج احتمالية للنشر ، وهي فئة من النماذج المتغيرة الكامنة التي تحركها أفكار من الديناميكا الحرارية غير المتوازنة.
لقد حققوا أشياء هائلة بفضل نتائجهم الحديثة وتدريبهم غير العدائي ، وبالنظر إلى طفولتهم ، يمكن توقع المزيد من التقدم في السنوات القادمة.
على وجه الخصوص ، تم اكتشاف أن نماذج الانتشار ضرورية لوظائف النماذج المتقدمة مثل DALL-E 2.
هنا يمكنك الوصول إلى البحث الكامل.
اترك تعليق