من المرجح أنك تدرك أن الكمبيوتر يمكنه وصف الصورة.
على سبيل المثال ، يمكن ترجمة صورة لكلب يلعب مع أطفالك على أنها "كلب وأطفال في الحديقة". لكن هل تعلم أن الاتجاه المعاكس ممكن الآن أيضًا؟ تكتب بعض الكلمات ، ويقوم الجهاز بإنشاء صورة جديدة.
على عكس بحث Google ، الذي يبحث في الصور الموجودة ، كل هذا جديد. في السنوات الأخيرة ، كانت OpenAI واحدة من المنظمات الرائدة ، حيث أبلغت عن نتائج مذهلة.
يقومون بتدريب الخوارزميات الخاصة بهم على قواعد بيانات ضخمة للنصوص والصور. قاموا بنشر ورقة بحثية عن نموذج صور GLIDE الخاص بهم ، والذي تم تدريبه على مئات الملايين من الصور. من حيث الصورة الواقعية ، فإنه يتفوق على نموذج "DALL-E" السابق.
في هذا المنشور ، سنلقي نظرة على OpenAI's GLIDE ، وهي واحدة من عدة مبادرات رائعة تهدف إلى إنتاج وتعديل الصور الواقعية باستخدام نماذج نشر موجهة بالنص. هيا نبدأ.
ما هي تفاصيل افتح AI Glide?
بينما يمكن وصف معظم الصور بالكلمات ، فإن إنشاء الصور من مدخلات النص يتطلب معرفة متخصصة وقدرًا كبيرًا من الوقت.
إن السماح لعامل الذكاء الاصطناعي بإنتاج صور واقعية من مطالبات اللغة الطبيعية لا يسمح فقط للأشخاص بإنشاء مواد مرئية غنية ومتنوعة بسهولة غير مسبوقة ، بل يسمح أيضًا بتحسين تكراري أبسط والتحكم الدقيق في الصور التي تم إنشاؤها.
يمكن استخدام GLIDE لتحرير الصور الموجودة من خلال استخدام مطالبات النص باللغة الطبيعية لإدراج كائنات جديدة وإنشاء الظلال والانعكاسات وتنفيذ الصورة في الرسم، وهلم جرا.
يمكنها أيضًا تحويل الرسومات الخطية الأساسية إلى صور فوتوغرافية واقعية ، ولديها إمكانات استثنائية للتصنيع والإصلاح بدون عينة للحالات المعقدة.
أظهرت الأبحاث الحديثة أن نماذج الانتشار المستندة إلى الاحتمالية يمكن أن تنتج أيضًا صورًا تركيبية عالية الجودة ، لا سيما عندما تقترن بنهج إرشادي يوازن بين التنوع والإخلاص.
نشرت OpenAI ملف نموذج الانتشار الموجه في مايو ، مما يسمح بأن تكون نماذج الانتشار مشروطة بتسميات المصنف. يعمل GLIDE على تحسين هذا النجاح من خلال توفير نشر موجه لمشكلة إنشاء صورة مشروطة بالنص.
بعد تدريب نموذج نشر GLIDE 3.5 مليار متغير باستخدام مشفر نص لشرط أوصاف اللغة الطبيعية ، اختبر الباحثون استراتيجيتين توجيهيتين بديلتين: إرشادات CLIP وإرشادات خالية من المصنف.
CLIP هي تقنية قابلة للتطوير لتعلم التمثيلات المشتركة للنصوص والصور التي تقدم درجة بناءً على مدى قرب الصورة من التسمية التوضيحية.
استخدم الفريق هذه الإستراتيجية في نماذج الانتشار الخاصة بهم عن طريق استبدال المصنف بنموذج CLIP الذي "يوجه" النماذج. وفي الوقت نفسه ، فإن التوجيه الخالي من المصنف هو استراتيجية لتوجيه نماذج الانتشار التي لا تتضمن تدريب مصنف منفصل.
الهندسة المعمارية GLIDE
تتكون بنية GLIDE من ثلاثة مكونات: نموذج الانتشار Ablated Diffusion Model (ADM) الذي تم تدريبه على إنشاء صورة 64 × 64 ، ونموذج نصي (محول) يؤثر على توليد الصور عبر موجه نصي ، ونموذج الاختزال الذي يحول 64 × 64 الصغير. الصور إلى 256 × 256 بكسل أكثر قابلية للتفسير.
يعمل المكونان الأولان معًا للتحكم في عملية إنشاء الصورة بحيث تعكس موجه النص بشكل مناسب ، في حين أن العنصر الأخير مطلوب لجعل الصور التي نقوم بإنشائها أسهل في الفهم. مشروع GLIDE مستوحى من a نشر التقرير في عام 2021 التي أظهرت أن تقنيات ADM تفوقت في الأداء على النماذج التوليدية الشائعة حاليًا من حيث جودة عينة الصورة.
بالنسبة لـ ADM ، استخدم مؤلفو GLIDE نفس نموذج ImageNet 64 x 64 مثل Dhariwal و Nichol ، ولكن مع 512 قناة بدلاً من 64. يحتوي نموذج ImageNet على ما يقرب من 2.3 مليار معلمة نتيجة لذلك.
أراد فريق GLIDE ، على عكس Dhariwal و Nichol ، أن يتمتعوا بتحكم مباشر أكبر في عملية توليد الصورة ، وبالتالي قاموا بدمج النموذج المرئي مع محول يدعم الانتباه. يمنحك GLIDE بعض التحكم في إخراج عملية توليد الصورة عن طريق معالجة مطالبات إدخال النص.
يتم تحقيق ذلك من خلال تدريب نموذج المحول على مجموعة بيانات كبيرة بشكل مناسب من الصور والتعليقات التوضيحية (على غرار تلك المستخدمة في مشروع DALL-E).
يتم ترميز النص في البداية في سلسلة من الرموز K من أجل تكييفه. بعد ذلك ، يتم تحميل الرموز المميزة في نموذج محول. يمكن بعد ذلك استخدام خرج المحول بطريقتين. بالنسبة لنموذج ADM ، يتم استخدام تضمين الرمز المميز النهائي بدلاً من تضمين الفئة.
ثانيًا ، يتم عرض الطبقة النهائية لتضمينات الرمز المميز - سلسلة من متجهات الميزات - بشكل مستقل لأبعاد كل طبقة انتباه في نموذج ADM ويتم ربطها بكل سياق اهتمام.
في الواقع ، يمكّن هذا نموذج ADM من إنتاج صورة من مجموعات جديدة من الرموز النصية المتشابهة بطريقة فريدة وواقعية ، بناءً على الفهم المكتسب لمدخلات الكلمات والصور ذات الصلة. يحتوي محول ترميز النص هذا على 1.2 مليار معلمة ويستخدم 24 كتلة متبقية بعرض 2048.
أخيرًا ، يشتمل نموذج الانتشار المضاعف على حوالي 1.5 مليار معلمة ويختلف عن النموذج الأساسي من حيث أن مشفر النص الخاص به أصغر ، بعرض 1024 و 384 قناة أساسية ، مقارنة بالنموذج الأساسي. يساعد هذا النموذج ، كما يشير الاسم ، في ترقية العينة من أجل تحسين إمكانية التفسير لكل من الآلات والبشر.
نموذج الانتشار
ينشئ GLIDE الصور باستخدام نسخته الخاصة من ADM (ADM-G لـ "الموجهة"). نموذج ADM-G هو تعديل لنموذج الانتشار U-net. يختلف نموذج U-net للنشر بشكل كبير عن تقنيات تركيب الصور الأكثر شيوعًا مثل VAE و GAN والمحولات.
يقومون ببناء سلسلة ماركوف من خطوات الانتشار لحقن ضوضاء عشوائية تدريجيًا في البيانات ، ثم يتعلمون عكس عملية الانتشار وإعادة بناء عينات البيانات المطلوبة من الضوضاء وحدها. تعمل على مرحلتين: انتشار أمامي وعكسي.
تضيف طريقة الانتشار الأمامي ، بالنظر إلى نقطة بيانات من التوزيع الحقيقي للعينة ، قدرًا ضئيلًا من الضوضاء إلى العينة عبر سلسلة من الخطوات المحددة مسبقًا. مع زيادة الخطوات في الحجم والاقتراب من اللانهاية ، تفقد العينة جميع الخصائص التي يمكن التعرف عليها ويبدأ التسلسل في تشبه منحنى غاوسي الخواص.
أثناء الانتشار العكسي المرحلة ، نموذج الانتشار يتعلم عكس تأثير الضوضاء المضافة على الصور ويعيد الصورة المنتجة إلى شكلها الأصلي بمحاولة تشابه توزيع عينة الإدخال الأصلي.
يمكن للنموذج المكتمل القيام بذلك باستخدام إدخال ضوضاء جاوس حقيقي وموجه. تختلف طريقة ADM-G عن الطريقة السابقة في أن النموذج ، سواء كان CLIP أو محولًا مخصصًا ، يؤثر على مرحلة الانتشار العكسي من خلال استخدام رموز موجه النص التي تم إدخالها.
قدرات الانزلاق
1. توليد الصورة
من المحتمل أن يكون تركيب الصور هو الاستخدام الأكثر شيوعًا والأكثر استخدامًا لـ GLIDE. على الرغم من أن الصور متواضعة وأن GLIDE يواجه صعوبة في التعامل مع الأشكال الحيوانية / البشرية ، إلا أن إمكانية إنتاج الصور ذات اللقطة الواحدة تكاد لا تنتهي.
يمكنه إنشاء صور للحيوانات والمشاهير والمناظر الطبيعية والمباني وغير ذلك الكثير ، ويمكنه القيام بذلك في مجموعة متنوعة من الأساليب الفنية بالإضافة إلى الصور الواقعية. يؤكد مؤلفو الباحثين أن GLIDE قادر على تفسير وتكييف مجموعة واسعة من المدخلات النصية في تنسيق مرئي ، كما هو موضح في العينات أدناه.
2. انزلاق inpainting
يمكن القول إن الطلاء التلقائي للصور في GLIDE هو الاستخدام الأكثر روعة. يمكن لـ GLIDE التقاط صورة موجودة كمدخلات ، ومعالجتها مع وضع موجه النص في الاعتبار للمواقع التي يجب تغييرها ، ثم إجراء تعديلات نشطة على تلك الأجزاء بسهولة.
يجب استخدامه جنبًا إلى جنب مع نموذج التحرير ، مثل SDEdit ، للحصول على نتائج أفضل. في المستقبل ، قد تكون التطبيقات التي تستفيد من مثل هذه القدرات حاسمة في تطوير مناهج تعديل الصور الخالية من الأكواد.
وفي الختام
الآن بعد أن مررنا بهذه العملية ، يجب أن تفهم أساسيات كيفية عمل GLIDE ، بالإضافة إلى اتساع إمكانياته في إنشاء الصورة وتعديلها داخل الصورة.
اترك تعليق