جدول المحتويات[يخفي][يعرض]
حققت نماذج تحويل النص إلى صورة كبيرة تقدمًا كبيرًا في تطوير الذكاء الاصطناعي من خلال إنتاج توليفة صور عالية الجودة ومتنوعة من موجه نص معين.
هذه النماذج غير قادرة على تجميع تمثيلات فريدة للموضوعات في إعدادات مختلفة أو تكرار مظهر الموضوعات في مجموعة مرجعية معينة.
التقنيات التي تم إصدارها حديثًا مثل OpenAI's DALL.E2 أو StabilityAI's انتشار مستقر و Midjourney أخذوا الإنترنت بالفعل عن طريق العاصفة. حان الوقت الآن لتخصيص النتائج. لكن كيف؟
لقد وصل Google DreamBooth AI.
DreamBooth لديه القدرة على التعرف على موضوع الصورة ، وتفكيكها من سياقها الأصلي ، ثم تجميعها بدقة في سياق جديد مرغوب فيه. بالإضافة إلى ذلك ، يمكن استخدامه مع مولدات صور AI الحالية.
في هذه المقالة ، سنلقي نظرة عميقة على DreamBooth ، واستخدامه ، والبرنامج التعليمي ، والقيود الخاصة به ، وغير ذلك الكثير.
ما هو Dreambooth؟
دريم بوث، وهو نموذج جديد لنشر النص إلى صورة ، تم تقديمه بواسطة Google. يمكن استخدام موجه مكتوب كدليل بواسطة Google DreamBooth AI لإنشاء مجموعة واسعة من الصور للموضوع المحدد للمستخدم في إعدادات مختلفة.
قامت مجموعة بحثية من جامعة بوسطن وجوجل بتطوير DreamBooth ، وهي تقنية متطورة لتغيير نماذج تحويل النص إلى صورة والتي خضعت لتدريب مسبق مكثف.
المفهوم العام واضح إلى حد ما: إنهم يريدون زيادة قاموس رؤية اللغة بحيث ترتبط معرفات الرموز غير الشائعة بالموضوعات المخصصة التي يمكن للمستخدمين تحديدها.
الهدف الرئيسي للنموذج هو توصيل المستخدمين بـ نموذج نشر النص إلى الصورة من خلال منحهم الموارد التي يحتاجون إليها لإنتاج تمثيلات واقعية لحالات موضوعهم المختار.
نتيجة لذلك ، يبدو أن هذه التقنية تعمل بشكل جيد لتلخيص التحديات في مجموعة من المواقف.
يختلف DreamBooth من Google عن أدوات تحويل النص إلى الصورة السابقة ، مثل DALL-E2, انتشار مستقرو ميدجورني، من حيث أنه يمنح المستخدمين مزيدًا من التحكم في صورة الموضوع قبل السماح لهم بمعالجة نموذج الانتشار باستخدام المدخلات المستندة إلى النص.
المميزات
- قد يقوم DreamBooth AI بتحسين نموذج تحويل النص إلى صورة باستخدام 3-5 صور.
- يمكن إنشاء الصور الواقعية الأصلية باستخدام DreamBooth AI.
- بالإضافة إلى ذلك ، يمكن لـ DreamBooth AI إنشاء صور لموضوع من زوايا متعددة.
تطبيق
فن التسليم
تختلف هذه المهمة تحديدًا عن نقل النمط ، والذي يحافظ على دلالات المشهد المصدر مع دمج نمط صورة أخرى في المشهد الأصلي.
استنادًا إلى النهج الإبداعي ، يمكن للذكاء الاصطناعي إجراء تعديلات مهمة على المشهد مع الحفاظ على تفاصيل الهوية والموضوع.
تعديل الخاصية
يمكن تعديل خصائص مثيل الموضوع بواسطة DreamBooth AI.
أكسسوارات
إن التركيب القوي قبل نموذج التوليد هو ما يجعل قدرة DreamBooth AI على تزيين الأشياء مثيرة للاهتمام للغاية.
إعادة السياق
يمكن أن ينتج DreamBooth AI صورًا مميزة لمثيل موضوع معين من خلال إعطاء نموذج مدرب جملة تتضمن المعرف الفريد واسم الفئة.
يمكن أن يولد الموضوع في مواقف فريدة لم يسمع بها من قبل ، ومفاصل ، وبنية مشهد بدلاً من تغيير البيئة المحيطة. انعكاسات وظلال واقعية ، وكذلك التفاعلات بين الموضوع والأشياء المحيطة.
برنامج Dreambooth التعليمي
في هذا البرنامج التعليمي ، سوف نتبع دفتر Google Collab، وسأطلعك عليها ، مما سيجعلك تفهمها وتستخدمها بنفسك.
إعداد وحدة معالجة الرسومات وتثبيت المكتبات
الخطوة الأولى هي معرفة أنواع GPU و VRAM المتوفرة. من الضروري أيضًا تثبيت بعض المتطلبات والتبعيات. ما عليك سوى الضغط على زر التشغيل ، ثم الانتظار حتى ينتهي.
قم بإنشاء حساب على Huggingface وقم بإنشاء رمز مميز
الخطوة التالية هي التسجيل للحصول على حساب Huggingface. عند الانتهاء ، انقر فوق الإعدادات في الزاوية اليمنى العليا. سوف تصل في الصفحة التالية.
قم بإنشاء الرمز المميز والاسم كما هو مطلوب من هنا. يجب نسخ الرمز المميز ولصقه في تعاون Google في الخلية أدناه.
قم بتثبيت xformers
في هذه المرحلة ، يمكنك ببساطة الضغط على زر التشغيل لتثبيت xformers بالنقر فوق وقت التشغيل.
اتصل بمحرك الأقراص
الآن ، عليك فقط تشغيل هذه الخلية للاتصال بـ google drive.
أدخل الموجه
في الخلية التالية ، عليك فقط إدخال الموجه.
تحميل الصور
في هذه الخطوة ، عليك فقط تحميل الصور التي تريد تدريبها.
تدريب نموذج الذكاء الاصطناعي
هذه هي المرحلة الأكثر أهمية ، حيث ستستخدم DreamBooth لتدريب نموذج ذكاء اصطناعي جديد بناءً على جميع الصور المرجعية التي قدمتها. يجب أن يقتصر انتباهك على حقلي إدخال. "موجه الحالة" هو المعلمة الأولى. يجب عليك تقديم اسم مميز للغاية هنا.
وسيطة "قائمة المفاهيم" هي حقل الإدخال الحرج الثاني. يجب إعادة تسميته لمطابقة الاسم المستخدم في قسم "تغيير الموجه".
توليد صور AI
سيتم إنشاء صور AI في هذه المرحلة ، حيث يمكنك إدخال التعليمات النصية.
حدود Dreambooth
- يصبح موجه الأوامر عائقًا أمام إجراء التكرارات في الموضوع بدرجة عالية من التفاصيل. يمكن لبرنامج DreamBooth تغيير سياق الموضوع ، ولكن إذا كان النموذج يرغب في تغيير الموضوع نفسه ، فهناك مشاكل في الإطار.
- هناك مشكلة أخرى وهي احتواء الصورة الناتجة على صورة الإدخال. إذا لم يتم توفير صور كافية ، فقد لا يتم النظر في الموضوع أو قد يتم مزجه مع سياق الصور المقدمة. عندما يُسأل سياق لجيل غريب ، يحدث نفس الشيء.
وفي الختام
لإنتاج مخرجات من إدخال نص واحد ، يتطلب الجزء الأكبر من نماذج تحويل النص إلى صورة الملايين من المعلمات والمكتبات.
يبسط DreamBooth اكتساب المحتوى واستخدامه للمستهلكين من خلال طلب إدخال ثلاث إلى خمس صور فوتوغرافية للموضوع مع خلفية نصية.
اترك تعليق