MultiModal-GPT: حدود جديدة في تكامل اللغة والرؤية

هل تمنيت يومًا أن تتحدث باستخدام ذكاء اصطناعي يفهم البيانات المنطوقة والمرئية؟ يجمع نموذج MultiModal-GPT بين معالجة اللغة والفهم البصري.

يوفر إمكانية التفاعل الدقيق والمتنوع بين الإنسان والحاسوب. متعدد الوسائط-GPT يمكن أن توفر تسميات توضيحية وصفية ، وعد العناصر الفردية ، والرد على أسئلة المستخدم العامة.

لكن كيف تفعل ذلك؟ وماذا يمكنك أن تفعل مع MultiModal-GPT؟

لنأخذ القصة إلى البداية ونفهم الاحتمالات التي تنتظرنا.

مع ظهور نماذج اللغة مثل GPT-4 ، تشهد تقنيات معالجة اللغة الطبيعية ثورة. لقد تم بالفعل دمج ابتكارات مثل ChatGPT في حياتنا.

ويبدو أنهم يواصلون القدوم!

GPT-4 وقيوده

أظهر GPT-4 كفاءة مذهلة في المحادثات متعددة الوسائط مع الناس. بذلت الدراسات جهدًا لتكرار هذا الأداء ، ولكن نظرًا للعدد الكبير المحتمل من الرموز المميزة للصور ، بما في ذلك النماذج ذات المعلومات المرئية الدقيقة ، يمكن أن تكون مكلفة من الناحية الحسابية.

لا تتضمن النماذج الحالية أيضًا ضبطًا لتعليمات اللغة في دراستهم ، مما يحد من قدرتها على المشاركة في محادثات نصية صورية متعددة الأدوار.

بناء على إطار فلامنغو

تم تطوير نموذج جديد يسمى MultiModal-GPT لتمكين التواصل مع الأشخاص باستخدام الإشارات اللغوية والبصرية.

استخدم المطورون برنامجًا يسمى إطار فلامنغو التي تم تدريبها مسبقًا على فهم كل من النص والمرئيات ، لجعل ذلك ممكنًا.

إطار فلامنغو

احتاج Flamingo إلى بعض التغييرات ، على الرغم من أنه لم يكن قادرًا على توسيع الحوارات التي تضمنت نصًا ومرئيات.

يمكن لنموذج MultiModal-GPT المحدث جمع البيانات من الصور ومزجها مع اللغة لفهم وتنفيذ الأوامر البشرية.

متعدد الوسائط-GPT

MultiModal-GPT هو نوع من نماذج الذكاء الاصطناعي يمكنه متابعة الاستفسارات البشرية المختلفة مثل وصف المرئيات وعد العناصر والإجابة على الأسئلة. يفهم الأوامر ويتبعها باستخدام مزيج من البيانات المرئية واللفظية.

قام الباحثون بتدريب النموذج باستخدام البيانات المرئية واللغة فقط لزيادة قدرة MultiModal-GPT على التحدث مع الناس. بالإضافة إلى ذلك ، فقد أدى إلى تحسن ملحوظ في طريقة أداء الخطاب. كما أدى إلى تحسن ملحوظ في أداء المحادثة.

اكتشفوا أن وجود بيانات تدريب عالية الجودة أمر بالغ الأهمية لأداء محادثة جيد ، لأن مجموعة بيانات صغيرة ذات استجابات قصيرة قد تمكن النموذج من إنشاء استجابات أقصر لأي أمر.

ماذا يمكنك أن تفعل مع MultiModal-GPT؟

الانخراط في المحادثات

مثل نماذج اللغة التي جاءت من قبل ، تتمثل إحدى الخصائص الأساسية لـ MultiModal-GPT في قدرتها على المشاركة في مناقشات اللغة الطبيعية. هذا يعني أن المستهلكين قد يتعاملون مع النموذج تمامًا كما يفعلون مع شخص حقيقي.

على سبيل المثال ، يمكن أن توفر MultiModal-GPT للعملاء وصفة مفصلة لصنع المعكرونة أو التوصية بمطاعم محتملة لتناول الطعام بالخارج. النموذج قادر أيضًا على الرد على الأسئلة العامة حول نوايا رحلات المستخدمين.

المعكرونة

التعرف على الأشياء

يمكن لـ MultiModal-GPT التعرف على الأشياء في الصور والرد على الاستفسارات المتعلقة بها. على سبيل المثال ، يمكن للنموذج التعرف على فريدي ميركوري في صورة والرد على الاستفسارات المتعلقة به.

يمكنه أيضًا حساب عدد الأفراد وشرح ما يفعلونه في الصورة. تحتوي سعة تعريف الكائن هذه على تطبيقات في مجموعة متنوعة من المجالات ، بما في ذلك التجارة الإلكترونية والرعاية الصحية والأمن.

مثال

يمكن أيضًا لـ MultiModal-GPT التعرف على النص داخل الصور الرقمية. هذا يعني أن النموذج يمكنه قراءة النص في الصور واستخراج البيانات المفيدة. قد يكتشف ، على سبيل المثال ، الشخصيات في صورة ما ويحدد مؤلف الكتاب.

إنها أداة مفيدة للغاية لـ إدارة الوثائقوإدخال البيانات وتحليل المحتوى.

عبدالله الكريدا

التفكير وتوليد المعرفة

يمكن لـ GPT متعدد الوسائط التفكير وإنتاج المعرفة حول العالم. هذا يعني أنه يمكنه تقديم تفسيرات كاملة للصور وحتى إخبارهم بالموسم الذي التقطت فيه الصورة.

هذه المهارة مفيدة في مجموعة متنوعة من التخصصات ، بما في ذلك المراقبة البيئية والزراعة والأرصاد الجوية. يمكن للنموذج أيضًا إنشاء أشياء إبداعية مثل الشعر والحكايات والأغاني ، مما يجعله أداة ممتازة للمهام الإبداعية.

الأعمال الداخلية لـ MultiModal-GPT

نموذج للتعليمات الموحدة

يقدم الفريق نموذجًا واحدًا لدمج البيانات اللغوية أحادية الوسائط وبيانات الرؤية واللغة متعددة الوسائط لتدريب نموذج GPT متعدد الوسائط بشكل صحيح بطريقة تآزرية.

تحاول هذه الإستراتيجية المدمجة تحسين أداء النموذج عبر مجموعة متنوعة من المهام من خلال استغلال القدرات التكميلية لكل من طرائق البيانات وتشجيع فهم أعمق للأفكار الأساسية.

يستخدم الفريق مجموعتي بيانات Dolly 15k و Alpaca GPT4 لقياس قدرات تتبع التعليمات اللغوية فقط. تعمل مجموعات البيانات هذه كنموذج سريع لهيكلة إدخال مجموعة البيانات لضمان تنسيق متسق لاتباع التعليمات.

نظرة عامة على مجموعة بيانات Dolly 15k

الصورة: نظرة عامة على مجموعة بيانات Doly 15k

كيف يعمل النموذج؟

ثلاثة مكونات رئيسية تشكل نموذج MultiModal-GPT: وحدة فك ترميز اللغة ، وجهاز إعادة أخذ العينات ، ومشفّر الرؤية. يتم التقاط الصورة بواسطة مشفر الرؤية ، والذي يولد بعد ذلك مجموعة من الخصائص التي تميزها.

تستخدم وحدة فك ترميز اللغة المعلومات من مشفر الرؤية لإنشاء نص يصف الصورة بمساعدة جهاز إعادة أخذ العينات المدرك.

مكون النموذج الذي يفهم اللغة وينتج النص هو وحدة فك ترميز اللغة. للتنبؤ بالكلمة التالية في عبارة ما ، يتم تدريب النموذج باستخدام بيانات تتبع تعليمات اللغة فقط واللغة المرئية بالإضافة إلى اللغة.

هذا يعلم النموذج كيفية الرد على أوامر من البشر ويوفر النص المقبول لوصف الصورة.

الموديل

خلف الفريق

تم إنشاء MultiModal-GPT بواسطة فريق من الباحثين والمهندسين في Microsoft Research Asia بقيادة Tao Gong و Chengqi Lyu و Shilong Zhang. ساهم كل من Yudong Wang و Miao Zheng و Qian Zhao و Kuikun Liu و Wenwei Zhang و Ping Luo و Kai Chen في دراسة النموذج وتطويره.

معالجة اللغة الطبيعية، رؤية الكمبيوتر، والتعلم الآلي كلها مجالات اختصاص الفريق. لديهم العديد من المقالات المنشورة في مؤتمرات ومنشورات رفيعة المستوى ، بالإضافة إلى العديد من الأوسمة والأوسمة لجهودهم العلمية.

يركز بحث الفريق على تطوير النماذج والأساليب المتطورة لتمكين المزيد من التفاعلات الطبيعية والذكية بين البشر والتكنولوجيا.

يعد تطوير GPT متعدد الوسائط إنجازًا جديرًا بالملاحظة في هذا المجال لأنه أحد النماذج الأولى التي تجمع بين الرؤية واللغة في إطار واحد للمناقشة متعددة الجولات.

يمكن أن يكون لمساهمات الفريق في البحث والتطوير لـ MultiModal-GPT تأثير كبير على مستقبل معالجة اللغة الطبيعية والتفاعلات بين الإنسان والآلة.

كيفية استخدام MultiModal-GPT

بالنسبة للمبتدئين ، يعد استخدام أداة MultiModal-GPT أمرًا بسيطًا. ببساطة اذهب إلى https://mmgpt.openmmlab.org.cn/ واضغط على زر "تحميل الصورة".

اختر ملف الصورة المراد تحميله ، ثم اكتب موجه النص في حقل النص. لإنشاء رد من النموذج ، انقر فوق الزر "إرسال" ، والذي سيظهر أسفل حقل النص.

يمكنك تجربة صور وإرشادات مختلفة لمعرفة المزيد عن قدرات النموذج.

واجهة 1

تثبيت

لتثبيت حزمة MultiModal-GPT ، استخدم الأمر الطرفي "git clone https://github.com/open-mmlab/Multimodal-GPT.git" لاستنساخ المستودع من GitHub. يمكنك ببساطة اتباع الخطوات التالية:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

بدلا من ذلك ، استخدم conda env create -f environment.yml لإنشاء بيئة كوندا جديدة. يمكنك تشغيل العرض التوضيحي محليًا بعد تثبيته عن طريق تنزيل الأوزان المدربة مسبقًا وتخزينها في مجلد نقاط التفتيش.

يمكن بعد ذلك تشغيل العرض التوضيحي لـ Gradio عن طريق تشغيل الأمر "python app.py".

العيوب المحتملة

لا يزال نموذج MultiModal-GPT به عيوب ومجال للتطوير على الرغم من أدائه الممتاز.

على سبيل المثال ، عند التعامل مع المدخلات المرئية المعقدة أو الغامضة ، قد لا يكون النموذج دائمًا قادرًا على التعرف على سياق الإدخال وفهمه. قد يؤدي هذا إلى تنبؤات أو ردود فعل غير دقيقة من النموذج.

بالإضافة إلى ذلك ، خاصةً عندما يكون الإدخال معقدًا أو مفتوح النهاية ، فقد لا ينتج النموذج دائمًا أفضل تفاعل أو نتيجة. قد تكون إجابة النموذج ، على سبيل المثال ، قد تأثرت بمدى تشابه أغلفة الكتابين في حالة التحديد غير الصحيح لغلاف الكتاب.

وفي الختام

بشكل عام ، يمثل نموذج MultiModal-GPT خطوة كبيرة إلى الأمام في معالجة اللغة الطبيعية وتعلم الآلة. ومن المثير جدًا استخدامه وتجربته. لذا ، يجب أن تجربها أيضًا!

ومع ذلك ، فإن لها حدودًا ، كما هو الحال مع جميع النماذج ، وتتطلب تحسينًا وتحسينًا إضافيًا للحصول على أقصى أداء في مجموعة متنوعة من التطبيقات والمجالات.