MultiModal-GPT: مرزی جدید در ادغام زبان و چشم انداز

آیا تا به حال آرزو کرده اید که ای کاش می توانستید با هوش مصنوعی که داده های گفتاری و دیداری را درک می کند صحبت کنید؟ پارادایم MultiModal-GPT پردازش زبان را با درک بصری ترکیب می کند.

امکان تعامل دقیق و متنوع انسان و رایانه را ارائه می دهد. MultiModal-GPT می‌تواند شرح‌های توصیفی ارائه دهد، آیتم‌های فردی را شمارش کند و به سؤالات عمومی کاربر پاسخ دهد.

اما، چگونه این کار را انجام می دهد؟ و با MultiModal-GPT چه کاری می توانید انجام دهید؟

بیایید داستان را به ابتدا ببریم و احتمالات پیش روی خود را درک کنیم.

با ظهور مدل‌های زبانی مانند GPT-4، فناوری‌های پردازش زبان طبیعی شاهد انقلاب هستند. نوآوری هایی مانند ChatGPT قبلاً در زندگی ما گنجانده شده است.

و به نظر می رسد که به آمدن ادامه می دهند!

GPT-4 و محدودیت های آن

GPT-4 مهارت شگفت انگیزی در مکالمات چندوجهی با مردم نشان داده است. مطالعات تلاش کرده اند تا این عملکرد را تکرار کنند، اما به دلیل تعداد بالقوه بالای نشانه های تصویر، از جمله مدل هایی با اطلاعات بصری دقیق می توانند از نظر محاسباتی گران باشند.

مدل‌های موجود همچنین تنظیم آموزش زبان را در مطالعه خود لحاظ نمی‌کنند، که توانایی آن‌ها را برای شرکت در مکالمات تصویر-متن چند چرخشی صفر شات محدود می‌کند.

ساخت بر چارچوب فلامینگو

مدل جدیدی به نام MultiModal-GPT ایجاد شد تا ارتباط با مردم را با استفاده از نشانه های زبانی و بصری امکان پذیر کند.

توسعه دهندگان از برنامه ای به نام the استفاده کردند چارچوب فلامینگو، که قبلاً برای درک متن و تصاویر بصری آموزش داده شده بود تا این امر امکان پذیر شود.

چارچوب فلامینگو

فلامینگو به تغییراتی نیاز داشت، اگرچه نمی‌توانست دیالوگ‌های گسترده‌ای شامل متن و تصاویر بصری داشته باشد.

مدل MultiModal-GPT به روز شده می‌تواند داده‌ها را از تصاویر جمع‌آوری کرده و آن‌ها را با زبان ترکیب کند تا دستورات انسانی را درک کرده و اجرا کند.

MultiModal-GPT

MultiModal-GPT نوعی از مدل هوش مصنوعی است که می تواند پرس و جوهای مختلف انسانی مانند توصیف تصاویر، شمارش موارد و پاسخ به سؤالات را دنبال کند. با استفاده از ترکیبی از داده های بصری و کلامی، دستورات را می فهمد و دنبال می کند.

محققان این مدل را با استفاده از داده‌های بصری و فقط زبانی آموزش دادند تا ظرفیت MultiModal-GPT برای مکالمه با مردم را افزایش دهند. علاوه بر این، باعث بهبود قابل توجهی در نحوه اجرای گفتمان آن شد. همچنین منجر به بهبود قابل توجهی در عملکرد مکالمه آن شد.

آنها دریافتند که داشتن داده های آموزشی با کیفیت بالا برای عملکرد خوب مکالمه بسیار مهم است، زیرا یک مجموعه داده کوچک با پاسخ های کوتاه ممکن است مدل را قادر سازد تا پاسخ های کوتاه تری به هر دستوری ایجاد کند.

با MultiModal-GPT چه کاری می توانید انجام دهید؟

درگیر شدن در مکالمات

مانند مدل‌های زبانی که قبلاً ارائه شد، یکی از ویژگی‌های اصلی MultiModal-GPT ظرفیت آن برای مشارکت در بحث‌های زبان طبیعی است. این نشان می‌دهد که مصرف‌کنندگان ممکن است مانند یک شخص واقعی با مدل درگیر شوند.

به عنوان مثال، MultiModal-GPT می‌تواند دستور پخت دقیقی برای تهیه نودل به مشتریان بدهد یا رستوران‌های احتمالی را برای صرف غذا توصیه کند. این مدل همچنین قادر است به سؤالات عمومی در مورد اهداف سفر کاربران پاسخ دهد.

رشته فرنگی

شناخت اشیاء

MultiModal-GPT می‌تواند چیزهای موجود در عکس‌ها را تشخیص دهد و به سؤالات مربوط به آنها پاسخ دهد. به عنوان مثال، مدل می تواند فردی مرکوری را در یک تصویر بشناسد و به سوالات مربوط به او پاسخ دهد.

همچنین می‌تواند تعداد افراد را بشمارد و توضیح دهد که در یک تصویر چه می‌کنند. این ظرفیت شناسایی شی در زمینه های مختلفی از جمله تجارت الکترونیک، مراقبت های بهداشتی و امنیت کاربرد دارد.

مثال

MultiModal-GPT همچنین می تواند متن داخل تصاویر دیجیتال را تشخیص دهد. این بدان معناست که مدل می‌تواند متن عکس‌ها را بخواند و داده‌های مفید را استخراج کند. برای مثال ممکن است شخصیت های یک تصویر را شناسایی کند و نویسنده کتاب را شناسایی کند.

این یک ابزار بسیار مفید برای مدیریت اسناد، ورودی داده ها و تحلیل محتوا.

گندالف

استدلال و تولید دانش

Multi-modal-GPT می تواند استدلال کند و دانشی در مورد جهان تولید کند. این بدان معنی است که می تواند توضیحات کاملی از عکس ها ارائه دهد و حتی به آنها بگوید که عکس در چه فصلی گرفته شده است.

این مهارت در رشته های مختلف از جمله نظارت بر محیط زیست، کشاورزی و هواشناسی مفید است. این مدل علاوه بر این می‌تواند چیزهای خلاقانه‌ای مانند شعر، داستان و آهنگ تولید کند و آن را به ابزاری عالی برای کارهای خلاقانه تبدیل کند.

کارهای داخلی MultiModal-GPT

الگوی دستورالعمل های یکپارچه

این تیم یک الگوی واحد را برای ادغام داده‌های زبانی یک‌وجهی و داده‌های بینایی و زبان چندوجهی ارائه می‌کند تا مدل MultiModal-GPT را به شیوه‌ای هم افزایی به درستی آموزش دهد.

این استراتژی ترکیبی تلاش می‌کند تا با بهره‌برداری از قابلیت‌های مکمل هر دو روش داده و تشویق به درک عمیق‌تر ایده‌های زیربنایی، عملکرد مدل را در کارهای مختلف بهبود بخشد.

مجموعه داده‌های Dolly 15k و Alpaca GPT4 توسط این تیم برای اندازه‌گیری توانایی‌های آموزش فقط زبان مورد استفاده قرار می‌گیرند. این مجموعه داده ها به عنوان یک الگوی سریع برای ساختار دهی ورودی داده عمل می کنند تا فرمت مطابق دستورالعمل را تضمین کنند.

بررسی اجمالی مجموعه داده های Dolly 15k

تصویر: مروری بر مجموعه داده Doly 15k

مدل چگونه کار می کند؟

سه جزء کلیدی مدل MultiModal-GPT را تشکیل می‌دهند: رمزگشای زبان، نمونه‌گیرنده مجدد ادراک، و رمزگذار بینایی. تصویر توسط رمزگذار بینایی گرفته می‌شود، که سپس مجموعه‌ای از ویژگی‌هایی را ایجاد می‌کند که آن را مشخص می‌کند.

رمزگشای زبان از اطلاعات رمزگذار بینایی برای ایجاد متنی استفاده می‌کند که تصویر را با کمک نمونه‌گیرنده ادراکی توصیف می‌کند.

جزء مدلی که زبان را درک می کند و متن را تولید می کند رمزگشای زبان است. برای پیش‌بینی کلمه زیر در یک عبارت، این مدل با استفاده از داده‌های فقط زبان و vision-plus زبان آموزش داده می‌شود.

این به مدل می آموزد که چگونه به دستورات انسان واکنش نشان دهد و متن قابل قبولی را برای توضیحات تصویر ارائه می دهد.

مدل

تیم پشت سر

MultiModal-GPT توسط تیمی از محققان و مهندسان تحقیقاتی مایکروسافت در آسیا به رهبری تائو گونگ، چنگچی لیو و شیلونگ ژانگ ایجاد شد. Yudong Wang، Miao Zheng، Qian Zhao، Kuikun Liu، Wenwei Zhang، Ping Luo و Kai Chen همگی در مطالعه و توسعه مدل سهیم بودند.

پردازش زبان طبیعی، بینایی کامپیوترو یادگیری ماشینی همگی زمینه های شایستگی تیم هستند. آنها چندین مقاله در کنفرانس ها و نشریات سطح بالا و همچنین افتخارات و تمجیدهای مختلف برای تلاش های علمی خود دارند.

تحقیقات این تیم بر توسعه مدل‌ها و رویکردهای پیشرفته برای فعال کردن تعاملات طبیعی و هوشمندانه‌تر بین انسان و فناوری متمرکز است.

توسعه چند وجهی-GPT یک دستاورد قابل توجه در این زمینه است زیرا یکی از اولین مدل هایی است که بینش و زبان را در یک چارچوب واحد برای بحث چند دور ترکیب می کند.

مشارکت‌های این تیم در تحقیق و توسعه MultiModal-GPT این پتانسیل را دارد که تأثیر قابل‌توجهی بر آینده پردازش زبان طبیعی و تعاملات انسان و ماشین داشته باشد.

نحوه استفاده از MultiModal-GPT

برای مبتدیان، استفاده از ابزار MultiModal-GPT ساده است. به سادگی به https://mmgpt.openmmlab.org.cn/ و دکمه آپلود تصویر را فشار دهید.

فایل تصویری را برای آپلود انتخاب کنید و سپس دستور متن را در قسمت متن تایپ کنید. برای ایجاد پاسخ از مدل، روی دکمه «ارسال» کلیک کنید، که در زیر فیلد متن ظاهر می شود.

می توانید با عکس ها و دستورالعمل های مختلف آزمایش کنید تا در مورد قابلیت های مدل بیشتر بدانید.

رابط 1

نصب و راه اندازی

برای نصب بسته MultiModal-GPT، از دستور ترمینال “git clone https://github.com/open-mmlab/Multimodal-GPT.git” استفاده کنید تا مخزن را از GitHub کلون کنید. به سادگی می توانید این مراحل را دنبال کنید:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

روش دیگر، استفاده کنید conda env create -f environment.yml برای ایجاد یک محیط جدید conda. شما می توانید پس از نصب، نسخه ی نمایشی را به صورت محلی با دانلود وزنه های از پیش آموزش دیده و ذخیره آنها در پوشه چک پوینت ها اجرا کنید.

سپس نسخه ی نمایشی Gradio ممکن است با اجرای دستور "python app.py" راه اندازی شود.

معایب بالقوه

مدل MultiModal-GPT علیرغم عملکرد عالی، همچنان دارای ایراداتی است و جای توسعه دارد.

برای مثال، زمانی که با ورودی‌های بصری پیچیده یا مبهم سروکار داریم، مدل ممکن است همیشه قادر به تشخیص و درک بافت ورودی نباشد. این ممکن است منجر به پیش‌بینی‌ها یا واکنش‌های نادرست از مدل شود.

علاوه بر این، به ویژه زمانی که ورودی پیچیده یا باز است، مدل ممکن است همیشه بهترین واکنش یا نتیجه را ایجاد نکند. برای مثال، پاسخ مدل ممکن است تحت تأثیر شباهت جلدهای دو کتاب در مورد شناسایی نادرست جلد کتاب باشد.

نتیجه

به طور کلی، مدل MultiModal-GPT یک گام بزرگ رو به جلو در پردازش زبان طبیعی و یادگیری ماشین است. و استفاده از آن و آزمایش با آن بسیار هیجان انگیز است. بنابراین، شما باید آن را امتحان کنید!

با این حال، مانند همه مدل‌ها محدودیت‌هایی دارد و برای دستیابی به حداکثر کارایی در کاربردها و حوزه‌های مختلف، نیاز به پالایش و بهبود بیشتری دارد.