آیا تا به حال آرزو کرده اید که ای کاش می توانستید با هوش مصنوعی که داده های گفتاری و دیداری را درک می کند صحبت کنید؟ پارادایم MultiModal-GPT پردازش زبان را با درک بصری ترکیب می کند.
امکان تعامل دقیق و متنوع انسان و رایانه را ارائه می دهد. MultiModal-GPT میتواند شرحهای توصیفی ارائه دهد، آیتمهای فردی را شمارش کند و به سؤالات عمومی کاربر پاسخ دهد.
اما، چگونه این کار را انجام می دهد؟ و با MultiModal-GPT چه کاری می توانید انجام دهید؟
بیایید داستان را به ابتدا ببریم و احتمالات پیش روی خود را درک کنیم.
با ظهور مدلهای زبانی مانند GPT-4، فناوریهای پردازش زبان طبیعی شاهد انقلاب هستند. نوآوری هایی مانند ChatGPT قبلاً در زندگی ما گنجانده شده است.
و به نظر می رسد که به آمدن ادامه می دهند!
GPT-4 و محدودیت های آن
GPT-4 مهارت شگفت انگیزی در مکالمات چندوجهی با مردم نشان داده است. مطالعات تلاش کرده اند تا این عملکرد را تکرار کنند، اما به دلیل تعداد بالقوه بالای نشانه های تصویر، از جمله مدل هایی با اطلاعات بصری دقیق می توانند از نظر محاسباتی گران باشند.
مدلهای موجود همچنین تنظیم آموزش زبان را در مطالعه خود لحاظ نمیکنند، که توانایی آنها را برای شرکت در مکالمات تصویر-متن چند چرخشی صفر شات محدود میکند.
ساخت بر چارچوب فلامینگو
مدل جدیدی به نام MultiModal-GPT ایجاد شد تا ارتباط با مردم را با استفاده از نشانه های زبانی و بصری امکان پذیر کند.
توسعه دهندگان از برنامه ای به نام the استفاده کردند چارچوب فلامینگو، که قبلاً برای درک متن و تصاویر بصری آموزش داده شده بود تا این امر امکان پذیر شود.
فلامینگو به تغییراتی نیاز داشت، اگرچه نمیتوانست دیالوگهای گستردهای شامل متن و تصاویر بصری داشته باشد.
مدل MultiModal-GPT به روز شده میتواند دادهها را از تصاویر جمعآوری کرده و آنها را با زبان ترکیب کند تا دستورات انسانی را درک کرده و اجرا کند.
MultiModal-GPT
MultiModal-GPT نوعی از مدل هوش مصنوعی است که می تواند پرس و جوهای مختلف انسانی مانند توصیف تصاویر، شمارش موارد و پاسخ به سؤالات را دنبال کند. با استفاده از ترکیبی از داده های بصری و کلامی، دستورات را می فهمد و دنبال می کند.
محققان این مدل را با استفاده از دادههای بصری و فقط زبانی آموزش دادند تا ظرفیت MultiModal-GPT برای مکالمه با مردم را افزایش دهند. علاوه بر این، باعث بهبود قابل توجهی در نحوه اجرای گفتمان آن شد. همچنین منجر به بهبود قابل توجهی در عملکرد مکالمه آن شد.
آنها دریافتند که داشتن داده های آموزشی با کیفیت بالا برای عملکرد خوب مکالمه بسیار مهم است، زیرا یک مجموعه داده کوچک با پاسخ های کوتاه ممکن است مدل را قادر سازد تا پاسخ های کوتاه تری به هر دستوری ایجاد کند.
با MultiModal-GPT چه کاری می توانید انجام دهید؟
درگیر شدن در مکالمات
مانند مدلهای زبانی که قبلاً ارائه شد، یکی از ویژگیهای اصلی MultiModal-GPT ظرفیت آن برای مشارکت در بحثهای زبان طبیعی است. این نشان میدهد که مصرفکنندگان ممکن است مانند یک شخص واقعی با مدل درگیر شوند.
به عنوان مثال، MultiModal-GPT میتواند دستور پخت دقیقی برای تهیه نودل به مشتریان بدهد یا رستورانهای احتمالی را برای صرف غذا توصیه کند. این مدل همچنین قادر است به سؤالات عمومی در مورد اهداف سفر کاربران پاسخ دهد.
شناخت اشیاء
MultiModal-GPT میتواند چیزهای موجود در عکسها را تشخیص دهد و به سؤالات مربوط به آنها پاسخ دهد. به عنوان مثال، مدل می تواند فردی مرکوری را در یک تصویر بشناسد و به سوالات مربوط به او پاسخ دهد.
همچنین میتواند تعداد افراد را بشمارد و توضیح دهد که در یک تصویر چه میکنند. این ظرفیت شناسایی شی در زمینه های مختلفی از جمله تجارت الکترونیک، مراقبت های بهداشتی و امنیت کاربرد دارد.
MultiModal-GPT همچنین می تواند متن داخل تصاویر دیجیتال را تشخیص دهد. این بدان معناست که مدل میتواند متن عکسها را بخواند و دادههای مفید را استخراج کند. برای مثال ممکن است شخصیت های یک تصویر را شناسایی کند و نویسنده کتاب را شناسایی کند.
این یک ابزار بسیار مفید برای مدیریت اسناد، ورودی داده ها و تحلیل محتوا.
استدلال و تولید دانش
Multi-modal-GPT می تواند استدلال کند و دانشی در مورد جهان تولید کند. این بدان معنی است که می تواند توضیحات کاملی از عکس ها ارائه دهد و حتی به آنها بگوید که عکس در چه فصلی گرفته شده است.
این مهارت در رشته های مختلف از جمله نظارت بر محیط زیست، کشاورزی و هواشناسی مفید است. این مدل علاوه بر این میتواند چیزهای خلاقانهای مانند شعر، داستان و آهنگ تولید کند و آن را به ابزاری عالی برای کارهای خلاقانه تبدیل کند.
کارهای داخلی MultiModal-GPT
الگوی دستورالعمل های یکپارچه
این تیم یک الگوی واحد را برای ادغام دادههای زبانی یکوجهی و دادههای بینایی و زبان چندوجهی ارائه میکند تا مدل MultiModal-GPT را به شیوهای هم افزایی به درستی آموزش دهد.
این استراتژی ترکیبی تلاش میکند تا با بهرهبرداری از قابلیتهای مکمل هر دو روش داده و تشویق به درک عمیقتر ایدههای زیربنایی، عملکرد مدل را در کارهای مختلف بهبود بخشد.
مجموعه دادههای Dolly 15k و Alpaca GPT4 توسط این تیم برای اندازهگیری تواناییهای آموزش فقط زبان مورد استفاده قرار میگیرند. این مجموعه داده ها به عنوان یک الگوی سریع برای ساختار دهی ورودی داده عمل می کنند تا فرمت مطابق دستورالعمل را تضمین کنند.
تصویر: مروری بر مجموعه داده Doly 15k
مدل چگونه کار می کند؟
سه جزء کلیدی مدل MultiModal-GPT را تشکیل میدهند: رمزگشای زبان، نمونهگیرنده مجدد ادراک، و رمزگذار بینایی. تصویر توسط رمزگذار بینایی گرفته میشود، که سپس مجموعهای از ویژگیهایی را ایجاد میکند که آن را مشخص میکند.
رمزگشای زبان از اطلاعات رمزگذار بینایی برای ایجاد متنی استفاده میکند که تصویر را با کمک نمونهگیرنده ادراکی توصیف میکند.
جزء مدلی که زبان را درک می کند و متن را تولید می کند رمزگشای زبان است. برای پیشبینی کلمه زیر در یک عبارت، این مدل با استفاده از دادههای فقط زبان و vision-plus زبان آموزش داده میشود.
این به مدل می آموزد که چگونه به دستورات انسان واکنش نشان دهد و متن قابل قبولی را برای توضیحات تصویر ارائه می دهد.
تیم پشت سر
MultiModal-GPT توسط تیمی از محققان و مهندسان تحقیقاتی مایکروسافت در آسیا به رهبری تائو گونگ، چنگچی لیو و شیلونگ ژانگ ایجاد شد. Yudong Wang، Miao Zheng، Qian Zhao، Kuikun Liu، Wenwei Zhang، Ping Luo و Kai Chen همگی در مطالعه و توسعه مدل سهیم بودند.
پردازش زبان طبیعی، بینایی کامپیوترو یادگیری ماشینی همگی زمینه های شایستگی تیم هستند. آنها چندین مقاله در کنفرانس ها و نشریات سطح بالا و همچنین افتخارات و تمجیدهای مختلف برای تلاش های علمی خود دارند.
تحقیقات این تیم بر توسعه مدلها و رویکردهای پیشرفته برای فعال کردن تعاملات طبیعی و هوشمندانهتر بین انسان و فناوری متمرکز است.
توسعه چند وجهی-GPT یک دستاورد قابل توجه در این زمینه است زیرا یکی از اولین مدل هایی است که بینش و زبان را در یک چارچوب واحد برای بحث چند دور ترکیب می کند.
مشارکتهای این تیم در تحقیق و توسعه MultiModal-GPT این پتانسیل را دارد که تأثیر قابلتوجهی بر آینده پردازش زبان طبیعی و تعاملات انسان و ماشین داشته باشد.
نحوه استفاده از MultiModal-GPT
برای مبتدیان، استفاده از ابزار MultiModal-GPT ساده است. به سادگی به https://mmgpt.openmmlab.org.cn/ و دکمه آپلود تصویر را فشار دهید.
فایل تصویری را برای آپلود انتخاب کنید و سپس دستور متن را در قسمت متن تایپ کنید. برای ایجاد پاسخ از مدل، روی دکمه «ارسال» کلیک کنید، که در زیر فیلد متن ظاهر می شود.
می توانید با عکس ها و دستورالعمل های مختلف آزمایش کنید تا در مورد قابلیت های مدل بیشتر بدانید.
نصب و راه اندازی
برای نصب بسته MultiModal-GPT، از دستور ترمینال “git clone https://github.com/open-mmlab/Multimodal-GPT.git” استفاده کنید تا مخزن را از GitHub کلون کنید. به سادگی می توانید این مراحل را دنبال کنید:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
روش دیگر، استفاده کنید conda env create -f environment.yml
برای ایجاد یک محیط جدید conda. شما می توانید پس از نصب، نسخه ی نمایشی را به صورت محلی با دانلود وزنه های از پیش آموزش دیده و ذخیره آنها در پوشه چک پوینت ها اجرا کنید.
سپس نسخه ی نمایشی Gradio ممکن است با اجرای دستور "python app.py" راه اندازی شود.
معایب بالقوه
مدل MultiModal-GPT علیرغم عملکرد عالی، همچنان دارای ایراداتی است و جای توسعه دارد.
برای مثال، زمانی که با ورودیهای بصری پیچیده یا مبهم سروکار داریم، مدل ممکن است همیشه قادر به تشخیص و درک بافت ورودی نباشد. این ممکن است منجر به پیشبینیها یا واکنشهای نادرست از مدل شود.
علاوه بر این، به ویژه زمانی که ورودی پیچیده یا باز است، مدل ممکن است همیشه بهترین واکنش یا نتیجه را ایجاد نکند. برای مثال، پاسخ مدل ممکن است تحت تأثیر شباهت جلدهای دو کتاب در مورد شناسایی نادرست جلد کتاب باشد.
نتیجه
به طور کلی، مدل MultiModal-GPT یک گام بزرگ رو به جلو در پردازش زبان طبیعی و یادگیری ماشین است. و استفاده از آن و آزمایش با آن بسیار هیجان انگیز است. بنابراین، شما باید آن را امتحان کنید!
با این حال، مانند همه مدلها محدودیتهایی دارد و برای دستیابی به حداکثر کارایی در کاربردها و حوزههای مختلف، نیاز به پالایش و بهبود بیشتری دارد.
پاسخ دهید