ملٹی موڈل-جی پی ٹی: زبان اور وژن انٹیگریشن میں ایک نیا فرنٹیئر

کیا آپ نے کبھی یہ خواہش کی ہے کہ آپ کسی ایسے AI کے ساتھ بات کر سکیں جو بولی اور بصری دونوں ڈیٹا کو سمجھتا ہو؟ ملٹی موڈل-جی پی ٹی پیراڈیم لینگویج پروسیسنگ کو بصری تفہیم کے ساتھ جوڑتا ہے۔

یہ درست اور متنوع انسانی کمپیوٹر کے تعامل کا امکان پیش کرتا ہے۔ ملٹی موڈل-جی پی ٹی وضاحتی کیپشن فراہم کر سکتے ہیں، انفرادی اشیاء کو شمار کر سکتے ہیں، اور عام صارف کے سوالات کے جوابات دے سکتے ہیں۔

لیکن، یہ کیسے کرتا ہے؟ اور، آپ MultiModal-GPT کے ساتھ کیا کر سکتے ہیں؟

آئیے کہانی کو شروع تک لے جاتے ہیں اور اپنے سامنے کے امکانات کو سمجھتے ہیں۔

GPT-4 جیسے زبان کے ماڈلز کے ابھرنے کے ساتھ، قدرتی زبان کی پروسیسنگ ٹیکنالوجیز ایک انقلاب کا مشاہدہ کر رہی ہیں۔ ChatGPT جیسی اختراعات پہلے ہی ہماری زندگیوں میں شامل ہو چکی ہیں۔

اور، ایسا لگتا ہے کہ وہ آتے رہتے ہیں!

GPT-4 اور اس کی حدود

GPT-4 نے لوگوں کے ساتھ ملٹی موڈل بات چیت میں حیرت انگیز مہارت دکھائی ہے۔ مطالعات نے اس کارکردگی کو نقل کرنے کی کوشش کی ہے، لیکن تصویری ٹوکن کی ممکنہ طور پر زیادہ تعداد کی وجہ سے، بشمول عین بصری معلومات والے ماڈلز کمپیوٹیشنل طور پر مہنگے ہو سکتے ہیں۔

موجودہ ماڈلز اپنے مطالعے میں زبان کی ہدایات کی ٹیوننگ کو بھی شامل نہیں کرتے ہیں، جو زیرو شاٹ ملٹی ٹرن امیج ٹیکسٹ گفتگو میں حصہ لینے کی ان کی صلاحیت کو محدود کر دیتا ہے۔

فلیمنگو فریم ورک پر تعمیر

ملٹی موڈل-جی پی ٹی نامی ایک نیا ماڈل تیار کیا گیا ہے تاکہ لسانی اور بصری دونوں اشاروں کا استعمال کرتے ہوئے لوگوں کے ساتھ مواصلت کو ممکن بنایا جا سکے۔

ڈویلپرز نے ایک پروگرام استعمال کیا جسے کہا جاتا ہے۔ فلیمنگو فریم ورک، جسے پہلے متن اور بصری دونوں کو سمجھنے کی تربیت دی گئی تھی، تاکہ اس کو ممکن بنایا جا سکے۔

فلیمنگو فریم ورک

فلیمنگو کو کچھ تبدیلیوں کی ضرورت تھی، اگرچہ، کیونکہ وہ متن اور بصری پر مشتمل ڈائیلاگ کو بڑھانے سے قاصر تھا۔

اپ ڈیٹ شدہ ملٹی موڈل-جی پی ٹی ماڈل تصویروں سے ڈیٹا اکٹھا کر سکتا ہے اور اسے زبان کے ساتھ ملا کر انسانی احکامات کو سمجھنے اور اس پر عمل درآمد کر سکتا ہے۔

ملٹی موڈل-جی پی ٹی

ملٹی موڈل-جی پی ٹی اے آئی ماڈل کی ایک قسم ہے جو مختلف انسانی استفسارات کی پیروی کر سکتی ہے جیسے بصری بیان کرنا، اشیاء کی گنتی کرنا، اور سوالات کا جواب دینا۔ یہ بصری اور زبانی ڈیٹا کے امتزاج کا استعمال کرتے ہوئے احکامات کو سمجھتا اور اس کی پیروی کرتا ہے۔

محققین نے لوگوں کے ساتھ بات چیت کرنے کے لیے ملٹی موڈل-جی پی ٹی کی صلاحیت کو بڑھانے کے لیے بصری اور صرف زبان کے دونوں ڈیٹا کا استعمال کرتے ہوئے ماڈل کو تربیت دی۔ مزید برآں، اس نے اپنی گفتگو کو انجام دینے کے طریقے میں نمایاں بہتری پیدا کی۔ اس کے نتیجے میں اس کی گفتگو کی کارکردگی میں بھی نمایاں بہتری آئی۔

انہوں نے دریافت کیا کہ گفتگو کی اچھی کارکردگی کے لیے اعلیٰ معیار کے تربیتی ڈیٹا کا ہونا بہت ضروری ہے، کیونکہ مختصر جوابات کے ساتھ ایک چھوٹا ڈیٹا سیٹ ماڈل کو کسی بھی کمانڈ پر مختصر ردعمل پیدا کرنے کے قابل بنا سکتا ہے۔

آپ ملٹی موڈل-جی پی ٹی کے ساتھ کیا کر سکتے ہیں؟

بات چیت میں مشغول ہونا

پہلے آنے والے زبان کے ماڈلز کی طرح، ملٹی موڈل-جی پی ٹی کی بنیادی خصوصیات میں سے ایک فطری زبان کے مباحثوں میں مشغول ہونے کی صلاحیت ہے۔ اس کا مطلب یہ ہے کہ صارفین ماڈل کے ساتھ اسی طرح مشغول ہوسکتے ہیں جیسے وہ ایک حقیقی شخص کے ساتھ کرتے ہیں۔

مثال کے طور پر، MultiModal-GPT صارفین کو نوڈلز بنانے کی تفصیلی ترکیب دے سکتا ہے یا کھانے کے لیے ممکنہ ریستوراں تجویز کر سکتا ہے۔ یہ ماڈل صارفین کے سفر کے ارادوں کے بارے میں عمومی سوالات کا جواب دینے کی بھی صلاحیت رکھتا ہے۔

نوڈلس

اشیاء کی پہچان

MultiModal-GPT تصاویر میں چیزوں کو پہچان سکتا ہے اور ان کے بارے میں پوچھ گچھ کا جواب دے سکتا ہے۔ مثال کے طور پر، ماڈل فریڈی مرکری کو تصویر میں پہچان سکتا ہے اور اس کے بارے میں سوالات کا جواب دے سکتا ہے۔

یہ افراد کی تعداد کو بھی گن سکتا ہے اور اس کی وضاحت کر سکتا ہے کہ وہ تصویر میں کیا کر رہے ہیں۔ اس آبجیکٹ کی شناخت کی صلاحیت میں ای کامرس، صحت کی دیکھ بھال، اور سیکورٹی سمیت مختلف شعبوں میں درخواستیں ہیں۔

مثال کے طور پر

MultiModal-GPT ڈیجیٹل تصویروں کے اندر موجود متن کو بھی پہچان سکتا ہے۔ اس کا مطلب یہ ہے کہ ماڈل تصاویر میں متن کو پڑھ سکتا ہے اور مفید ڈیٹا نکال سکتا ہے۔ مثال کے طور پر، یہ کسی تصویر میں موجود کرداروں کا پتہ لگا سکتا ہے اور کتاب کے مصنف کی شناخت کر سکتا ہے۔

کے لیے ایک انتہائی مفید ٹول ہے۔ دستاویزی مینجمنٹ، ڈیٹا ان پٹ، اور مواد کا تجزیہ۔

لیٹنا

استدلال اور علم کی تخلیق

ملٹی ماڈل-جی پی ٹی دنیا کے بارے میں استدلال اور علم پیدا کر سکتا ہے۔ اس کا مطلب ہے کہ یہ تصویروں کی مکمل وضاحت فراہم کر سکتا ہے اور یہ بھی بتا سکتا ہے کہ تصویر کس موسم میں لی گئی تھی۔

یہ مہارت مختلف شعبوں میں مفید ہے، بشمول ماحولیاتی نگرانی، زراعت، اور موسمیات۔ یہ ماڈل شاعری، کہانیوں اور گانوں جیسی تخلیقی چیزیں بھی تیار کر سکتا ہے، جو اسے تخلیقی کاموں کے لیے ایک بہترین ٹول بناتا ہے۔

ملٹی موڈل-جی پی ٹی کے اندرونی کام

متحد ہدایات کے لیے سانچہ

ٹیم یکساں لسانی ڈیٹا اور ملٹی موڈل وژن اور لینگویج ڈیٹا کے انضمام کے لیے ایک سنگل ٹیمپلیٹ پیش کرتی ہے تاکہ ملٹی موڈل-GPT ماڈل کو ہم آہنگی کے انداز میں مناسب طریقے سے تربیت دی جا سکے۔

یہ مشترکہ حکمت عملی مختلف قسم کے کاموں میں ماڈل کی کارکردگی کو بہتر بنانے کی کوشش کرتی ہے جس سے ڈیٹا کے دونوں طریقوں کی تکمیلی صلاحیتوں کا فائدہ اٹھایا جاتا ہے اور بنیادی خیالات کی گہری سمجھ کی حوصلہ افزائی ہوتی ہے۔

ٹیم کی طرف سے Dolly 15k اور Alpaca GPT4 ڈیٹاسیٹس کا استعمال صرف زبان کی ہدایات کی پیروی کرنے کی صلاحیتوں کی پیمائش کے لیے کیا جاتا ہے۔ یہ ڈیٹاسیٹس ڈیٹاسیٹ ان پٹ کی ساخت کے لیے ایک پرامپٹ ٹیمپلیٹ کے طور پر کام کرتے ہیں تاکہ ہدایات کے بعد ایک مستقل فارمیٹ کی ضمانت دی جا سکے۔

Dolly 15k ڈیٹا سیٹ کا جائزہ

تصویر: Doly 15k ڈیٹاسیٹ کا جائزہ

ماڈل کیسے کام کرتا ہے؟

تین اہم اجزاء ملٹی موڈل-GPT ماڈل بناتے ہیں: ایک لینگویج ڈیکوڈر، ایک پرسیور ریسمپلر، اور ایک ویژن انکوڈر۔ تصویر کو وژن انکوڈر کے ذریعے لیا جاتا ہے، جو اس کے بعد خصوصیات کا ایک مجموعہ تیار کرتا ہے جو اس کی خصوصیت کرتا ہے۔

لینگویج ڈیکوڈر وژن انکوڈر سے حاصل کردہ معلومات کو ٹیکسٹ بنانے کے لیے استعمال کرتا ہے جو پرسیور ریزمپلر کی مدد سے تصویر کو بیان کرتا ہے۔

ماڈل کا جزو جو زبان کو سمجھتا ہے اور متن تیار کرتا ہے وہ زبان کا ڈیکوڈر ہے۔ کسی فقرے میں درج ذیل لفظ کی پیشین گوئی کرنے کے لیے، ماڈل کو صرف زبان اور وژن کے علاوہ زبان کی ہدایات کے درج ذیل ڈیٹا کا استعمال کرتے ہوئے تربیت دی جاتی ہے۔

یہ ماڈل کو سکھاتا ہے کہ انسانوں کے حکموں پر کیسے رد عمل ظاہر کیا جائے اور تصویر کی وضاحت کے لیے قابل قبول متن فراہم کیا جائے۔

ماڈل

پیچھے ٹیم

ملٹی موڈل-جی پی ٹی کو مائیکروسافٹ ریسرچ ایشیا کے محققین اور انجینئرز کی ایک ٹیم نے بنایا تھا جس کی قیادت Tao Gong، Chengqi Lyu، اور Shilong Zhang کر رہے تھے۔ Yudong Wang، Miao Zheng، Qian Zhao، Kuikun Liu، Wenwei Zhang، Ping Luo، اور Kai Chen سبھی نے ماڈل کے مطالعہ اور ترقی میں اپنا حصہ ڈالا۔

قدرتی زبان پروسیسنگ، کمپیوٹر وژن، اور مشین لرننگ ٹیم کے لیے قابلیت کے تمام شعبے ہیں۔ ان کے اعلی درجے کی کانفرنسوں اور اشاعتوں میں شائع ہونے والے متعدد مضامین کے ساتھ ساتھ ان کی سائنسی کوششوں کے لیے مختلف اعزازات اور تعریفیں بھی ہیں۔

ٹیم کی تحقیق جدید ترین ماڈلز کی ترقی پر مرکوز ہے اور انسانوں اور ٹیکنالوجی کے درمیان زیادہ فطری اور ذہین تعاملات کو قابل بنانے کے لیے نقطہ نظر۔

ملٹی ماڈل-جی پی ٹی ڈیولپمنٹ اس میدان میں ایک قابل ذکر کامیابی ہے کیونکہ یہ کثیر الجہتی بحث کے لیے وژن اور زبان کو ایک فریم ورک میں یکجا کرنے والے پہلے ماڈلز میں سے ایک ہے۔

ملٹی موڈل-جی پی ٹی تحقیق اور ترقی میں ٹیم کی شراکت قدرتی زبان کی پروسیسنگ اور انسانی مشین کے تعامل کے مستقبل پر کافی اثر انداز ہونے کی صلاحیت رکھتی ہے۔

ملٹی موڈل-جی پی ٹی کا استعمال کیسے کریں۔

ابتدائیوں کے لیے، MultiModal-GPT ٹول استعمال کرنا آسان ہے۔ بس پر جائیں۔ https://mmgpt.openmmlab.org.cn/ اور "تصویر اپ لوڈ کریں" کے بٹن کو دبائیں۔

اپ لوڈ کرنے کے لیے تصویر فائل کا انتخاب کریں، اور پھر ٹیکسٹ فیلڈ میں ٹیکسٹ پرامپٹ ٹائپ کریں۔ ماڈل سے جواب بنانے کے لیے، "جمع کروائیں" بٹن پر کلک کریں، جو ٹیکسٹ فیلڈ کے نیچے ظاہر ہوگا۔

آپ ماڈل کی صلاحیتوں کے بارے میں مزید جاننے کے لیے مختلف تصاویر اور ہدایات کے ساتھ تجربہ کر سکتے ہیں۔

انٹرفیس 1

نصب ہو

MultiModal-GPT پیکیج کو انسٹال کرنے کے لیے، GitHub سے ریپوزٹری کو کلون کرنے کے لیے ٹرمینل کمانڈ "git clone https://github.com/open-mmlab/Multimodal-GPT.git" استعمال کریں۔ آپ آسانی سے ان اقدامات پر عمل کر سکتے ہیں:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

متبادل طور پر، استعمال کریں conda env create -f environment.yml ایک نیا کونڈا ماحول قائم کرنے کے لیے۔ آپ ڈیمو کو انسٹال کرنے کے بعد مقامی طور پر پہلے سے تربیت یافتہ وزن کو ڈاؤن لوڈ کرکے اور انہیں چیک پوائنٹس فولڈر میں اسٹور کرکے چلا سکتے ہیں۔

گریڈیو ڈیمو پھر "python app.py" کمانڈ کو چلا کر لانچ کیا جا سکتا ہے۔

ممکنہ خرابیاں

ملٹی موڈل-GPT ماڈل میں اپنی بہترین کارکردگی کے باوجود خامیاں اور ترقی کی گنجائش موجود ہے۔

مثال کے طور پر، پیچیدہ یا مبہم بصری آدانوں سے نمٹنے کے دوران، ہو سکتا ہے کہ ماڈل ہمیشہ ان پٹ کے سیاق و سباق کو پہچاننے اور سمجھنے کے قابل نہ ہو۔ اس کے نتیجے میں ماڈل کی طرف سے غلط پیشین گوئیاں یا ردعمل ہو سکتا ہے۔

مزید برآں، خاص طور پر جب ان پٹ پیچیدہ یا کھلا ہوا ہو، ہو سکتا ہے کہ ماڈل ہمیشہ بہترین ردعمل یا نتیجہ پیدا نہ کرے۔ مثال کے طور پر، ماڈل کا جواب اس بات سے متاثر ہو سکتا ہے کہ کتاب کے سرورق کی غلط شناخت کے معاملے میں دونوں کتابوں کے سرورق کس طرح ایک جیسے نظر آتے ہیں۔

نتیجہ

مجموعی طور پر، ملٹی موڈل-جی پی ٹی ماڈل قدرتی زبان کی پروسیسنگ اور مشین لرننگ میں ایک بڑے قدم کی نمائندگی کرتا ہے۔ اور، اسے استعمال کرنا اور اس کے ساتھ تجربہ کرنا بہت دلچسپ ہے۔ تو، آپ کو یا تو اسے آزمانا چاہئے!

تاہم، تمام ماڈلز کی طرح اس کی بھی حدود ہیں، اور مختلف قسم کی ایپلی کیشنز اور ڈومینز میں زیادہ سے زیادہ کارکردگی حاصل کرنے کے لیے اضافی ریفائننگ اور اضافہ کی ضرورت ہے۔