ملٽي موڊل-جي پي ٽي: ٻولي ۽ ويزن انٽيگريشن ۾ هڪ نئون محاذ

ڇا توهان ڪڏهن اها خواهش ڪئي آهي ته توهان هڪ AI سان ڳالهائي سگهو ٿا جيڪو ٻنهي ڳالهائيندڙ ۽ بصري ڊيٽا کي سمجهي ٿو؟ MultiModal-GPT paradigm ٻولي پروسيسنگ کي بصري سمجھ سان گڏ ڪري ٿو.

اهو پيش ڪري ٿو صحيح ۽ متنوع انساني ڪمپيوٽر جي رابطي جو امڪان. ملٽي موڊل-GPT وضاحتي ڪيپشن مهيا ڪري سگھن ٿا، انفرادي شيون شمار ڪري سگھن ٿا، ۽ عام صارف جي سوالن جا جواب ڏئي سگھن ٿا.

پر، اهو ڪيئن ٿو ڪري؟ ۽، توهان MultiModal-GPT سان ڇا ڪري سگهو ٿا؟

اچو ته ڪهاڻي کي شروع ڪريون ۽ سمجھون ته اسان جي اڳيان موجود امڪانن کي.

GPT-4 وانگر ٻولي ماڊلز جي اڀرڻ سان، قدرتي ٻولي پروسيسنگ ٽيڪنالاجيون هڪ انقلاب جي شاهدي ڏئي رهيا آهن. ChatGPT وانگر جدت اڳ ۾ ئي اسان جي زندگين ۾ شامل ڪئي وئي آهي.

۽، اهي اچڻ جاري رکڻ لڳي!

GPT-4 ۽ ان جون حدون

GPT-4 ماڻهن سان ملٽي موڊل گفتگو ۾ حيرت انگيز مهارت ڏيکاري آهي. مطالعي هن ڪارڪردگي کي نقل ڪرڻ جي ڪوشش ڪئي آهي، پر تصويري ٽوڪن جي امڪاني طور تي وڏي تعداد جي ڪري، بشمول ماڊل صحيح بصري معلومات سان گڏ حسابي طور تي قيمتي ٿي سگهي ٿو.

موجوده ماڊلز پڻ پنھنجي مطالعي ۾ ٻوليءَ جي ھدايت واري ٽيوننگ کي شامل نه ڪندا آھن، جيڪي انھن جي زيرو شاٽ ملٽي ٽرن تصوير-ٽيڪسٽ گفتگو ۾ حصو وٺڻ جي صلاحيت کي محدود ڪن ٿا.

فليمنگو فريم ورڪ تي تعمير

هڪ نئون ماڊل جنهن کي ملٽي موڊل-GPT سڏيو ويندو آهي ترقي ڪئي وئي آهي ته جيئن ٻنهي لساني ۽ بصري اشارو استعمال ڪندي ماڻهن سان رابطي کي چالو ڪيو وڃي.

ڊولپرز هڪ پروگرام کي ملازمت ڏني جنهن کي سڏيو ويندو آهي فليمنگو فريم ورڪ، جنهن کي اڳ ۾ تربيت ڏني وئي هئي متن ۽ بصري ٻنهي کي سمجهڻ لاءِ، انهي کي ممڪن بڻائڻ لاءِ.

فليمنگو فريم ورڪ

فليمنگو کي ڪجهه تبديلين جي ضرورت هئي، جيتوڻيڪ، ڇاڪاڻ ته اهو متن ۽ بصري شامل ڪيل ڳالهين کي وڌائڻ جي قابل نه هو.

اپڊيٽ ٿيل ملٽي موڊل-GPT ماڊل تصويرن مان ڊيٽا گڏ ڪري سگھي ٿو ۽ ان کي ٻولي سان ملائي سگھي ٿو سمجھڻ ۽ انساني حڪمن تي عمل ڪرڻ لاءِ.

ملٽي موڊل-GPT

ملٽي موڊل-GPT هڪ قسم جي AI ماڊل آهي جيڪا مختلف انساني سوالن جي پيروي ڪري سگهي ٿي جهڙوڪ بصري بيان ڪرڻ، شيون ڳڻڻ، ۽ سوالن جا جواب ڏيڻ. اهو بصري ۽ زباني ڊيٽا جي ميلاپ کي استعمال ڪندي حڪمن کي سمجهي ۽ پيروي ڪري ٿو.

محققن ماڊل کي تربيت ڏني صرف بصري ۽ ٻولي ٻنهي ڊيٽا کي استعمال ڪندي MultiModal-GPT جي ماڻهن سان گفتگو ڪرڻ جي صلاحيت کي وڌائڻ لاءِ. اضافي طور تي، اهو ان جي گفتگو جي طريقي سان هڪ قابل ذڪر سڌارو پيدا ڪيو. اهو پڻ ان جي گفتگو جي ڪارڪردگي ۾ قابل ذڪر بهتري جي نتيجي ۾.

انهن دريافت ڪيو ته اعليٰ معيار جي ٽريننگ ڊيٽا جو هجڻ سٺي گفتگو جي ڪارڪردگي لاءِ اهم آهي، ڇاڪاڻ ته مختصر جوابن سان گڏ هڪ ننڍڙو ڊيٽا سيٽ ماڊل کي ڪنهن به ڪمانڊ تي ننڍڙا جواب پيدا ڪرڻ جي قابل ڪري سگهي ٿو.

توهان MultiModal-GPT سان ڇا ڪري سگهو ٿا؟

گفتگو ۾ مشغول ٿيڻ

ٻوليءَ جي ماڊلز وانگر جيڪي اڳ ۾ آيا هئا، ملٽي موڊل-GPT جي بنيادي خاصيتن مان هڪ آهي ان جي قدرتي ٻولي جي بحثن ۾ مشغول ٿيڻ جي صلاحيت. ان جو مطلب اهو آهي ته صارف شايد ماڊل سان مشغول ٿي سگهن ٿا جيئن اهي هڪ حقيقي شخص سان هجن.

مثال طور، MultiModal-GPT گراهڪ کي نوڊلز ٺاهڻ لاءِ تفصيلي ترڪيب ڏئي سگهي ٿو يا کائڻ لاءِ ممڪن ريسٽورنٽ جي سفارش ڪري سگهي ٿو. ماڊل پڻ صارف جي سفر جي ارادن بابت عام سوالن جا جواب ڏيڻ جي قابل آهي.

نوڊلز

شين جي سڃاڻپ

MultiModal-GPT تصويرن ۾ شين کي سڃاڻي سگهي ٿو ۽ انهن جي باري ۾ پڇا ڳاڇا جو جواب ڏئي سگهي ٿو. مثال طور، ماڊل هڪ تصوير ۾ فريدي پاري کي سڃاڻي سگهي ٿو ۽ ان بابت سوالن جو جواب ڏئي سگهي ٿو.

اهو پڻ ماڻهن جو تعداد شمار ڪري سگهي ٿو ۽ وضاحت ڪري ٿو ته اهي هڪ تصوير ۾ ڇا ڪري رهيا آهن. هن اعتراض جي سڃاڻپ جي صلاحيت مختلف شعبن ۾ ايپليڪيشنون آهن، بشمول اي ڪامرس، صحت جي سار سنڀار، ۽ سيڪيورٽي.

مثال

MultiModal-GPT پڻ ڊجيٽل تصويرن جي اندر متن کي سڃاڻي سگھي ٿو. ان جو مطلب اهو آهي ته ماڊل فوٽوز ۾ متن پڙهي سگهي ٿو ۽ مفيد ڊيٽا ڪڍي سگهي ٿو. اهو ٿي سگهي ٿو، مثال طور، هڪ تصوير ۾ ڪردارن کي ڳولي ۽ هڪ ڪتاب جي ليکڪ کي سڃاڻي.

لاء هڪ انتهائي مفيد اوزار آهي دستاويز جي انتظام، ڊيٽا ان پٽ، ۽ مواد جو تجزيو.

Gandalf

استدلال ۽ علم جي پيدائش

ملٽي ماڊل-جي پي ٽي سبب ڪري سگهي ٿو ۽ دنيا بابت ڄاڻ پيدا ڪري ٿي. ان جو مطلب اهو آهي ته اها تصويرن جي مڪمل وضاحت مهيا ڪري سگهي ٿي ۽ اهو به ٻڌائي سگهي ٿي ته تصوير ڪهڙي موسم ۾ ورتي وئي هئي.

هي مهارت مختلف شعبن ۾ مفيد آهي، بشمول ماحولياتي نگراني، زراعت، ۽ موسمياتيات. ماڊل اضافي طور تي تخليقي شيون ٺاهي سگھي ٿو جهڙوڪ شاعري، ڪهاڻيون ۽ گيت، اهو تخليقي ڪمن لاءِ هڪ بهترين اوزار آهي.

ملٽي موڊل-GPT جو اندروني ڪم

گڏيل هدايتن لاءِ سانچو

ٽيم يونيموڊل لساني ڊيٽا ۽ ملٽي موڊل وژن-۽-ٻوليءَ جي ڊيٽا جي انضمام لاءِ هڪ واحد ٽيمپليٽ پيش ڪري ٿي ته جيئن ملٽي موڊل-GPT ماڊل کي هم وقت سازيءَ واري انداز ۾ صحيح طريقي سان تربيت ڏني وڃي.

هي گڏيل حڪمت عملي مختلف ڪمن ۾ ماڊل جي ڪارڪردگي کي بهتر ڪرڻ جي ڪوشش ڪري ٿي، ٻنهي ڊيٽا جي طريقن جي مڪمل صلاحيتن کي استحصال ڪندي ۽ بنيادي خيالن جي هڪ تمام گهڻي فهم جي حوصلا افزائي ڪندي.

ڊولي 15k ۽ Alpaca GPT4 ڊيٽا سيٽس ٽيم پاران استعمال ڪيا ويا آھن صرف ٻولي جي ھدايتن جي ھيٺين صلاحيتن کي ماپڻ لاءِ. اهي ڊيٽا سيٽ هڪ تڪڙي ٽيمپليٽ جي طور تي ڪم ڪن ٿا ڊيٽا سيٽ ان پٽ کي ترتيب ڏيڻ لاءِ هڪ مسلسل هدايتون-هيٺ ڏنل فارميٽ جي ضمانت ڏيڻ لاءِ.

ڊولي 15k ڊيٽا سيٽ جو جائزو

تصوير: ڊولي 15k ڊيٽا سيٽ جو جائزو

ماڊل ڪيئن ڪم ڪندو آهي؟

ٽي اهم حصا ملٽي موڊل-GPT ماڊل ٺاهيندا آهن: هڪ ٻولي ڊيڪوڊر، هڪ سمجهڻ وارو ريزمپلر، ۽ هڪ وژن انڪوڊر. تصوير وژن انڪوڊر ذريعي ورتو وڃي ٿو، جيڪو پوءِ ان جي خاصيتن جو هڪ مجموعو ٺاهي ٿو.

ٻولي ڊيڪوڊر وژن انڪوڊر مان معلومات استعمال ڪري ٿو متن ٺاهڻ لاءِ جيڪو تصوير کي بيان ڪري ٿو پرسيور ريسمپلر جي مدد سان.

ماڊل جو جزو جيڪو ٻولي سمجھي ٿو ۽ متن پيدا ڪري ٿو ٻولي ڊيڪوڊر آھي. ھڪڙي جملي ۾ ھيٺ ڏنل لفظ جي اڳڪٿي ڪرڻ لاء، ماڊل کي صرف ٻولي ۽ ويزن-پلس ٻولي ھدايت-ھيٺ ڏنل ڊيٽا استعمال ڪندي تربيت ڏني وئي آھي.

هي ماڊل سيکاري ٿو ته ڪيئن انسانن جي حڪمن تي رد عمل ڪجي ۽ تصوير جي وضاحت لاءِ قابل قبول متن مهيا ڪري.

ماڊل

ٽيم پٺيان

ملٽي موڊل-GPT کي Microsoft ريسرچ ايشيا جي محققن ۽ انجنيئرن جي هڪ ٽيم پاران Tao Gong، Chengqi Lyu، ۽ Shilong Zhang جي اڳواڻي ۾ ٺاهيو ويو. يوڊونگ وانگ، مائو زينگ، ڪيوان ژائو، ڪوئڪون ليو، وين وي ژانگ، پنگ لوو ۽ ڪائي چن سڀني ماڊل جي مطالعي ۽ ترقي ۾ حصو ورتو.

قدرتي ٻولي پروسيسنگ، ڪمپيوٽر جو نقشو, ۽ مشين سکيا ٽيم لاء قابليت جا سڀئي علائقا آهن. انهن جا ڪيترائي مضمون آهن جيڪي اعليٰ سطحي ڪانفرنسن ۽ اشاعتن ۾ شايع ٿيل آهن، انهي سان گڏ انهن جي سائنسي ڪوششن لاءِ مختلف اعزاز ۽ تعريفون.

ٽيم جي تحقيق جديد ماڊل جي ترقي تي ڌيان ڏئي ٿي ۽ انسانن ۽ ٽيڪنالاجي جي وچ ۾ وڌيڪ قدرتي ۽ ذهين رابطي کي چالو ڪرڻ لاء طريقا.

ملٽي-ماڊل-GPT ڊولپمينٽ فيلڊ ۾ هڪ قابل ذڪر ڪاميابي آهي ڇو ته اها پهرين ماڊل مان هڪ آهي جنهن ۾ ويزن ۽ ٻولي کي گڏ ڪرڻ لاءِ هڪ فريم ورڪ ۾ ملٽي گول بحث لاءِ.

ملٽي موڊل-GPT جي تحقيق ۽ ترقي ۾ ٽيم جو حصو قدرتي ٻولي پروسيسنگ ۽ انساني مشين جي رابطي جي مستقبل تي ڪافي اثر انداز ٿيڻ جي صلاحيت رکي ٿو.

ڪيئن استعمال ڪجي MultiModal-GPT

نئين سکندڙن لاءِ، MultiModal-GPT ٽول استعمال ڪرڻ سادو آهي. بس ڏانهن وڃو https://mmgpt.openmmlab.org.cn/ ۽ "اپلوڊ تصوير" بٽڻ کي دٻايو.

اپلوڊ ڪرڻ لاءِ تصويري فائل چونڊيو، ۽ پوءِ ٽيڪسٽ فيلڊ ۾ ٽيڪسٽ پرامٽ ٽائپ ڪريو. ماڊل مان جواب ڏيڻ لاءِ، "جمع ڪريو" بٽڻ تي ڪلڪ ڪريو، جيڪو ٽيڪسٽ فيلڊ جي هيٺان ظاهر ٿيندو.

توهان ماڊل جي صلاحيتن جي باري ۾ وڌيڪ سکڻ لاء مختلف تصويرون ۽ هدايتن سان تجربو ڪري سگهو ٿا.

انٽرفيس 1

لڳائڻ

ملٽي موڊل-GPT پيڪيج کي انسٽال ڪرڻ لاءِ، استعمال ڪريو ٽرمينل ڪمان ”گٽ ڪلون https://github.com/open-mmlab/Multimodal-GPT.git“ GitHub کان مخزن کي ڪلون ڪرڻ لاءِ. توهان صرف انهن قدمن تي عمل ڪري سگهو ٿا:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

متبادل طور تي، استعمال ڪريو conda env create -f environment.yml هڪ نئون ڪنڊا ماحول قائم ڪرڻ لاء. توھان ان کي انسٽال ڪرڻ کان پوءِ مقامي طور تي ڊيمو ھلائي سگھوٿا اڳ-تربيت ٿيل وزنن کي ڊائون لوڊ ڪندي ۽ انھن کي چيڪ پوائنٽس فولڊر ۾ محفوظ ڪري.

گريڊيو ڊيمو وري شروع ٿي سگھي ٿو "python app.py" حڪم کي هلائڻ سان.

امڪاني خرابيون

MultiModal-GPT ماڊل اڃا تائين ان جي شاندار ڪارڪردگي جي باوجود ترقي لاء خاميون ۽ ڪمرو آهي.

مثال طور، جڏهن پيچيده يا مبهم بصري ان پٽن سان معاملو ڪيو وڃي، ماڊل هميشه ان پٽ جي حوالي سان سڃاڻڻ ۽ سمجهڻ جي قابل نه هوندو. اهو نتيجو ٿي سگهي ٿو غلط اڳڪٿيون يا ماڊل مان ردعمل.

اضافي طور تي، خاص طور تي جڏهن ان پٽ پيچيده يا کليل ختم ٿيل آهي، ماڊل شايد هميشه بهترين ردعمل يا نتيجو پيدا نه ڪري سگھن. ماڊل جو جواب، مثال طور، متاثر ٿي سگھي ٿو ته ڪتاب جي احاطي جي غلط سڃاڻپ جي صورت ۾ ٻن ڪتابن جا احاطه ڪيئن هڪجهڙا نظر اچن ٿا.

ٿڪل

مجموعي طور تي، ملٽي موڊل-GPT ماڊل قدرتي ٻولي پروسيسنگ ۽ مشين لرننگ ۾ اڳتي وڌڻ لاءِ وڏو قدم پيش ڪري ٿو. ۽، ان کي استعمال ڪرڻ ۽ ان سان تجربو ڪرڻ تمام دلچسپ آهي. تنهن ڪري، توهان کي اها ڪوشش ڪرڻ گهرجي يا ته!

بهرحال، ان جون حدون آهن، جيئن سڀني ماڊلن کي، ۽ مختلف ايپليڪيشنن ۽ ڊومينز ۾ وڌ کان وڌ ڪارڪردگي حاصل ڪرڻ لاءِ اضافي ريفائننگ ۽ واڌاري جي ضرورت آهي.