ایا تاسو کله هم هیله کړې چې تاسو د AI سره خبرې کولی شئ چې دواړه خبرې شوي او لید ډیټا درک کړي؟ ملټي موډل-GPT تمثیل د ژبې پروسس کول د بصري پوهاوي سره یوځای کوي.
دا د دقیق او متنوع انسان - کمپیوټر متقابل عمل امکان وړاندیز کوي. ملټي موډل-GPT کولی شي تشریحي سرلیکونه چمتو کړي، انفرادي توکي حساب کړي، او د کاروونکو عمومي پوښتنو ته ځواب ووايي.
مګر، دا څنګه کوي؟ او، تاسو د MultiModal-GPT سره څه کولی شئ؟
راځئ چې کیسه پیل ته ورسوو او زموږ په وړاندې امکانات درک کړو.
د GPT-4 په څیر د ژبې ماډلونو رامینځته کیدو سره، د طبیعي ژبې پروسس کولو ټیکنالوژي د انقلاب شاهدان دي. نوښتونه لکه ChatGPT لا دمخه زموږ په ژوند کې شامل شوي.
او، داسې ښکاري چې دوی راتللو ته دوام ورکوي!
GPT-4 او د هغې محدودیتونه
GPT-4 د خلکو سره په څو موډل خبرو اترو کې د حیرانتیا وړ وړتیا ښودلې. مطالعاتو هڅه کړې چې د دې فعالیت نقل کړي، مګر د احتمالي لوړ شمیر انځورونو له امله، په شمول د دقیقو بصري معلوماتو سره ماډلونه په کمپیوټري توګه ګران دي.
موجوده موډلونه هم په خپله مطالعه کې د ژبې لارښوونې ټینګ نه کوي، کوم چې د صفر شاټ ملټي ټرن عکس - متن خبرو اترو کې د ګډون کولو وړتیا محدودوي.
د فلیمینګو چوکاټ جوړول
د MultiModal-GPT په نوم یو نوی ماډل رامینځته شوی ترڅو د ژبی او بصری اشارو په کارولو سره د خلکو سره اړیکه فعاله کړي.
پراختیا کونکو یو برنامه ګمارلې چې نوم یې دی د فلیمینګو چوکاټ، کوم چې دمخه د متن او لیدونو د پوهیدو لپاره روزل شوي و ترڅو دا ممکنه کړي.
فلیمینګو ځینې بدلونونو ته اړتیا درلوده، که څه هم، ځکه چې دا توان نه درلود چې پراخ ډیالوګونه ولري چې متن او لیدونه پکې شامل وي.
د MultiModal-GPT تازه شوی ماډل کولی شي د عکسونو څخه ډیټا راټول کړي او د ژبې سره مخلوط کړي ترڅو د انساني امرونو درک او ترسره کړي.
ملټي موډل-GPT
ملټي موډل-GPT د AI ماډل یو ډول دی چې کولی شي مختلف انساني پوښتنې تعقیب کړي لکه د لیدونو توضیح کول ، د توکو شمیرل ، او پوښتنو ته ځواب ویل. دا د بصري او لفظي معلوماتو ترکیب په کارولو سره امرونه پوهیږي او تعقیبوي.
څیړونکو دا ماډل وروزل چې دواړه لید او یوازې د ژبې ډیټا په کارولو سره د خلکو سره د خبرو کولو لپاره د MultiModal-GPT ظرفیت لوړ کړي. برسیره پردې، دا د هغه د خبرو اترو په طریقه کې د پام وړ پرمختګ لامل شوی. دا د دې د خبرو اترو په فعالیت کې د پام وړ پرمختګ لامل شوی.
دوی وموندل چې د لوړ کیفیت روزنې ډیټا درلودل د خبرو اترو د ښه فعالیت لپاره خورا مهم دي ، ځکه چې د لنډ ځوابونو سره یو کوچنی ډیټا سیټ ممکن ماډل ته وړتیا ورکړي چې هر قوماندې ته لنډ ځوابونه رامینځته کړي.
تاسو د MultiModal-GPT سره څه کولی شئ؟
په خبرو اترو کې ښکیلتیا
د ژبې ماډلونو په څیر چې مخکې راغلي، د MultiModal-GPT یو له لومړنیو ځانګړتیاوو څخه د طبیعي ژبې په بحثونو کې د ښکیلتیا وړتیا ده. دا پدې معنی ده چې پیرودونکي ممکن د ماډل سره ښکیل وي لکه څنګه چې دوی د ریښتیني سړي سره وي.
د مثال په توګه، MultiModal-GPT کولی شي پیرودونکو ته د نوډل جوړولو لپاره مفصل ترکیب ورکړي یا د ډوډۍ خوړلو لپاره ممکنه رستورانت وړاندیز کړي. ماډل د دې وړتیا هم لري چې د کاروونکو د سفر نیتونو په اړه عمومي پوښتنو ته ځواب ووایی.
د شیانو پیژندنه
ملټي موډل-GPT کولی شي شیان په عکسونو کې وپیژني او د دوی په اړه پوښتنو ته ځواب ووایی. د مثال په توګه، ماډل کولی شي فریډي مرکري په عکس کې وپیژني او د هغه په اړه پوښتنو ته ځواب ووایی.
دا د افرادو شمیر هم کولی شي او تشریح کړي چې دوی په عکس کې څه کوي. د دې څیز پیژندنې ظرفیت په بیلابیلو برخو کې غوښتنلیکونه لري ، پشمول د ای کامرس ، روغتیا پاملرنې ، او امنیت.
ملټي موډل-GPT کولی شي د ډیجیټل عکسونو دننه متن هم پیژني. دا پدې معنی ده چې ماډل کولی شي په عکسونو کې متن ولولي او ګټور معلومات استخراج کړي. دا کیدای شي، د بیلګې په توګه، په انځور کې کرکټرونه کشف کړي او د کتاب لیکوال وپیژني.
لپاره خورا ګټور وسیله ده لاسوند سمبالښتد معلوماتو داخلول، او د منځپانګې تحلیل.
استدلال او د پوهې پیدا کول
ملټي ماډل-GPT کولی شي د نړۍ په اړه پوهه پیدا کړي. دا پدې مانا ده چې دا کولی شي د عکسونو بشپړ توضیحات وړاندې کړي او حتی دوی ته ووایی چې عکس په کوم فصل کې اخیستل شوی.
دا مهارت په مختلفو څانګو کې ګټور دی، پشمول د چاپیریال څارنه، کرهنه، او هواپوهنه. ماډل کولی شي تخلیقي توکي هم رامینځته کړي لکه شعر ، کیسې او سندرې ، دا د تخلیقي کارونو لپاره عالي وسیله جوړوي.
د ملټي موډل-GPT داخلي کارونه
د متحد لارښوونو لپاره کينډۍ
ټیم د یونیموډل ژبی ډیټا او څو موډل لید او ژبې ډیټا د ادغام لپاره یو واحد ټیمپلیټ وړاندې کوي ترڅو د ملټي موډل-GPT ماډل په سمه توګه په همغږي ډول وروزي.
دا ګډه ستراتیژي هڅه کوي چې په مختلفو دندو کې د ماډل فعالیت ته وده ورکړي د دواړو ډیټا موډلیتونو بشپړونکي ظرفیتونو څخه ګټه پورته کړي او د اصلي نظرونو ژور پوهاوی هڅوي.
Dolly 15k او Alpaca GPT4 ډیټاسیټونه د ټیم لخوا کارول کیږي ترڅو د ژبې یوازې لارښوونې - تعقیب وړتیاوې اندازه کړي. دا ډیټاسیټونه د ډیټاسیټ ان پټ جوړښت کولو لپاره د پرامپټ ټیمپلیټ په توګه کار کوي ترڅو د دوامداره لارښوونې تعقیب فارمیټ تضمین کړي.
انځور: د Doly 15k ډیټاسیټ عمومي کتنه
ماډل څنګه کار کوي؟
درې کلیدي برخې د ملټي موډل-GPT ماډل جوړوي: د ژبې کوډ کونکی، د لید بیا سمپلر، او د لید کوډ کوونکی. عکس د لید انکوډر لخوا اخیستل کیږي، چې بیا د ځانګړتیاوو ټولګه رامینځته کوي چې دا ځانګړتیاوي.
د ژبې کوډ کونکی د لید کوډ کونکي څخه معلومات کاروي ترڅو متن رامینځته کړي چې د لید بیا سمپلر په مرسته عکس تشریح کوي.
د ماډل برخه چې ژبه درک کوي او متن تولیدوي د ژبې کوډ کونکی دی. په یوه جمله کې د لاندې کلمې وړاندوینه کولو لپاره، ماډل یوازې د ژبې او لید-پلس د ژبې لارښوونې - لاندې ډیټا په کارولو سره روزل کیږي.
دا ماډل ته درس ورکوي چې څنګه د انسانانو امرونو ته عکس العمل ښکاره کړي او د عکس توضیحاتو لپاره د منلو وړ متن چمتو کوي.
ټیم شاته
ملټي موډل-GPT د مایکروسافټ ریسرچ آسیا څیړونکو او انجینرانو د ټیم لخوا رامینځته شوی چې مشري یې تاو ګونګ ، چینګچي لیو ، او شیلونګ ژینګ کوي. يودونګ وانګ، مياو جينګ، کيان ژاو، کويکون ليو، ون وي ژانګ، پينګ لو او کای چن ټولو د موډل په مطالعه او پرمختګ کې ونډه درلوده.
د طبیعي ژبې پروسس کول کمپیوټر لید، او د ماشین زده کړه د ټیم لپاره د وړتیا ټولې ساحې دي. دوی ډیری مقالې لري چې په لوړ پوړو کنفرانسونو او خپرونو کې خپاره شوي، په بیله بیا د دوی د ساینسي هڅو لپاره مختلف ویاړونه او ستاینلیکونه.
د ټیم څیړنه د عصري ماډلونو او طریقو په پراختیا تمرکز کوي ترڅو د انسانانو او ټیکنالوژۍ تر مینځ ډیر طبیعي او هوښیار تعاملات فعال کړي.
د ملټي موډل-GPT پراختیا په ساحه کې د پام وړ لاسته راوړنه ده ځکه چې دا یو له لومړنیو ماډلونو څخه دی چې لید او ژبه په یو واحد چوکاټ کې د څو اړخیز بحث لپاره یوځای کوي.
د ملټي موډل-GPT څیړنې او پراختیا کې د ټیم ونډې د دې وړتیا لري چې د طبیعي ژبې پروسس کولو او د انسان - ماشین تعاملاتو راتلونکي باندې د پام وړ نفوذ ولري.
د MultiModal-GPT کارولو څرنګوالی
د پیل کونکو لپاره ، د ملټي موډل-GPT وسیله کارول ساده دي. په ساده ډول لاړ شئ https://mmgpt.openmmlab.org.cn/ او د "اپلوډ انځور" تڼۍ فشار کړئ.
د اپلوډ کولو لپاره د عکس فایل غوره کړئ، او بیا د متن په ساحه کې د متن پرامپټ ټایپ کړئ. د ماډل څخه د ځواب رامینځته کولو لپاره ، د "سپارل" تڼۍ کلیک وکړئ ، کوم چې به د متن ساحې لاندې څرګند شي.
تاسو ممکن د مختلف عکسونو او لارښوونو سره تجربه وکړئ ترڅو د ماډل وړتیاو په اړه نور معلومات زده کړئ.
نصبولو
د ملټي موډل-GPT کڅوړه نصبولو لپاره ، د ګیټ هب څخه ذخیره کلون کولو لپاره د ټرمینل کمانډ "ګیټ کلون https://github.com/open-mmlab/Multimodal-GPT.git" وکاروئ. تاسو کولی شئ په ساده ډول دا ګامونه تعقیب کړئ:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
په بدیل سره، کارول conda env create -f environment.yml
د نوي کانډا چاپیریال رامینځته کولو لپاره. تاسو کولی شئ د مخکې روزل شوي وزنونو ډاونلوډ کولو او د چیک پوسټ فولډر کې ذخیره کولو سره د نصب کولو وروسته په ځایی ډول ډیمو پرمخ وړئ.
د ګریډیو ډیمو بیا د "python app.py" کمانډ په چلولو سره پیل کیدی شي.
احتمالي نیمګړتیاوې
د ملټي موډل-GPT ماډل لاهم د دې عالي فعالیت سره سره د پرمختګ لپاره نیمګړتیاوې او خونه لري.
د مثال په توګه، کله چې د پیچلو یا مبهم بصري معلوماتو سره معامله وشي، ماډل ممکن تل د دې توان ونلري چې د ننوتلو شرایط وپیژني او پوه شي. دا ممکن د ماډل څخه ناسم وړاندوینې یا عکس العمل پایله ولري.
برسیره پردې، په ځانګړې توګه کله چې داخل کول پیچلي یا خلاص وي، ماډل ممکن تل غوره عکس العمل یا پایله تولید نکړي. د بېلګې په توګه، د موډل ځواب ښايي د کتاب د پوښ د ناسمې پېژندنې په صورت کې د دوو کتابونو د پوښونو د ورته والي له امله اغېزمن شوی وي.
پایله
په ټولیز ډول، د ملټي موډل-GPT ماډل د طبیعي ژبې پروسس کولو او ماشین زده کړې کې یو لوی ګام وړاندې کوي. او، دا د دې کارولو او تجربه کولو لپاره خورا زړه پورې دی. نو، تاسو باید دا هم هڅه وکړئ!
په هرصورت، دا محدودیتونه لري، لکه څنګه چې ټول ماډلونه کوي، او په مختلفو غوښتنلیکونو او ډومینونو کې د اعظمي فعالیت ترالسه کولو لپاره اضافي اصالحاتو او پراختیا ته اړتیا لري.
یو ځواب ورکړئ ووځي