MultiModal-GPT: ახალი საზღვარი ენისა და ხედვის ინტეგრაციაში

გისურვებდით ოდესმე გესაუბრათ AI-სთან, რომელიც აცნობიერებს როგორც სალაპარაკო, ისე ვიზუალურ მონაცემებს? MultiModal-GPT პარადიგმა აერთიანებს ენის დამუშავებას ვიზუალურ გაგებასთან.

ის გთავაზობთ ადამიანისა და კომპიუტერის ზუსტი და დივერსიფიცირებული ურთიერთქმედების შესაძლებლობას. MultiModal-GPT შეუძლია მიაწოდოს აღწერილობითი წარწერები, დათვალოს ცალკეული ელემენტები და უპასუხოს მომხმარებლის ზოგად კითხვებს.

მაგრამ, როგორ აკეთებს ამას? და რა შეგიძლიათ გააკეთოთ MultiModal-GPT-ით?

მოდი, ეს ამბავი თავიდან ავიღოთ და გავიგოთ, რა შესაძლებლობები გველის.

ენობრივი მოდელების გაჩენით, როგორიცაა GPT-4, ბუნებრივი ენის დამუშავების ტექნოლოგიები რევოლუციის მომსწრეა. ინოვაციები, როგორიცაა ChatGPT, უკვე შევიდა ჩვენს ცხოვრებაში.

და, როგორც ჩანს, ისინი განაგრძობენ მოსვლას!

GPT-4 და მისი შეზღუდვები

GPT-4-მა ადამიანებთან მულტიმოდალური საუბრების საოცარი უნარი აჩვენა. კვლევები ცდილობდნენ ამ შესრულების დუბლირებას, მაგრამ სურათის ნიშნების პოტენციურად დიდი რაოდენობის გამო, ზუსტი ვიზუალური ინფორმაციის მქონე მოდელების ჩათვლით შეიძლება გამოთვლითი ძვირი იყოს.

არსებული მოდელები ასევე არ მოიცავს მათ კვლევაში ენის სწავლების დარეგულირებას, რაც ზღუდავს მათ უნარს მონაწილეობა მიიღონ ნულოვანი კადრების მრავალმხრივ გამოსახულება-ტექსტის საუბრებში.

შენობა ფლამინგოს ჩარჩოზე

შემუშავდა ახალი მოდელი სახელწოდებით MultiModal-GPT, რომელიც საშუალებას მისცემს ადამიანებთან კომუნიკაციას, როგორც ენობრივი, ასევე ვიზუალური ნიშნების გამოყენებით.

დეველოპერებმა გამოიყენეს პროგრამა ე.წ ფლამინგოს ჩარჩო, რომელიც ადრე იყო გაწვრთნილი ტექსტის და ვიზუალის გასაგებად, რათა ეს შესაძლებელი ყოფილიყო.

ფლამინგოს ჩარჩო

ფლამინგოს გარკვეული ცვლილებები სჭირდებოდა, რადგან მას არ შეეძლო გაფართოებული დიალოგი, რომელიც მოიცავდა ტექსტსა და ვიზუალს.

განახლებულ MultiModal-GPT მოდელს შეუძლია შეაგროვოს მონაცემები სურათებიდან და აურიოს ისინი ენას ადამიანის ბრძანებების გასაგებად და შესასრულებლად.

MultiModal-GPT

MultiModal-GPT არის ხელოვნური ინტელექტის მოდელის ტიპი, რომელსაც შეუძლია დაიცვას ადამიანის სხვადასხვა მოთხოვნები, როგორიცაა ვიზუალის აღწერა, ნივთების დათვლა და კითხვებზე პასუხის გაცემა. ის ესმის და მიჰყვება ბრძანებებს ვიზუალური და სიტყვიერი მონაცემების ნაზავის გამოყენებით.

მკვლევარებმა მოამზადეს მოდელი როგორც ვიზუალური, ისე მხოლოდ ენობრივი მონაცემების გამოყენებით, რათა გაზარდონ MultiModal-GPT ადამიანებთან საუბრის უნარი. გარდა ამისა, მან შესამჩნევი გაუმჯობესება გამოიწვია მისი დისკურსის წარმართვისას. ამან ასევე გამოიწვია მისი საუბრის შესრულების შესამჩნევი გაუმჯობესება.

მათ აღმოაჩინეს, რომ მაღალი ხარისხის ტრენინგის მონაცემები გადამწყვეტია კარგი საუბრის შესრულებისთვის, რადგან მცირე მონაცემთა ბაზამ მოკლე პასუხებით შეიძლება მისცეს მოდელს, შექმნას მოკლე პასუხები ნებისმიერ ბრძანებაზე.

რისი გაკეთება შეგიძლიათ MultiModal-GPT-ით?

ჩართვა საუბრებში

წინა ენის მოდელების მსგავსად, MultiModal-GPT-ის ერთ-ერთი მთავარი მახასიათებელია მისი უნარი ჩაერთოს ბუნებრივ ენაზე დისკუსიებში. ეს გულისხმობს იმას, რომ მომხმარებლებს შეუძლიათ მოდელთან ურთიერთობა ისევე, როგორც რეალურ ადამიანთან.

მაგალითად, MultiModal-GPT-ს შეუძლია მომხმარებელს შესთავაზოს ლაფშების დამზადების დეტალური რეცეპტი ან რეკომენდაცია გაუწიოს შესაძლო რესტორნებს გარეთ სადილისთვის. მოდელს ასევე შეუძლია უპასუხოს ზოგად კითხვებს მომხმარებლის მოგზაურობის მიზნების შესახებ.

noodles

ობიექტების ამოცნობა

MultiModal-GPT-ს შეუძლია ამოიცნოს ნივთები ფოტოებში და უპასუხოს მათ შესახებ შეკითხვებს. მაგალითად, მოდელს შეუძლია ფრედი მერკურის ამოცნობა გამოსახულებაში და უპასუხოს მის შესახებ შეკითხვებს.

მას ასევე შეუძლია დათვალოს ინდივიდების რაოდენობა და ახსნას რას აკეთებენ ისინი სურათზე. ობიექტის იდენტიფიკაციის ამ შესაძლებლობას აქვს აპლიკაციები სხვადასხვა სფეროში, მათ შორის ელექტრონული კომერცია, ჯანდაცვა და უსაფრთხოება.

მაგალითი

MultiModal-GPT ასევე შეუძლია ამოიცნოს ტექსტი ციფრულ სურათებში. ეს ნიშნავს, რომ მოდელს შეუძლია წაიკითხოს ტექსტი ფოტოებში და ამოიღოს სასარგებლო მონაცემები. მას შეუძლია, მაგალითად, გამოავლინოს გამოსახულების პერსონაჟები და ამოიცნოს წიგნის ავტორი.

ეს არის ძალიან სასარგებლო ინსტრუმენტი დოკუმენტის მართვა, მონაცემთა შეყვანა და შინაარსის ანალიზი.

gandalf

მსჯელობა და ცოდნის გენერაცია

Multi-modal-GPT-ს შეუძლია მსჯელობა და სამყაროს შესახებ ცოდნის გამომუშავება. ეს ნიშნავს, რომ მას შეუძლია ფოტოების სრული ახსნა-განმარტება და იმის თქმაც კი, თუ რომელ სეზონზეა გადაღებული სურათი.

ეს უნარი სასარგებლოა სხვადასხვა დისციპლინებში, მათ შორის გარემოს მონიტორინგის, სოფლის მეურნეობისა და მეტეოროლოგიის. მოდელს შეუძლია დამატებით შექმნას კრეატიული ნივთები, როგორიცაა პოეზია, ზღაპრები და სიმღერები, რაც მას შესანიშნავ ინსტრუმენტად აქცევს შემოქმედებითი ამოცანებისთვის.

MultiModal-GPT-ის შიდა სამუშაოები

შაბლონი ერთიანი ინსტრუქციებისთვის

გუნდი წარმოგიდგენთ ერთ შაბლონს უნიმოდალური ენობრივი მონაცემებისა და მულტიმოდალური ხედვისა და ენის მონაცემების ინტეგრაციისთვის, რათა სწორად მოამზადოს MultiModal-GPT მოდელი სინერგიული გზით.

ეს კომბინირებული სტრატეგია ცდილობს გააუმჯობესოს მოდელის შესრულება სხვადასხვა ამოცანებში, მონაცემთა ორივე მოდალობის დამატებითი შესაძლებლობების გამოყენებით და ძირითადი იდეების უფრო ღრმა გაგების წახალისებით.

Dolly 15k და Alpaca GPT4 მონაცემთა ნაკრები გამოიყენება გუნდის მიერ, რათა გაზომოს მხოლოდ ენობრივი ინსტრუქციების შესრულების უნარი. ეს მონაცემთა ნაკრები მოქმედებს, როგორც სწრაფი შაბლონი მონაცემთა შეყვანის სტრუქტურირებისთვის, რათა უზრუნველყოს თანმიმდევრული ინსტრუქციის შემდეგ ფორმატი.

Dolly 15k მონაცემთა ნაკრების მიმოხილვა

სურათი: Doly 15k მონაცემთა ნაკრების მიმოხილვა

როგორ მუშაობს მოდელი?

სამი ძირითადი კომპონენტი აყალიბებს MultiModal-GPT მოდელს: ენის დეკოდერი, აღმქმელი resampler და ხედვის შიფრატორი. გამოსახულება მიიღება ხედვის კოდირებით, რომელიც შემდეგ ქმნის მის დამახასიათებელ მახასიათებლებს.

ენის დეკოდერი იყენებს ხედვის ენკოდერის ინფორმაციას, რათა შექმნას ტექსტი, რომელიც აღწერს გამოსახულებას აღმქმელის ხელახალი ნიმუშის დახმარებით.

მოდელის კომპონენტი, რომელიც აცნობიერებს ენას და აწარმოებს ტექსტს, არის ენის დეკოდერი. შემდეგი სიტყვის ფრაზში პროგნოზირებისთვის, მოდელი ივარჯიშება როგორც მხოლოდ ენის, ისე vision-plus ენის ინსტრუქციის შემდეგ მონაცემების გამოყენებით.

ეს ასწავლის მოდელს, თუ როგორ უნდა რეაგირება მოახდინოს ადამიანების ბრძანებებზე და იძლევა მისაღებ ტექსტს სურათების აღწერისთვის.

მოდელი

გუნდი უკან

MultiModal-GPT შეიქმნა Microsoft Research Asia-ის მკვლევართა და ინჟინრების გუნდის მიერ, ტაო გონგის, ჩენჩი ლიუს და შილონგ ჟანგის ხელმძღვანელობით. იუდონგ ვანგმა, მიაო ჟენგმა, ციან ჟაომ, კუიკუნ ლიუმ, ვენვეი ჟანგმა, პინგ ლუომ და კაი ჩენმა წვლილი შეიტანეს მოდელის შესწავლასა და განვითარებაში.

ბუნებრივი ენის დამუშავება, კომპიუტერული ხედვადა მანქანათმცოდნეობა გუნდის კომპეტენციის ყველა სფეროა. მათ აქვთ რამდენიმე სტატია გამოქვეყნებული უმაღლესი დონის კონფერენციებსა და პუბლიკაციებში, ასევე სხვადასხვა ჯილდოები და ჯილდოები მათი სამეცნიერო ძალისხმევისთვის.

გუნდის კვლევა ფოკუსირებულია უახლესი მოდელებისა და მიდგომების შემუშავებაზე, რათა უფრო ბუნებრივი და ინტელექტუალური ურთიერთქმედება იყოს ადამიანებსა და ტექნოლოგიას შორის.

მულტიმოდალური-GPT-ის შემუშავება საყურადღებო მიღწევაა ამ სფეროში, რადგან ეს არის ერთ-ერთი პირველი მოდელი, რომელიც აერთიანებს ხედვასა და ენას ერთ ჩარჩოში მრავალ რაუნდის დისკუსიისთვის.

გუნდის წვლილს MultiModal-GPT კვლევასა და განვითარებაში აქვს პოტენციალი მნიშვნელოვანი გავლენა მოახდინოს ბუნებრივი ენის დამუშავების მომავალზე და ადამიანისა და მანქანის ურთიერთქმედებებზე.

როგორ გამოვიყენოთ MultiModal-GPT

დამწყებთათვის, MultiModal-GPT ინსტრუმენტის გამოყენება მარტივია. უბრალოდ გადადით https://mmgpt.openmmlab.org.cn/ და დააჭირეთ ღილაკს "ატვირთვა სურათი".

აირჩიეთ სურათის ფაილი ასატვირთად და შემდეგ ჩაწერეთ ტექსტის მოთხოვნა ტექსტის ველში. მოდელისგან პასუხის შესაქმნელად დააჭირეთ ღილაკს „გაგზავნა“, რომელიც გამოჩნდება ტექსტის ველის ქვემოთ.

თქვენ შეგიძლიათ ექსპერიმენტი გააკეთოთ სხვადასხვა ფოტოებით და ინსტრუქციებით, რათა გაიგოთ მეტი მოდელის შესაძლებლობების შესახებ.

ინტერფეისი 1

ინსტალაცია

MultiModal-GPT პაკეტის დასაყენებლად გამოიყენეთ ტერმინალის ბრძანება „git clone https://github.com/open-mmlab/Multimodal-GPT.git“ საცავი GitHub-დან კლონირებისთვის. თქვენ შეგიძლიათ უბრალოდ მიჰყვეთ ამ ნაბიჯებს:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

ალტერნატიულად, გამოიყენეთ conda env create -f environment.yml ახალი კონდა გარემოს დასამკვიდრებლად. შეგიძლიათ დემო გაუშვათ ადგილობრივად, ინსტალაციის შემდეგ წინასწარ მომზადებული წონების ჩამოტვირთვით და საგუშაგოების საქაღალდეში შენახვით.

Gradio-ს დემო შეიძლება გაშვებული იყოს ბრძანების „python app.py“ გაშვებით.

პოტენციური ნაკლოვანებები

MultiModal-GPT მოდელს ჯერ კიდევ აქვს ხარვეზები და განვითარების ადგილი, მიუხედავად მისი შესანიშნავი შესრულებისა.

მაგალითად, როდესაც საქმე ეხება რთულ ან ორაზროვან ვიზუალურ შეყვანას, მოდელმა შეიძლება ყოველთვის ვერ შეძლოს შეყვანის კონტექსტის ამოცნობა და გაგება. ამან შეიძლება გამოიწვიოს მოდელის არაზუსტი პროგნოზები ან რეაქციები.

გარდა ამისა, განსაკუთრებით მაშინ, როდესაც შეყვანა რთული ან ღიაა, მოდელი ყოველთვის არ იძლევა საუკეთესო რეაქციას ან შედეგს. მოდელის პასუხზე, მაგალითად, შესაძლოა გავლენა იქონია იმაზე, თუ რამდენად მსგავსი იყო ორი წიგნის ყდა წიგნის ყდის არასწორი იდენტიფიკაციის შემთხვევაში.

დასკვნა

მთლიანობაში, MultiModal-GPT მოდელი წარმოადგენს დიდ წინსვლას ბუნებრივი ენის დამუშავებასა და მანქანათმცოდნეობაში. და, ძალიან საინტერესოა მისი გამოყენება და ექსპერიმენტი. ასე რომ, თქვენც უნდა სცადოთ!

თუმცა, მას აქვს შეზღუდვები, ისევე როგორც ყველა მოდელს, და საჭიროებს დამატებით დახვეწას და გაუმჯობესებას, რათა მიიღოთ მაქსიმალური შესრულება სხვადასხვა აპლიკაციებსა და დომენებში.