MultiModal-GPT: Нова граница в интеграцията на езика и визията

Искали ли сте някога да можете да разговаряте с AI, който разбира както устни, така и визуални данни? Парадигмата MultiModal-GPT съчетава езикова обработка с визуално разбиране.

Предлага възможност за точно и разнообразно взаимодействие човек-компютър. Мултимодален-GPT може да предоставя описателни надписи, да брои отделни елементи и да отговаря на общи потребителски въпроси.

Но как става това? И какво можете да направите с MultiModal-GPT?

Нека отведем историята в началото и да разберем възможностите пред нас.

С появата на езикови модели като GPT-4 технологиите за обработка на естествен език стават свидетели на революция. Иновации като ChatGPT вече са включени в живота ни.

И изглежда, че продължават да идват!

GPT-4 и неговите ограничения

GPT-4 показа невероятно умение в мултимодални разговори с хора. Проучванията са положили усилия да дублират тази производителност, но поради потенциално големия брой жетони за изображения, включително модели с точна визуална информация, може да бъде скъпо от изчислителна гледна точка.

Съществуващите модели също така не включват настройка на езиковите инструкции в своето проучване, което ограничава способността им да участват в разговори с нулев изстрел с много обороти на изображение и текст.

Надграждане върху рамката на Flamingo

Нов модел, наречен MultiModal-GPT, е разработен, за да позволи комуникация с хора, използвайки както езикови, така и визуални сигнали.

Разработчиците са използвали програма, наречена Фламинго рамка, който преди това е бил обучен да разбира както текст, така и визуални елементи, за да направи това осъществимо.

Фламинго рамка

Flamingo обаче се нуждаеше от някои промени, тъй като не можеше да има разширени диалози, които включват текст и визуализации.

Актуализираният модел MultiModal-GPT може да събира данни от снимки и да ги смесва с език, за да разбере и изпълни човешки команди.

Мултимодален-GPT

MultiModal-GPT е вид AI модел, който може да следва различни човешки запитвания, като например описване на визуални елементи, броене на елементи и отговаряне на въпроси. Той разбира и следва заповеди, използвайки комбинация от визуални и вербални данни.

Изследователите обучиха модела, използвайки визуални и само езикови данни, за да увеличат капацитета на MultiModal-GPT да разговаря с хората. Освен това, това доведе до забележимо подобрение в начина, по който бе изпълнен неговият дискурс. Това също доведе до забележимо подобрение в ефективността на разговора.

Те откриха, че наличието на висококачествени данни за обучение е от решаващо значение за доброто представяне на разговора, тъй като малък набор от данни с кратки отговори може да позволи на модела да създаде по-кратки отговори на всяка команда.

Какво можете да направите с MultiModal-GPT?

Ангажиране в разговори

Подобно на езиковите модели, които се появиха преди, една от основните характеристики на MultiModal-GPT е способността му да участва в дискусии на естествен език. Това означава, че потребителите могат да се ангажират с модела точно както биха направили с истински човек.

Например, MultiModal-GPT може да даде на клиентите подробна рецепта за приготвяне на юфка или да препоръча възможни ресторанти за хранене навън. Моделът също така може да отговаря на общи въпроси относно намеренията на потребителите за пътуване.

юфка

Разпознаване на обекти

MultiModal-GPT може да разпознава неща в снимки и да отговаря на запитвания за тях. Например, моделът може да разпознае Фреди Меркюри в изображение и да отговори на запитвания за него.

Може също така да преброи броя на индивидите и да обясни какво правят на снимката. Този капацитет за идентификация на обект има приложения в различни области, включително електронна търговия, здравеопазване и сигурност.

Пример

MultiModal-GPT може също да разпознава текст в цифрови снимки. Това означава, че моделът може да чете текста в снимките и да извлича полезни данни. Може например да открие героите в изображение и да идентифицира автора на книга.

Това е изключително полезен инструмент за управление на документи, въвеждане на данни и анализ на съдържанието.

Гандалф

Разсъждение и генериране на знания

Мултимодалният GPT може да разсъждава и да създава знания за света. Това означава, че може да предостави пълни обяснения на снимките и дори да им каже в кой сезон е направено изображението.

Това умение е полезно в различни дисциплини, включително мониторинг на околната среда, селско стопанство и метеорология. Моделът може допълнително да генерира творчески неща като поезия, приказки и песни, което го прави отличен инструмент за творчески задачи.

Вътрешна работа на MultiModal-GPT

Шаблон за унифицирани инструкции

Екипът представя един шаблон за интегриране на унимодални лингвистични данни и мултимодални данни за визия и език за правилно обучение на модела MultiModal-GPT по синергичен начин.

Тази комбинирана стратегия се опитва да подобри производителността на модела при различни задачи чрез използване на допълващите се възможности на двата модалности на данни и насърчаване на по-задълбочено разбиране на основните идеи.

Наборите от данни Dolly 15k и Alpaca GPT4 се използват от екипа за измерване на способностите за следване на инструкции само на език. Тези набори от данни действат като шаблон за подкана за структуриране на въвеждане на набор от данни, за да се гарантира последователен формат, следващ инструкциите.

Общ преглед на набора от данни Dolly 15k

Изображение: Преглед на набора от данни Doly 15k

Как работи моделът?

Три ключови компонента съставляват модела MultiModal-GPT: езиков декодер, ресемплер за възприемане и визуален енкодер. Изображението се приема от визуалния енкодер, който след това генерира набор от характеристики, които го характеризират.

Езиковият декодер използва информацията от визуалния енкодер, за да създаде текст, който описва изображението с помощта на ресемплера на възприемащия.

Компонентът на модела, който разбира езика и произвежда текста, е езиковият декодер. За да предскаже следващата дума във фраза, моделът се обучава, като използва данни както само за език, така и за визуализация плюс езикови инструкции, следващи данни.

Това учи модела как да реагира на команди от хора и осигурява приемливия текст за описания на картини.

Модел

Екип отзад

MultiModal-GPT е създаден от екип от изследователи и инженери на Microsoft Research Asia, ръководени от Tao Gong, Chengqi Lyu и Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo и Kai Chen допринесоха за проучването и развитието на модела.

Обработка на естествен език, компютърно зрениеи машинното обучение са области на компетентност на екипа. Те имат няколко статии, публикувани в конференции и публикации от най-високо ниво, както и различни отличия и признания за техните научни усилия.

Изследванията на екипа се фокусират върху разработването на авангардни модели и подходи, които да позволят по-естествени и интелигентни взаимодействия между хората и технологиите.

Мултимодална GPT разработка е забележително постижение в областта, тъй като е един от първите модели, които комбинират визия и език в една рамка за дискусия в много кръгове.

Приносът на екипа към изследванията и развитието на MultiModal-GPT има потенциала да окаже значително влияние върху бъдещето на обработката на естествен език и взаимодействията човек-машина.

Как да използвате MultiModal-GPT

За начинаещи използването на инструмента MultiModal-GPT е лесно. Просто отидете на https://mmgpt.openmmlab.org.cn/ и натиснете бутона „Качване на изображение“.

Изберете файла с картина за качване и след това въведете текстовата подкана в текстовото поле. За да създадете отговор от модела, щракнете върху бутона „Изпращане“, който ще се появи под текстовото поле.

Можете да експериментирате с различни снимки и инструкции, за да научите повече за възможностите на модела.

Интерфейс 1

Инсталиране

За да инсталирате пакета MultiModal-GPT, използвайте командата на терминала „git clone https://github.com/open-mmlab/Multimodal-GPT.git“, за да клонирате хранилището от GitHub. Можете просто да следвате тези стъпки:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Като алтернатива използвайте conda env create -f environment.yml за създаване на нова conda среда. Можете да стартирате демонстрацията локално, след като я инсталирате, като изтеглите предварително обучените тежести и ги съхраните в папката с контролни точки.

След това демонстрацията на Gradio може да бъде стартирана чрез изпълнение на командата „python app.py“.

Потенциални недостатъци

Моделът MultiModal-GPT все още има недостатъци и място за развитие, въпреки отличното си представяне.

Например, когато се работи със сложни или двусмислени визуални входове, моделът може не винаги да е в състояние да разпознае и разбере контекста на входа. Това може да доведе до неточни прогнози или реакции от модела.

Освен това, особено когато входът е сложен или отворен, моделът може не винаги да доведе до най-добрата реакция или резултат. Отговорът на модела, например, може да е бил повлиян от това колко сходни са кориците на двете книги в случай на неправилна идентификация на корицата на книга.

Заключение

Като цяло моделът MultiModal-GPT представлява голяма крачка напред в обработката на естествен език и машинното обучение. И е много вълнуващо да го използвате и да експериментирате с него. Така че и вие трябва да опитате!

Той обаче има ограничения, както и всички модели, и изисква допълнително усъвършенстване и подобряване, за да се постигне максимална производителност в различни приложения и домейни.