MultiModal-GPT: новий рубіж в інтеграції мови та бачення

Чи хотіли ви коли-небудь спілкуватися зі штучним інтелектом, який охоплює як усну, так і візуальну інформацію? Парадигма MultiModal-GPT поєднує мовну обробку з візуальним розумінням.

Він пропонує можливість точної та різноманітної взаємодії людини з комп’ютером. MultiModal-GPT може надавати описові підписи, рахувати окремі елементи та відповідати на загальні запитання користувачів.

Але як це робиться? І що ви можете зробити з MultiModal-GPT?

Давайте розповімо історію про початок і зрозуміємо можливості, які відкриваються перед нами.

З появою таких мовних моделей, як GPT-4, технології обробки природної мови стають свідками революції. Такі інновації, як ChatGPT, уже увійшли в наше життя.

І, здається, вони продовжують приходити!

GPT-4 та його обмеження

GPT-4 продемонстрував дивовижну майстерність мультимодальних розмов з людьми. Дослідження доклали зусиль, щоб дублювати цю продуктивність, але через потенційно велику кількість токенів зображень, включаючи моделі з точною візуальною інформацією, можуть бути дорогими в обчислювальному плані.

Існуючі моделі також не включають налаштування мовних інструкцій у своє дослідження, що обмежує їхню здатність брати участь у багатоповоротних бесідах із зображенням і текстом.

Розробка на основі Flamingo Framework

Нова модель під назвою MultiModal-GPT була розроблена для забезпечення спілкування з людьми за допомогою як лінгвістичних, так і візуальних сигналів.

Розробники використовували програму під назвою the рамка фламінго, який був попередньо навчений розуміти як текст, так і зображення, щоб зробити це можливим.

Flamingo Framework

Flamingo потребував деяких змін, однак, оскільки він не міг мати розширені діалоги, які включали текст і візуальні елементи.

Оновлена модель MultiModal-GPT може збирати дані з зображень і поєднувати їх із мовою, щоб розуміти та виконувати команди людини.

MultiModal-GPT

MultiModal-GPT — це тип моделі штучного інтелекту, яка може стежити за різними запитами людини, наприклад, описувати візуальні елементи, підраховувати предмети та відповідати на запитання. Він розуміє та виконує накази, використовуючи суміш візуальних і вербальних даних.

Дослідники навчили модель, використовуючи як візуальні, так і мовні дані, щоб збільшити здатність MultiModal-GPT спілкуватися з людьми. Крім того, це призвело до помітного покращення способу виконання його дискурсу. Це також призвело до помітного покращення продуктивності розмови.

Вони виявили, що наявність високоякісних навчальних даних має вирішальне значення для хорошої продуктивності розмови, оскільки невеликий набір даних із короткими відповідями може дозволити моделі створювати коротші відповіді на будь-яку команду.

Що ви можете зробити з MultiModal-GPT?

Участь у бесідах

Як і попередні мовні моделі, однією з головних характеристик MultiModal-GPT є його здатність брати участь у обговоренні природною мовою. Це означає, що споживачі можуть взаємодіяти з моделлю так само, як із реальною людиною.

Наприклад, MultiModal-GPT може надати клієнтам детальний рецепт приготування локшини або порекомендувати можливі ресторани, де можна пообідати. Модель також здатна відповідати на загальні запитання про наміри користувачів щодо подорожей.

локшина

Розпізнавання об'єктів

MultiModal-GPT може розпізнавати речі на фотографіях і відповідати на запити про них. Наприклад, модель може впізнавати Фредді Мерк'юрі на зображенні та відповідати на запитання про нього.

Він також може підрахувати кількість людей і пояснити, що вони роблять на зображенні. Ця здатність ідентифікації об’єктів має застосування в різних сферах, включаючи електронну комерцію, охорону здоров’я та безпеку.

Приклад

MultiModal-GPT також може розпізнавати текст у цифрових зображеннях. Це означає, що модель може читати текст на фотографіях і отримувати корисні дані. Він може, наприклад, виявити персонажів на зображенні та ідентифікувати автора книги.

Це надзвичайно корисний інструмент для управління документами, введення даних та аналіз контенту.

Гендальф

Міркування та генерація знань

Мультимодальний GPT може міркувати та створювати знання про світ. Це означає, що він може надати повне пояснення фотографій і навіть повідомити їм, у який сезон було зроблено зображення.

Ця навичка корисна в різних дисциплінах, включаючи екологічний моніторинг, сільське господарство та метеорологію. Модель може додатково створювати творчі речі, такі як вірші, казки та пісні, що робить її чудовим інструментом для творчих завдань.

Внутрішня робота MultiModal-GPT

Шаблон для уніфікованих інструкцій

Команда представляє єдиний шаблон для інтеграції унімодальних лінгвістичних даних і мультимодальних даних про бачення та мову для правильного навчання моделі MultiModal-GPT у синергічний спосіб.

Ця об’єднана стратегія намагається покращити продуктивність моделі для різноманітних завдань, використовуючи додаткові можливості обох модальностей даних і заохочуючи глибше розуміння основних ідей.

Набори даних Dolly 15k і Alpaca GPT4 використовуються командою для вимірювання здатності виконувати інструкції лише мовою. Ці набори даних діють як шаблон підказок для структурування вхідних даних, щоб гарантувати послідовний формат виконання інструкцій.

Огляд набору даних Dolly 15k

Зображення: огляд набору даних Doly 15k

Як працює модель?

Три ключові компоненти складають модель MultiModal-GPT: мовний декодер, сприймаючий ресемплер і візуальний кодер. Зображення приймається візуальним кодувальником, який потім генерує набір характеристик, які його характеризують.

Мовний декодер використовує інформацію з візуального кодера для створення тексту, який описує зображення за допомогою ресемплера сприймача.

Компонент моделі, який осягає мову та створює текст, є мовним декодером. Щоб передбачити наступне слово у фразі, модель навчається з використанням даних лише для мови та даних для мовних інструкцій vision plus.

Це вчить модель реагувати на команди від людей і надає прийнятний текст для опису зображень.

Model

Команда позаду

MultiModal-GPT була створена командою дослідників та інженерів Microsoft Research Asia під керівництвом Тао Гонга, Ченгкі Лю та Шилонга Чжана. Юдун Ван, Мяо Чжен, Цянь Чжао, Куйкунь Лю, Венвей Чжан, Пін Луо та Кай Чен зробили внесок у вивчення та розробку моделі.

Обробка природної мови, комп'ютерне бачення, і машинне навчання – усі сфери компетенції команди. Вони мають кілька статей, опублікованих на конференціях і публікаціях найвищого рівня, а також різні відзнаки та подяки за свої наукові зусилля.

Дослідження команди зосереджені на розробці передових моделей і підходів для більш природної та розумної взаємодії між людьми та технологіями.

Розробка мультимодального GPT є значним досягненням у цій галузі, оскільки це одна з перших моделей, яка поєднує бачення та мову в одній структурі для багатораундового обговорення.

Внесок команди в дослідження та розробку MultiModal-GPT може мати суттєвий вплив на майбутнє обробки природної мови та взаємодії людини та машини.

Як використовувати MultiModal-GPT

Початківцям користуватися інструментом MultiModal-GPT дуже просто. Просто перейдіть до https://mmgpt.openmmlab.org.cn/ і натисніть кнопку «Завантажити зображення».

Виберіть файл зображення для завантаження, а потім введіть текст у текстове поле. Щоб створити відповідь від моделі, натисніть кнопку «Надіслати», яка з’явиться під текстовим полем.

Ви можете експериментувати з різними фотографіями та інструкціями, щоб дізнатися більше про можливості моделі.

Interface 1

Установка

Щоб установити пакет MultiModal-GPT, скористайтеся командою терміналу «git clone https://github.com/open-mmlab/Multimodal-GPT.git», щоб клонувати репозиторій із GitHub. Ви можете просто виконати такі дії:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Як варіант, використовуйте conda env create -f environment.yml щоб створити нове середовище conda. Ви можете запустити демонстрацію локально після її встановлення, завантаживши попередньо підготовлені ваги та зберігши їх у папці контрольних точок.

Демоверсію Gradio можна запустити за допомогою команди «python app.py».

Потенційні недоліки

Модель MultiModal-GPT все ще має недоліки та можливості для розвитку, незважаючи на її відмінну продуктивність.

Наприклад, маючи справу зі складними або неоднозначними візуальними вхідними даними, модель не завжди зможе розпізнати та зрозуміти контекст вхідних даних. Це може призвести до неточних прогнозів або реакції моделі.

Крім того, особливо коли вхідні дані є складними або відкритими, модель не завжди може дати найкращу реакцію чи результат. На відповідь моделі, наприклад, могло вплинути те, наскільки схожими виглядали обкладинки двох книг у разі неправильної ідентифікації обкладинки книги.

Висновок

Загалом, модель MultiModal-GPT являє собою великий крок вперед у обробці природної мови та машинному навчанні. І це дуже цікаво використовувати та експериментувати з ним. Отже, ви теж повинні спробувати!

Однак він має обмеження, як і всі моделі, і потребує додаткового вдосконалення та вдосконалення для досягнення максимальної продуктивності в різноманітних програмах і областях.