MultiModal-GPT: Нова граница во интеграцијата на јазикот и визијата

Дали некогаш сте посакале да разговарате со вештачка интелигенција која ги разбира и говорните и визуелните податоци? Парадигмата MultiModal-GPT комбинира јазична обработка со визуелно разбирање.

Тој нуди можност за точна и разновидна интеракција човек-компјутер. MultiModal-GPT може да обезбеди описни натписи, да брои поединечни ставки и да одговори на општите кориснички прашања.

Но, како го прави тоа? И, што можете да направите со MultiModal-GPT?

Да ја однесеме приказната на почеток и да ги разбереме можностите пред нас.

Со појавата на јазични модели како GPT-4, технологиите за обработка на природни јазици сведочат за револуција. Иновациите како ChatGPT веќе се вградени во нашите животи.

И, се чини дека продолжуваат да доаѓаат!

GPT-4 и неговите ограничувања

GPT-4 покажа неверојатно владеење во мултимодални разговори со луѓе. Студиите направија напор да ја дуплираат оваа изведба, но поради потенцијално големиот број на токени за слика, вклучувајќи модели со прецизни визуелни информации може да бидат пресметковно скапи.

Постојните модели, исто така, не вклучуваат подесување на наставата за јазик во нивната студија, што ја ограничува нивната способност да учествуваат во разговори со повеќекратни снимки со слика-текст.

Градење врз рамка за Фламинго

Нов модел наречен MultiModal-GPT беше развиен за да овозможи комуникација со луѓе користејќи јазични и визуелни знаци.

Програмерите користеа програма наречена Рамка за фламинго, кој претходно беше обучен да ги разбира и текстот и визуелните слики, за да го направи ова остварливо.

Фламинго рамка

Сепак, на Фламинго му беа потребни некои промени, бидејќи не можеше да има проширени дијалози кои вклучуваат текст и визуелни слики.

Ажурираниот MultiModal-GPT модел може да собира податоци од слики и да ги меша со јазикот за да ги разбере и изврши човечките команди.

MultiModal-GPT

MultiModal-GPT е тип на ВИ модел кој може да следи различни човечки прашања како што се опишување визуелни слики, броење ставки и одговарање на прашања. Ги разбира и ги следи наредбите користејќи мешавина од визуелни и вербални податоци.

Истражувачите го обучија моделот користејќи визуелни и јазични податоци за да го зголемат капацитетот на MultiModal-GPT да разговара со луѓето. Дополнително, тоа предизвика забележително подобрување во начинот на изведување на неговиот дискурс. Тоа, исто така, резултираше со забележително подобрување во перформансите на разговорот.

Тие открија дека поседувањето висококвалитетни податоци за обука е критично за добри перформанси на разговорот, бидејќи малата база на податоци со кратки одговори може да му овозможи на моделот да создаде пократки одговори на која било команда.

Што можете да направите со MultiModal-GPT?

Вклучување во разговори

Како и јазичните модели што се појавија претходно, една од примарните карактеристики на MultiModal-GPT е нејзиниот капацитет да се вклучи во дискусии за природен јазик. Ова имплицира дека потрошувачите можат да се вклучат со моделот исто како што би се вклучиле со вистинска личност.

На пример, MultiModal-GPT може да им даде на клиентите детален рецепт за правење тестенини или да препорача можни ресторани за вечера. Моделот исто така е способен да одговори на генерички прашања за намерите за патување на корисниците.

Тестенини

Препознавање на предмети

MultiModal-GPT може да препознае нешта на фотографиите и да одговори на прашањата за нив. На пример, моделот може да го препознае Фреди Меркјури на слика и да одговори на прашањата за него.

Исто така, може да го брои бројот на поединци и да објасни што прават на сликата. Овој капацитет за идентификација на објекти има апликации во различни области, вклучувајќи е-трговија, здравствена заштита и безбедност.

пример

MultiModal-GPT исто така може да препознае текст во дигиталните слики. Ова значи дека моделот може да го чита текстот на фотографиите и да извлече корисни податоци. Може, на пример, да ги открие ликовите на сликата и да го идентификува авторот на книгата.

Тоа е исклучително корисна алатка за управување со документи, внесување податоци и анализа на содржината.

Гандалф

Расудување и генерирање на знаење

Мулти-модалниот-GPT може да расудува и да произведе знаење за светот. Ова значи дека може да обезбеди целосни објаснувања за фотографиите, па дури и да им каже во која сезона е направена сликата.

Оваа вештина е корисна во различни дисциплини, вклучувајќи мониторинг на животната средина, земјоделството и метеорологијата. Моделот може дополнително да генерира креативни работи како поезија, приказни и песни, што го прави одлична алатка за креативни задачи.

Внатрешна работа на MultiModal-GPT

Шаблон за унифицирани инструкции

Тимот претставува единствен образец за интеграција на унимодални лингвистички податоци и мултимодални податоци за видот и јазикот за правилно обучување на моделот MultiModal-GPT на синергетски начин.

Оваа комбинирана стратегија се обидува да ги подобри перформансите на моделот во различни задачи преку искористување на комплементарните способности на двата модалитети на податоци и поттикнувајќи подлабоко разбирање на основните идеи.

Тимот ги користи збирките на податоци Dolly 15k и Alpaca GPT4 за мерење на способностите за следење на наставата само за јазикот. Овие збирки на податоци делуваат како брз образец за структурирање на внесот на податоци за да се гарантира конзистентен формат според инструкциите.

Преглед на збир на податоци Dolly 15k

Слика: Преглед на базата на податоци Doly 15k

Како работи моделот?

Три клучни компоненти го сочинуваат моделот MultiModal-GPT: јазичен декодер, пресемплер на перцептор и шифрирач на видот. Сликата ја зема шифрерот за вид, кој потоа генерира збирка карактеристики што ја карактеризираат.

Јазичниот декодер ги користи информациите од шифрирањето на видот за да создаде текст што ја опишува сликата со помош на пресемплерот на перцепторот.

Компонентата на моделот што го разбира јазикот и го произведува текстот е јазичниот декодер. За да се предвиди следниов збор во фраза, моделот се тренира со користење на податоци само за јазик и визија плус јазични инструкции.

Ова го учи моделот како да реагира на командите од луѓето и обезбедува прифатлив текст за опис на слики.

модел

Тим зад

MultiModal-GPT беше создаден од тим истражувачи и инженери на Microsoft Research Asia, предводени од Тао Гонг, Ченгки Љу и Шилонг Џанг. Јудонг Ванг, Миао Женг, Киан Жао, Куикун Лиу, Венвеи Жанг, Пинг Луо и Каи Чен сите придонеле за проучувањето и развојот на моделот.

Обработка на природен јазик, компјутерска визија, и машинското учење се сите области на компетентност за тимот. Тие имаат неколку статии објавени на конференции и публикации од највисоко ниво, како и разни почести и признанија за нивните научни напори.

Истражувањето на тимот се фокусира на развојот на најсовремени модели и пристапи за да се овозможат поприродни и интелигентни интеракции помеѓу луѓето и технологијата.

Развојот на мулти-модалниот-GPT е забележливо достигнување во оваа област бидејќи е еден од првите модели што ги комбинира визијата и јазикот во една рамка за повеќекружни дискусии.

Придонесите на тимот во истражувањето и развојот на MultiModal-GPT имаат потенцијал да имаат значително влијание врз иднината на обработката на природниот јазик и интеракциите човек-машина.

Како да се користи MultiModal-GPT

За почетници, користењето на алатката MultiModal-GPT е едноставно. Едноставно одете на https://mmgpt.openmmlab.org.cn/ и притиснете го копчето „Постави слика“.

Изберете ја датотеката со слика што ќе ја поставите, а потоа напишете го текстуалното барање во полето за текст. За да креирате одговор од моделот, кликнете на копчето „Поднеси“, кое ќе се појави под полето за текст.

Може да експериментирате со различни фотографии и упатства за да дознаете повеќе за можностите на моделот.

Интерфејс 1

инсталирање

За да го инсталирате пакетот MultiModal-GPT, користете ја терминалната команда „git clone https://github.com/open-mmlab/Multimodal-GPT.git“ за да го клонирате складиштето од GitHub. Можете едноставно да ги следите овие чекори:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Алтернативно, користете conda env create -f environment.yml да се воспостави нова конда средина. Демото може да го извршите локално откако ќе го инсталирате со преземање на претходно обучените тежини и складирање во папката контролни точки.

Демото на Gradio потоа може да се стартува со извршување на командата „python app.py“.

Потенцијални недостатоци

Моделот MultiModal-GPT сè уште има недостатоци и простор за развој и покрај одличните перформанси.

На пример, кога се работи со комплицирани или двосмислени визуелни влезови, моделот не секогаш може да го препознае и разбере контекстот на влезот. Ова може да резултира со неточни предвидувања или реакции од моделот.

Дополнително, особено кога влезот е комплициран или отворен, моделот не секогаш може да ја произведе најдобрата реакција или резултат. Одговорот на моделот, на пример, можеби бил под влијание на тоа колку слично изгледале кориците на двете книги во случај на погрешна идентификација на корица од книга.

Заклучок

Генерално, моделот MultiModal-GPT претставува голем чекор напред во обработката на природните јазици и машинското учење. И, многу е возбудливо да го користите и да експериментирате со него. Значи, треба да го пробате или!

Сепак, тој има граници, како и сите модели, и бара дополнително рафинирање и подобрување за да се добијат максимални перформанси во различни апликации и домени.