МултиМодал-ГПТ: Нова граница у интеграцији језика и визије

Да ли сте икада пожелели да можете да разговарате са вештачком интелигенцијом која разуме и говорне и визуелне податке? МултиМодал-ГПТ парадигма комбинује обраду језика са визуелним разумевањем.

Нуди могућност прецизне и разноврсне интеракције између човека и рачунара. МултиМодал-ГПТ може да пружи описне натписе, преброји појединачне ставке и одговори на општа питања корисника.

Али, како то ради? И, шта можете да урадите са МултиМодал-ГПТ?

Хајде да поведемо причу на почетак и схватимо могућности које су пред нама.

Са појавом језичких модела као што је ГПТ-4, технологије обраде природног језика су сведоци револуције. Иновације као што је ЦхатГПТ већ су уграђене у наше животе.

И, изгледа да и даље долазе!

ГПТ-4 и његова ограничења

ГПТ-4 је показао невероватну вештину у мултимодалним разговорима са људима. Студије су уложиле напор да дуплирају ову изведбу, али због потенцијално великог броја сликовних токена, укључујући моделе са прецизним визуелним информацијама, могу бити рачунски скупи.

Постојећи модели такође не укључују подешавање језичких инструкција у својој студији, што ограничава њихову способност да учествују у разговорима слика-текст са више окрета.

Надоградња на оквир Фламинго

Нови модел под називом МултиМодал-ГПТ је развијен да омогући комуникацију са људима користећи и лингвистичке и визуелне знакове.

Програмери су користили програм под називом Фламинго оквир, који је претходно био обучен да разуме и текст и визуелне елементе, како би то учинио изводљивим.

Фламинго Фрамеворк

Међутим, Фламингу су биле потребне неке промене, јер није могао да има проширене дијалоге који укључују текст и визуелне елементе.

Ажурирани МултиМодал-ГПТ модел може прикупљати податке са слика и мешати их са језиком да би разумео и извршио људске команде.

МултиМодал-ГПТ

МултиМодал-ГПТ је тип АИ модела који може да прати различите људске упите као што су описивање визуелних приказа, бројање предмета и одговарање на питања. Разуме и прати наређења користећи мешавину визуелних и вербалних података.

Истраживачи су обучили модел користећи визуелне податке и податке само из језика како би повећали капацитет МултиМодал-ГПТ-а да разговара са људима. Поред тога, то је изазвало приметно побољшање у начину на који је његов дискурс изведен. То је такође резултирало приметним побољшањем перформанси разговора.

Открили су да је висококвалитетни подаци о обуци критични за добар учинак разговора, јер мали скуп података са кратким одговорима може омогућити моделу да креира краће одговоре на било коју команду.

Шта можете да урадите са МултиМодал-ГПТ?

Укључивање у разговоре

Као и претходни језички модели, једна од примарних карактеристика МултиМодал-ГПТ-а је његова способност да се укључи у дискусије о природном језику. Ово имплицира да се потрошачи могу бавити моделом баш као што би радили са стварном особом.

На пример, МултиМодал-ГПТ може клијентима дати детаљан рецепт за прављење резанаца или препоручити могуће ресторане за вечеру. Модел је такође способан да одговори на општа питања о намерама корисника за путовање.

Нудле

Препознавање објеката

МултиМодал-ГПТ може препознати ствари на фотографијама и одговорити на упите о њима. На пример, модел може да препозна Фредија Меркјурија на слици и одговори на питања о њему.

Такође може да изброји број појединаца и објасни шта раде на слици. Овај капацитет идентификације објеката има примену у разним областима, укључујући е-трговину, здравствену заштиту и безбедност.

Пример

МултиМодал-ГПТ такође може препознати текст унутар дигиталних слика. То значи да модел може читати текст на фотографијама и извлачити корисне податке. Може, на пример, да открије ликове на слици и идентификује аутора књиге.

То је изузетно користан алат за управљање документима, унос података и анализа садржаја.

гандалф

Расуђивање и генерисање знања

Мултимодални ГПТ може закључити и произвести знање о свету. То значи да може да пружи потпуна објашњења фотографија, па чак и да им каже у ком годишњем добу је слика снимљена.

Ова вештина је корисна у разним дисциплинама, укључујући праћење животне средине, пољопривреду и метеорологију. Модел може додатно да генерише креативне ствари као што су поезија, приче и песме, што га чини одличним алатом за креативне задатке.

Унутрашњи рад МултиМодал-ГПТ

Шаблон за обједињена упутства

Тим представља један шаблон за интеграцију унимодалних лингвистичких података и мултимодалних података о визији и језику како би се правилно обучио МултиМодал-ГПТ модел на синергистички начин.

Ова комбинована стратегија покушава да побољша перформансе модела у различитим задацима тако што ће искоришћавати комплементарне могућности оба модалитета података и подстицати дубље разумевање основних идеја.

Скупове података Долли 15к и Алпаца ГПТ4 тим користи за мерење способности праћења инструкција само на језику. Ови скупови података делују као брзи шаблон за структурирање уноса скупа података како би се гарантовао конзистентан формат праћења инструкција.

Преглед скупа података Долли 15к

Слика: Преглед скупа података Доли 15к

Како модел функционише?

Три кључне компоненте чине МултиМодал-ГПТ модел: декодер језика, ресамплер перцептора и енкодер вида. Слика се преузима помоћу енкодера вида, који затим генерише колекцију карактеристика које је карактеришу.

Декодер језика користи информације из енкодера вида за креирање текста који описује слику уз помоћ ресамплер-а за перцепцију.

Компонента модела која разуме језик и производи текст је језички декодер. Да би се предвидела следећа реч у фрази, модел се обучава користећи податке само за језик и за визију плус језичке инструкције које прате податке.

Ово учи модел како да реагује на команде од људи и обезбеђује прихватљив текст за описе слика.

модел

Тим иза

МултиМодал-ГПТ је креирао тим истраживача и инжењера компаније Мицрософт Ресеарцх Асиа предвођени Тао Гонгом, Цхенгки Лиуом и Схилонг Зхангом. Иудонг Ванг, Миао Зхенг, Киан Зхао, Куикун Лиу, Венвеи Зханг, Пинг Луо и Каи Цхен су сви допринели проучавању и развоју модела.

Обрада природног језика, рачунарски вид, а машинско учење су све области надлежности тима. Имају неколико чланака објављених на врхунским конференцијама и публикацијама, као и разне почасти и признања за своје научне напоре.

Истраживање тима се фокусира на развој најсавременијих модела и приступа како би се омогућиле природније и интелигентније интеракције између људи и технологије.

Развој мултимодалног ГПТ-а је значајно достигнуће у овој области јер је то један од првих модела који комбинује визију и језик у једном оквиру за дискусију у више кругова.

Доприноси тима МултиМодал-ГПТ истраживању и развоју имају потенцијал да имају значајан утицај на будућност обраде природног језика и интеракције човека и машине.

Како користити МултиМодал-ГПТ

За почетнике, коришћење алата МултиМодал-ГПТ је једноставно. Једноставно идите на https://mmgpt.openmmlab.org.cn/ и притисните дугме „Отпреми слику“.

Изаберите датотеку слике коју желите да отпремите, а затим унесите текстуални упит у поље за текст. Да бисте креирали одговор из модела, кликните на дугме „Пошаљи“, које ће се појавити испод текстуалног поља.

Можете експериментисати са различитим фотографијама и упутствима да бисте сазнали више о могућностима модела.

Интерфејс 1

Инсталирање

Да бисте инсталирали МултиМодал-ГПТ пакет, користите наредбу терминала „гит цлоне хттпс://гитхуб.цом/опен-ммлаб/Мултимодал-ГПТ.гит“ да бисте клонирали спремиште са ГитХуб-а. Можете једноставно пратити ове кораке:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Алтернативно, користите conda env create -f environment.yml да се успостави ново конда окружење. Можете покренути демо локално након што га инсталирате преузимањем унапред обучених тегова и чувањем их у фасцикли контролних тачака.

Градио демо се тада може покренути покретањем команде „питхон апп.пи“.

Потенцијални недостаци

Модел МултиМодал-ГПТ и даље има недостатке и простор за развој упркос одличним перформансама.

На пример, када се ради са компликованим или двосмисленим визуелним инпутима, модел можда неће увек моћи да препозна и схвати контекст уноса. Ово може довести до нетачних предвиђања или реакција модела.

Поред тога, посебно када је унос компликован или отворен, модел можда неће увек дати најбољу реакцију или резултат. На одговор модела, на пример, можда је утицало колико су корице две књиге изгледале слично у случају нетачне идентификације корице књиге.

Zakljucak

Све у свему, МултиМодал-ГПТ модел представља велики корак напред у обради природног језика и машинском учењу. И веома је узбудљиво користити га и експериментисати са њим. Дакле, и ви бисте требали покушати!

Међутим, он има ограничења, као и сви модели, и захтева додатно усавршавање и побољшање да би се постигле максималне перформансе у различитим апликацијама и доменима.