MultiModal-GPT: новы рубеж у інтэграцыі мовы і бачання

Ці хацелі вы калі-небудзь размаўляць са штучным інтэлектам, які ўспрымае як вусныя, так і візуальныя дадзеныя? Парадыгма MultiModal-GPT спалучае апрацоўку мовы з візуальным разуменнем.

Ён прапануе магчымасць дакладнага і разнастайнага ўзаемадзеяння чалавека і кампутара. Мультымадальны-GPT можа даваць апісальныя подпісы, лічыць асобныя элементы і адказваць на агульныя пытанні карыстальнікаў.

Але як гэта зрабіць? І што вы можаце зрабіць з MultiModal-GPT?

Давайце вернемся да пачатку гісторыі і зразумеем магчымасці, якія адкрываюцца перад намі.

Са з'яўленнем такіх моўных мадэляў, як GPT-4, тэхналогіі апрацоўкі натуральнай мовы перажываюць рэвалюцыю. Такія інавацыі, як ChatGPT, ужо ўвайшлі ў наша жыццё.

І, здаецца, яны працягваюць прыходзіць!

GPT-4 і яго абмежаванні

GPT-4 прадэманстраваў надзвычайны майстэрства ў мультымадальных размовах з людзьмі. Даследаванні прыклалі намаганні, каб паўтарыць гэтую прадукцыйнасць, але з-за патэнцыйна вялікай колькасці малюнкаў, у тым ліку мадэлі з дакладнай візуальнай інфармацыяй, могуць быць дарагімі ў плане вылічэнняў.

Існуючыя мадэлі таксама не ўключаюць у сябе настройку моўных інструкцый у сваім даследаванні, што абмяжоўвае іх здольнасць удзельнічаць у шматпаваротных размовах выява-тэкст з нулявым здымкам.

Пабудова на базе Flamingo Framework

Новая мадэль пад назвай MultiModal-GPT была распрацавана для забеспячэння зносін з людзьмі з дапамогай як моўных, так і візуальных сігналаў.

Распрацоўшчыкі выкарыстоўвалі праграму пад назвай рамка фламінга, які раней быў навучаны разуменню тэксту і візуальных элементаў, каб зрабіць гэта магчымым.

Рамка Flamingo

Аднак у Flamingo спатрэбіліся некаторыя змены, бо ён не мог мець пашыраных дыялогаў, якія ўключалі б тэкст і візуальныя элементы.

Абноўленая мадэль MultiModal-GPT можа збіраць дадзеныя з малюнкаў і змешваць іх з мовай, каб разумець і выконваць каманды чалавека.

Мультымадальны-GPT

MultiModal-GPT - гэта тып мадэлі штучнага інтэлекту, якая можа адсочваць розныя чалавечыя запыты, такія як апісанне візуальных элементаў, падлік прадметаў і адказы на пытанні. Ён разумее і выконвае загады, выкарыстоўваючы сумесь візуальных і вербальных дадзеных.

Даследчыкі навучылі мадэль, выкарыстоўваючы як візуальныя, так і толькі моўныя дадзеныя, каб павялічыць здольнасць MultiModal-GPT размаўляць з людзьмі. Акрамя таго, гэта выклікала прыкметнае паляпшэнне спосабу выканання дыскурсу. Гэта таксама прывяло да прыкметнага паляпшэння прадукцыйнасці размовы.

Яны выявілі, што наяўнасць высакаякасных навучальных даных вельмі важна для добрай прадукцыйнасці размовы, таму што невялікі набор даных з кароткімі адказамі можа дазволіць мадэлі ствараць больш кароткія адказы на любую каманду.

Што вы можаце зрабіць з MultiModal-GPT?

Удзел у размовах

Як і ранейшыя моўныя мадэлі, адной з галоўных характарыстык MultiModal-GPT з'яўляецца яго здольнасць удзельнічаць у абмеркаваннях на натуральнай мове. Гэта азначае, што спажыўцы могуць узаемадзейнічаць з мадэллю гэтак жа, як з рэальным чалавекам.

Напрыклад, MultiModal-GPT можа даць кліентам падрабязны рэцэпт прыгатавання локшыны або парэкамендаваць магчымыя рэстараны, дзе можна паабедаць па-за домам. Мадэль таксама здольная адказваць на агульныя пытанні аб намерах карыстальнікаў у паездках.

локшына

Распазнаванне аб'ектаў

MultiModal-GPT можа распазнаваць рэчы на фотаздымках і адказваць на запыты пра іх. Напрыклад, мадэль можа пазнаваць на малюнку Фрэдзі Мэрк'юры і адказваць на пытанні пра яго.

Ён таксама можа падлічыць колькасць людзей і растлумачыць, што яны робяць на малюнку. Гэтая магчымасць ідэнтыфікацыі аб'ектаў знаходзіць прымяненне ў розных галінах, уключаючы электронную камерцыю, ахову здароўя і бяспеку.

Прыклад

MultiModal-GPT таксама можа распазнаваць тэкст ўнутры лічбавых малюнкаў. Гэта азначае, што мадэль можа чытаць тэкст на фотаздымках і здабываць карысныя дадзеныя. Ён можа, напрыклад, выявіць персанажаў на малюнку і вызначыць аўтара кнігі.

Гэта надзвычай карысны інструмент для кіравання дакументамі, увод даных і аналіз кантэнту.

Гэндальф

Разважанне і генерацыя ведаў

Мультымадальны GPT можа разважаць і ствараць веды пра свет. Гэта азначае, што ён можа даць поўныя тлумачэнні да фотаздымкаў і нават сказаць, у які сезон быў зроблены здымак.

Гэты навык карысны ў розных дысцыплінах, уключаючы маніторынг навакольнага асяроддзя, сельскую гаспадарку і метэаралогію. Мадэль можа дадаткова ствараць творчыя рэчы, такія як паэзія, казкі і песні, што робіць яе выдатным інструментам для творчых задач.

Унутраная праца MultiModal-GPT

Шаблон для адзінай інструкцыі

Каманда прадстаўляе адзіны шаблон для інтэграцыі ўнімадальных лінгвістычных даных і мультымадальных даных бачання і мовы для належнага навучання мадэлі MultiModal-GPT у сінэргетычным рэжыме.

Гэтая камбінаваная стратэгія спрабуе палепшыць прадукцыйнасць мадэлі ў розных задачах, выкарыстоўваючы дадатковыя магчымасці абодвух спосабаў даных і заахвочваючы больш глыбокае разуменне асноўных ідэй.

Наборы дадзеных Dolly 15k і Alpaca GPT4 выкарыстоўваюцца камандай для вымярэння здольнасці выконваць толькі моўныя інструкцыі. Гэтыя наборы даных дзейнічаюць як шаблон падказкі для структуравання ўводу набору даных, каб гарантаваць паслядоўны фармат інструкцый.

Агляд набору дадзеных Dolly 15k

Выява: агляд набору даных Doly 15k

Як працуе мадэль?

Тры ключавых кампанента складаюць мадэль MultiModal-GPT: дэкодэр мовы, перасэмплер успрымальніка і кадавальнік бачання. Відарыс прымаецца кадавальнікам зроку, які затым стварае набор характарыстык, якія яго характарызуюць.

Дэкодэр мовы выкарыстоўвае інфармацыю з кадавальніка зроку для стварэння тэксту, які апісвае відарыс з дапамогай рэсэмплера ўспрымальніка.

Кампанентам мадэлі, які спасцігае мову і стварае тэкст, з'яўляецца моўны дэкодэр. Каб прагназаваць наступнае слова ў фразе, мадэль навучаецца з выкарыстаннем дадзеных толькі для мовы і зроку плюс моўныя інструкцыі.

Гэта вучыць мадэль рэагаваць на каманды людзей і забяспечвае прымальны тэкст для апісання малюнкаў.

мадэль

Каманда ззаду

MultiModal-GPT быў створаны камандай даследчыкаў і інжынераў Microsoft Research Asia пад кіраўніцтвам Тао Гуна, Чэнцы Лю і Шылонга Чжана. Юдун Ван, Мяо Чжэн, Цянь Чжао, Куйкунь Лю, Вэньвэй Чжан, Пін Луо і Кай Чэнь унеслі свой уклад у вывучэнне і развіццё мадэлі.

Апрацоўка натуральнай мовы, машыннае зрокі машыннае навучанне - усе сферы кампетэнцыі каманды. У іх ёсць некалькі артыкулаў, апублікаваных на канферэнцыях вышэйшага ўзроўню і ў публікацыях, а таксама розныя ўзнагароды і ўзнагароды за іх навуковыя намаганні.

Даследаванне каманды засяроджваецца на распрацоўцы перадавых мадэляў і падыходаў, якія дазваляюць больш натуральнае і разумнае ўзаемадзеянне паміж людзьмі і тэхналогіямі.

Распрацоўка мультымадальнага GPT з'яўляецца вартым увагі дасягненнем у гэтай галіне, паколькі гэта адна з першых мадэляў, якія аб'ядноўваюць бачанне і мову ў адзіную структуру для шматразовага абмеркавання.

Уклад каманды ў даследаванні і распрацоўкі MultiModal-GPT можа аказаць істотны ўплыў на будучыню апрацоўкі натуральнай мовы і ўзаемадзеяння чалавека і машыны.

Як выкарыстоўваць MultiModal-GPT

Для пачаткоўцаў выкарыстанне інструмента MultiModal-GPT простае. Проста перайдзіце да https://mmgpt.openmmlab.org.cn/ і націсніце кнопку «Загрузіць малюнак».

Выберыце файл выявы для загрузкі, а затым увядзіце тэкставае падказку ў тэкставае поле. Каб стварыць адказ ад мадэлі, націсніце кнопку «Адправіць», якая з'явіцца пад тэкставым полем.

Вы можаце паэксперыментаваць з рознымі фатаграфіямі і інструкцыямі, каб даведацца больш аб магчымасцях мадэлі.

Інтэрфейс 1

ўстаноўка

Каб усталяваць пакет MultiModal-GPT, выкарыстоўвайце каманду тэрмінала «git clone https://github.com/open-mmlab/Multimodal-GPT.git», каб кланаваць рэпазітар з GitHub. Вы можаце проста выканаць наступныя дзеянні:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

У якасці альтэрнатывы выкарыстоўвайце conda env create -f environment.yml стварыць новае асяроддзе conda. Вы можаце запусціць дэманстрацыю лакальна пасля яе ўстаноўкі, загрузіўшы папярэдне падрыхтаваныя вагі і захаваўшы іх у тэчцы кантрольных кропак.

Затым дэманстрацыю Gradio можна запусціць, выканаўшы каманду «python app.py».

Патэнцыйныя недахопы

Мадэль MultiModal-GPT па-ранейшаму мае недахопы і мае магчымасці для развіцця, нягледзячы на выдатную прадукцыйнасць.

Напрыклад, пры працы са складанымі або неадназначнымі візуальнымі ўводамі мадэль не заўсёды можа распазнаць і зразумець кантэкст уводу. Гэта можа прывесці да недакладных прагнозаў або рэакцыі мадэлі.

Акрамя таго, асабліва калі ўвод складаны або адкрыты, мадэль не заўсёды можа выклікаць лепшую рэакцыю або вынік. На адказ мадэлі, напрыклад, магло паўплываць тое, наколькі падобныя вокладкі дзвюх кніг выглядалі ў выпадку няправільнай ідэнтыфікацыі вокладкі кнігі.

заключэнне

У цэлым мадэль MultiModal-GPT уяўляе сабой вялікі крок наперад у апрацоўцы натуральнай мовы і машынным навучанні. І гэта вельмі цікава выкарыстоўваць і эксперыментаваць з ім. Такім чынам, вы таксама павінны паспрабаваць!

Аднак ён мае абмежаванні, як і ўсе мадэлі, і патрабуе дадатковай дапрацоўкі і паляпшэння для атрымання максімальнай прадукцыйнасці ў розных прыкладаннях і сферах.