MultiModal-GPT: Сарҳади нав дар ҳамгироии забон ва биниш

Оё шумо ягон бор мехостед, ки бо AI сӯҳбат кунед, ки ҳам маълумоти гуфтугӯӣ ва ҳам визуалиро дарбар мегирад? Парадигмаи MultiModal-GPT коркарди забонро бо фаҳмиши визуалӣ муттаҳид мекунад.

Он имкони ҳамкории дақиқ ва гуногунсоҳаи инсон ва компютерро пешниҳод мекунад. MultiModal-GPT метавонад сарлавҳаҳои тавсифиро пешниҳод кунад, ҷузъҳои алоҳидаро ҳисоб кунад ва ба саволҳои умумии корбар посух диҳад.

Аммо, он чӣ тавр ин корро мекунад? Ва шумо бо MultiModal-GPT чӣ кор карда метавонед?

Биёед достонро ба ибтидо гирем ва имкониятҳои дар пешистодаро дарк кунем.

Бо пайдоиши моделҳои забонӣ ба монанди GPT-4, технологияҳои коркарди забони табиӣ шоҳиди инқилоб мебошанд. Навовариҳо ба монанди ChatGPT аллакай ба ҳаёти мо ворид карда шудаанд.

Ва, онҳо ба назар мерасанд!

GPT-4 ва маҳдудиятҳои он

GPT-4 дар гуфтугӯҳои мултимедиявӣ бо одамон маҳорати аҷиб нишон дод. Тадқиқотҳо кӯшиш карданд, ки ин нишондодҳоро такрор кунанд, аммо аз сабаби эҳтимоли зиёд будани шумораи аломатҳои тасвирӣ, аз ҷумла моделҳои дорои маълумоти дақиқи визуалӣ метавонанд аз ҷиҳати ҳисоббарорӣ гарон бошанд.

Моделҳои мавҷуда инчунин танзими дастури забонро дар омӯзиши худ дар бар намегиранд, ки қобилияти онҳоро барои иштирок дар гуфтугӯҳои бисёрҷанбаи тасвирӣ-матнӣ маҳдуд мекунад.

Сохтани чаҳорчӯбаи фламинго

Модели нав бо номи MultiModal-GPT барои муошират бо одамон бо истифода аз аломатҳои забонӣ ва визуалӣ таҳия шудааст.

Таҳиягарон барномаеро, ки бо номи чаҳорчӯбаи фламинго, ки пештар барои фахмидани хам матн ва хам визуалхо омузонида шуда буд, то ки ин имконпазир бошад.

Чаҳорчӯбаи Flamingo

Фламинго ба баъзе тағирот ниёз дошт, зеро он имкон надошт, ки муколамаҳои васеъ, ки матн ва визуалҳоро дар бар мегиранд, дошта бошад.

Модели навшудаи MultiModal-GPT метавонад аз тасвирҳо маълумот ҷамъ кунад ва онро бо забон омехта кунад, то фармонҳои инсониро дарк ва иҷро кунад.

MultiModal-GPT

MultiModal-GPT як навъи модели AI мебошад, ки метавонад дархостҳои гуногуни инсонро, аз қабили тавсифи визуалӣ, ҳисоб кардани ашё ва посух додан ба саволҳоро пайгирӣ кунад. Он фармоишҳоро бо истифода аз омезиши маълумоти визуалӣ ва шифоҳӣ мефаҳмад ва риоя мекунад.

Тадқиқотчиён моделро бо истифода аз маълумоти визуалӣ ва танҳо забон омӯхтанд, то тавоноии MultiModal-GPT-ро барои гуфтугӯ бо одамон афзоиш диҳанд. Илова бар ин, он боиси беҳбудии назаррас дар тарзи иҷрои дискурси он гардид. Он инчунин ба беҳбудии назаррас дар кори гуфтугӯи он оварда расонд.

Онҳо дарёфтанд, ки доштани маълумоти босифати омӯзишӣ барои иҷрои хуби гуфтугӯ муҳим аст, зеро маҷмӯаи маълумоти хурд бо посухҳои кӯтоҳ метавонад ба модел имкон диҳад, ки посухҳои кӯтоҳтар ба ҳама гуна фармонҳоро эҷод кунад.

Шумо бо MultiModal-GPT чӣ кор карда метавонед?

Иштирок дар гуфтугӯҳо

Мисли моделҳои забонии қаблӣ, яке аз хусусиятҳои асосии MultiModal-GPT қобилияти он барои иштирок дар муҳокимаҳои забони табиӣ мебошад. Ин маънои онро дорад, ки истеъмолкунандагон метавонанд бо модел, мисли он ки бо шахси воқеӣ машғул шаванд.

Масалан, MultiModal-GPT метавонад ба муштариён дастури муфассали тайёр кардани угро диҳад ё тарабхонаҳои имконпазирро барои хӯрокхӯрӣ тавсия диҳад. Модел инчунин қодир аст ба саволҳои умумӣ дар бораи ниятҳои сафари корбарон посух диҳад.

Новелла

Шиносоии объектҳо

MultiModal-GPT метавонад чизҳои аксҳоро эътироф кунад ва ба дархостҳо дар бораи онҳо посух диҳад. Масалан, модел метавонад Фредди Меркуриро дар тасвир шинохт ва ба пурсишҳо дар бораи ӯ посух диҳад.

Он инчунин метавонад шумораи шахсони алоҳидаро ҳисоб кунад ва фаҳмонад, ки онҳо дар расм чӣ кор мекунанд. Ин иқтидори муайянкунии объект дорои барномаҳо дар соҳаҳои гуногун, аз ҷумла тиҷорати электронӣ, тандурустӣ ва амният мебошад.

мисол

MultiModal-GPT инчунин метавонад матни дохили тасвирҳои рақамиро эътироф кунад. Ин маънои онро дорад, ки модел метавонад матнро дар аксҳо хонд ва маълумоти муфидро истихроҷ кунад. Он метавонад, масалан, аломатҳои тасвирро муайян кунад ва муаллифи китобро муайян кунад.

Ин як воситаи бениҳоят муфид барои идоракунии ҳуҷҷат, вуруди маълумот ва таҳлили мундариҷа.

Gandalf

Мулоҳиза ва тавлиди дониш

Multi-modal-GPT метавонад дар бораи ҷаҳон фикр кунад ва дониш тавлид кунад. Ин маънои онро дорад, ки он метавонад шарҳи пурраи аксҳоро пешниҳод кунад ва ҳатто ба онҳо бигӯяд, ки тасвир дар кадом мавсим гирифта шудааст.

Ин маҳорат дар соҳаҳои гуногун, аз ҷумла мониторинги муҳити зист, кишоварзӣ ва метеорология муфид аст. Модел метавонад ба таври илова маводи эҷодӣ ба монанди шеър, афсона ва суруд тавлид кунад, ки онро як воситаи олӣ барои вазифаҳои эҷодӣ месозад.

Корҳои дохилии MultiModal-GPT

Шаблон барои дастурҳои ягона

Даста як қолаби ягонаро барои ҳамгироии маълумоти лингвистии унимодалӣ ва маълумоти бисёрмодалии биниш ва забон пешниҳод мекунад, то модели MultiModal-GPT-ро ба таври синергетикӣ дуруст омӯзад.

Ин стратегияи якҷоя кӯшиш мекунад, ки самаранокии моделро дар як қатор вазифаҳо тавассути истифодаи имкониятҳои иловагии ҳарду усулҳои додаҳо ва ташвиқи фаҳмиши амиқтари ғояҳои аслӣ беҳтар созад.

Маҷмӯи додаҳои Dolly 15k ва Alpaca GPT4 аз ҷониби гурӯҳ барои чен кардани қобилиятҳои танҳо аз рӯи дастури забон истифода мешаванд. Ин маҷмӯаҳои додаҳо ҳамчун як қолаби фаврӣ барои сохтори вуруди маҷмӯаи додаҳо амал мекунанд, то формати мувофиқи дастурҳоро кафолат диҳанд.

Шарҳи маҷмӯи додаҳои Dolly 15k

Тасвир: Шарҳи маҷмӯи додаҳои Doly 15k

Модел чӣ гуна кор мекунад?

Се ҷузъи калидӣ модели MultiModal-GPT-ро ташкил медиҳанд: декодери забон, репамнери қабулкунанда ва рамзгузори биниш. Тасвир тавассути рамзгузори рӯъё гирифта мешавад, ки баъдан маҷмӯи хусусиятҳоеро, ки онро тавсиф мекунанд, тавлид мекунад.

Декодери забон иттилооти рамзгузори бинишро барои эҷоди матне истифода мебарад, ки тасвирро бо ёрии резамлеркунандаи қабулкунанда тавсиф мекунад.

Ҷузъи моделе, ки забонро дарк мекунад ва матнро тавлид мекунад, декодери забон аст. Барои пешгӯии калимаи зерин дар як ибора, модел бо истифода аз маълумоти танҳо барои забон ва ҳам аз рӯи дастури забонӣ-плюс омӯзонида мешавад.

Ин ба модел таълим медиҳад, ки чӣ тавр ба фармонҳои одамон вокуниш нишон диҳад ва матни қобили қабулро барои тавсифи тасвирҳо таъмин кунад.

намуна

Дастаи пушти сар

MultiModal-GPT аз ҷониби як гурӯҳи тадқиқотчиён ва муҳандисони Microsoft Research Asia бо роҳбарии Тао Гонг, Ченгки Лю ва Шилонг Чжан сохта шудааст. Юдонг Ванг, Мяо Чжэн, Цян Чжао, Куйкун Лю, Венвей Чжан, Пинг Луо ва Кай Чен ҳама дар омӯзиш ва рушди модел саҳм гузоштанд.

коркарди забони табиӣ, биниши компютерӣ, ва омӯзиши мошинсозӣ ҳама соҳаҳои салоҳияти даста мебошанд. Онҳо якчанд мақолаҳои дар конфронсу нашрияҳои сатҳи баланд ба табъ расида, инчунин барои саъю кӯшиши илмии худ унвону ифтихорномаҳои гуногун доранд.

Тадқиқоти даста ба таҳияи моделҳо ва равишҳои муосир барои фароҳам овардани муоширати бештар табиӣ ва оқилона байни одамон ва технология нигаронида шудааст.

Рушди мултимодалӣ-GPT як дастоварди қобили таваҷҷӯҳ дар ин соҳа аст, зеро он яке аз аввалин моделҳоест, ки биниш ва забонро дар чаҳорчӯби ягона барои муҳокимаи бисёрҷониба муттаҳид мекунад.

Саҳмҳои даста дар таҳқиқот ва таҳияи MultiModal-GPT дорои потенсиали таъсиррасонии назаррас ба ояндаи коркарди забони табиӣ ва ҳамкории инсон бо мошин мебошанд.

Чӣ тавр истифода бурдани MultiModal-GPT

Барои шурӯъкунандагон, истифодаи абзори MultiModal-GPT оддӣ аст. Танҳо ба https://mmgpt.openmmlab.org.cn/ ва тугмаи "Тасвирро бор кунед" -ро пахш кунед.

Файли тасвириро барои боргузорӣ интихоб кунед ва сипас дархости матниро ба майдони матн ворид кунед. Барои эҷод кардани посух аз модел, тугмаи "Ирсол" -ро пахш кунед, ки дар зери майдони матн пайдо мешавад.

Шумо метавонед бо аксҳо ва дастурҳои гуногун озмоиш кунед, то дар бораи имкониятҳои модел маълумоти бештар гиред.

Интерфейси 1

насби

Барои насб кардани бастаи MultiModal-GPT, фармони терминали "git clone https://github.com/open-mmlab/Multimodal-GPT.git" -ро истифода баред, то анборро аз GitHub клон кунед. Шумо метавонед танҳо ин қадамҳоро иҷро кунед:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Интихобан, истифода баред conda env create -f environment.yml барои барпо намудани мухити нави конда. Шумо метавонед намоишро пас аз насби он тавассути зеркашии вазнҳои қаблан омӯзонидашуда ва нигоҳ доштани онҳо дар ҷузвдони гузаргоҳҳо ба таври маҳаллӣ иҷро кунед.

Пас аз он намоиши Gradio метавонад тавассути иҷро кардани фармони "python app.py" оғоз шавад.

Камбудиҳои эҳтимолӣ

Модели MultiModal-GPT, сарфи назар аз иҷрои аълои он, ҳанӯз ҳам камбудиҳо ва ҷой барои рушд дорад.

Масалан, ҳангоми кор бо вурудоти визуалии мураккаб ё норавшан, модел на ҳамеша метавонад контексти вурудро эътироф ва дарк кунад. Ин метавонад боиси пешгӯиҳои нодуруст ё аксуламалҳои модел гардад.

Илова бар ин, хусусан вақте ки вуруд мураккаб ё кушода аст, модел на ҳамеша реаксия ё натиҷаи беҳтаринро ба вуҷуд меорад. Масалан, ҷавоби модел метавонад аз он таъсир расонад, ки муқоваҳои ду китоб дар сурати нодуруст муайян кардани муқоваи китоб чӣ гуна монанданд.

хулоса

Дар маҷмӯъ, модели MultiModal-GPT як қадами бузурге ба пеш дар коркарди забони табиӣ ва омӯзиши мошин мебошад. Ва, истифодаи он ва озмоиш бо он хеле шавқовар аст. Пас, шумо ҳам бояд онро санҷед!

Бо вуҷуди ин, он ба монанди ҳама моделҳо маҳдудиятҳо дорад ва барои ба даст овардани ҳадди аксар дар барномаҳо ва доменҳои гуногун такмил ва такмилдиҳии иловагӣ талаб мекунад.