MultiModal-GPT: тіл мен көру интеграциясындағы жаңа шекара

Сіз ауызша және көрнекі деректерді түсінетін AI-мен сөйлескіңіз келді ме? MultiModal-GPT парадигмасы тілді өңдеуді көрнекі түсінумен біріктіреді.

Ол адам мен компьютердің дәл және әртараптандырылған өзара әрекеттесу мүмкіндігін ұсынады. Multimodal-GPT сипаттамалық жазулар бере алады, жеке элементтерді санай алады және пайдаланушының жалпы сұрақтарына жауап бере алады.

Бірақ, мұны қалай жасайды? MultiModal-GPT көмегімен не істей аласыз?

Оқиғаны басынан бастап, алдымызда тұрған мүмкіндіктерді түсінейік.

GPT-4 сияқты тілдік модельдердің пайда болуымен табиғи тілді өңдеу технологиялары революцияның куәсі болуда. ChatGPT сияқты инновациялар біздің өмірімізге енді.

Және олар әлі де келе жатқан сияқты!

GPT-4 және оның шектеулері

GPT-4 адамдармен мультимодальды сөйлесуде керемет шеберлік көрсетті. Зерттеулер бұл өнімділікті қайталауға күш салды, бірақ сурет таңбалауыштарының, соның ішінде нақты көрнекі ақпараты бар үлгілердің ықтимал көп санына байланысты есептеу үшін қымбат болуы мүмкін.

Қолданыстағы модельдер сонымен қатар олардың оқуында тіл нұсқаулығын баптауды қамтымайды, бұл олардың нөлдік түсірілімді көп айналымды кескін-мәтіндік сұхбаттарға қатысу мүмкіндігін шектейді.

Flamingo Framework негізіндегі құрылыс

Тілдік және көрнекі белгілерді қолданатын адамдармен қарым-қатынас жасау үшін MultiModal-GPT деп аталатын жаңа модель әзірленді.

Әзірлеушілер бағдарламаны пайдаланды Фламинго шеңбері, мұны мүмкін ету үшін мәтінді де, көрнекілерді де түсінуге бұрын үйретілген.

Flamingo Framework

Фламинго кейбір өзгерістерді қажет етті, өйткені ол мәтін мен көрнекі бейнелерді қамтитын кеңейтілген диалогтарға ие болмады.

Жаңартылған MultiModal-GPT моделі адамның пәрмендерін түсіну және орындау үшін суреттерден деректерді жинап, оны тілмен араластыра алады.

Multimodal-GPT

MultiModal-GPT — көрнекі бейнелерді сипаттау, элементтерді санау және сұрақтарға жауап беру сияқты адамның әртүрлі сұрауларын бақылай алатын AI үлгісінің түрі. Ол көрнекі және ауызша деректердің қоспасын пайдалана отырып, тапсырыстарды түсінеді және орындайды.

Зерттеушілер MultiModal-GPT-тің адамдармен сөйлесу мүмкіндігін арттыру үшін визуалды және тілдік деректерді пайдалану арқылы модельді оқытты. Бұған қоса, бұл дискурстың орындалу тәсілінің айтарлықтай жақсаруына әкелді. Бұл сонымен қатар оның сөйлесу өнімділігін айтарлықтай жақсартуға әкелді.

Олар жоғары сапалы оқу деректерінің болуы сөйлесудің жақсы өнімділігі үшін өте маңызды екенін анықтады, себебі қысқа жауаптары бар шағын деректер жиынтығы модельге кез келген пәрменге қысқарақ жауаптар жасауға мүмкіндік береді.

MultiModal-GPT көмегімен не істей аласыз?

Әңгімелесуге қатысу

Бұрынғы тіл үлгілері сияқты, MultiModal-GPT негізгі сипаттамаларының бірі оның табиғи тілдегі талқылауларға қатысу қабілеті болып табылады. Бұл тұтынушылар модельмен нақты адам сияқты әрекеттесе алатынын білдіреді.

Мысалы, MultiModal-GPT тұтынушыларға кеспе жасаудың егжей-тегжейлі рецептісін бере алады немесе түскі ас үшін ықтимал мейрамханаларды ұсына алады. Модель сонымен қатар пайдаланушылардың сапар ниеттері туралы жалпы сұрақтарға жауап бере алады.

Кеспе

Объектілерді тану

MultiModal-GPT фотосуреттердегі заттарды тани алады және олар туралы сұрауларға жауап бере алады. Мысалы, модель Фредди Меркьюриді суреттен танып, ол туралы сұрақтарға жауап бере алады.

Сондай-ақ ол жеке адамдардың санын санап, суретте не істеп жатқанын түсіндіре алады. Бұл нысанды сәйкестендіру сыйымдылығы электрондық коммерция, денсаулық сақтау және қауіпсіздікті қоса алғанда, әртүрлі салаларда қолданбаларға ие.

мысал

MultiModal-GPT сандық суреттердің ішіндегі мәтінді де тани алады. Бұл модель фотосуреттердегі мәтінді оқи алады және пайдалы деректерді шығара алады дегенді білдіреді. Ол, мысалы, суреттегі кейіпкерлерді анықтап, кітаптың авторын анықтауы мүмкін.

үшін бұл өте пайдалы құрал құжаттарды басқару, деректерді енгізу және мазмұнды талдау.

Гандфф

Ойлау және білімді қалыптастыру

Мульти-модальды-GPT әлем туралы білімді дәлелдей алады және шығара алады. Бұл фотосуреттерге толық түсініктеме бере алатынын және тіпті суреттің қай мезгілде түсірілгенін айта алатынын білдіреді.

Бұл дағды қоршаған ортаны бақылау, ауыл шаруашылығы және метеорология сияқты әртүрлі пәндерде пайдалы. Модель поэзия, ертегілер және әндер сияқты шығармашылық материалдарды қосымша жасай алады, бұл оны шығармашылық тапсырмалар үшін тамаша құрал етеді.

MultiModal-GPT ішкі жұмысы

Бірыңғай нұсқауларға арналған үлгі

Команда MultiModal-GPT моделін синергетикалық түрде дұрыс оқыту үшін унимодальді лингвистикалық деректер мен мультимодальды көру және тіл деректерін біріктіруге арналған бірыңғай үлгіні ұсынады.

Бұл біріктірілген стратегия екі деректер модальділерінің де қосымша мүмкіндіктерін пайдалану және негізгі идеяларды тереңірек түсінуді ынталандыру арқылы әртүрлі тапсырмалар бойынша модельдің өнімділігін жақсартуға тырысады.

Dolly 15k және Alpaca GPT4 деректер жиынын команда тек тілдегі нұсқауларды орындау қабілеттерін өлшеу үшін пайдаланады. Бұл деректер жинақтары нұсқауларға сәйкес келетін пішімге кепілдік беру үшін деректер жиынын енгізуді құрылымдауға арналған жедел үлгі ретінде әрекет етеді.

Dolly 15k деректер жиынына шолу

Сурет: Doly 15k деректер жинағына шолу

Модель қалай жұмыс істейді?

MultiModal-GPT үлгісін үш негізгі құрамдас құрайды: тіл декодері, қабылдаушы ресамплер және көру кодтары. Кескін көруді кодтаушы арқылы қабылданады, содан кейін оны сипаттайтын сипаттамалар жинағын жасайды.

Тіл дешифраторы көру кодеріндегі ақпаратты қабылдаушы ресамплер көмегімен кескінді сипаттайтын мәтін жасау үшін пайдаланады.

Модельдің тілді түсінетін және мәтінді жасайтын құрамдас бөлігі - тілдік декодер. Сөз тіркесіндегі келесі сөзді болжау үшін үлгі тек тілге арналған және көру плюс тіл нұсқаулығына сәйкес деректердің екеуін де пайдалана отырып оқытылады.

Бұл модельді адамдардан келетін пәрмендерге қалай әрекет ету керектігін үйретеді және суретті сипаттау үшін қолайлы мәтінді береді.

моделі

Арттағы команда

MultiModal-GPT Тао Гонг, Ченгци Лю және Шилонг Чжан басқаратын Microsoft Research Asia зерттеушілері мен инженерлері тобымен жасалған. Юдун Ван, Миао Чжэн, Цянь Чжао, Куйкун Лю, Вэнвэй Чжан, Пин Луо және Кай Чен модельді зерттеуге және дамытуға үлес қосты.

Табиғи тілді өңдеу, компьютерлік көру, және машиналық оқыту команданың құзыретінің барлық салалары болып табылады. Олардың жоғары деңгейдегі конференциялар мен басылымдарда жарияланған бірнеше мақалалары, сондай-ақ ғылыми күш-жігерлері үшін әртүрлі марапаттар мен марапаттар бар.

Топтың зерттеулері адамдар мен технология арасындағы табиғи және интеллектуалды өзара әрекеттесуді қамтамасыз ету үшін озық үлгілер мен тәсілдерді әзірлеуге бағытталған.

Multi-modal-GPT әзірлеу – бұл саладағы назар аударарлық жетістік, өйткені ол көп раундты талқылау үшін бір шеңберде көзқарас пен тілді біріктіретін алғашқы үлгілердің бірі болып табылады.

Команданың MultiModal-GPT зерттеулері мен әзірлемелеріне қосқан үлесі табиғи тілді өңдеудің болашағына және адам мен машинаның өзара әрекеттесуіне елеулі әсер ету мүмкіндігіне ие.

MultiModal-GPT пайдалану жолы

Жаңадан бастаушылар үшін MultiModal-GPT құралын пайдалану оңай. Жай өтіңіз https://mmgpt.openmmlab.org.cn/ және «Кескінді жүктеп салу» түймесін басыңыз.

Жүктеп салынатын сурет файлын таңдап, мәтіндік жолға мәтіндік шақыруды теріңіз. Үлгіден жауап жасау үшін мәтін өрісінің астында пайда болатын «Жіберу» түймесін басыңыз.

Модельдің мүмкіндіктері туралы көбірек білу үшін әртүрлі фотосуреттермен және нұсқаулармен тәжірибе жасай аласыз.

1 интерфейсі

Орнату

MultiModal-GPT бумасын орнату үшін GitHub репозиторийін клондау үшін “git clone https://github.com/open-mmlab/Multimodal-GPT.git” терминал пәрменін пайдаланыңыз. Сіз жай ғана келесі қадамдарды орындай аласыз:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Немесе пайдаланыңыз conda env create -f environment.yml жаңа конда ортасын құру. Алдын ала дайындалған салмақтарды жүктеп алып, оларды бақылау нүктелері қалтасында сақтау арқылы орнатқаннан кейін демонстрацияны жергілікті түрде іске қосуға болады.

Gradio демонстрациясын «python app.py» пәрменін іске қосу арқылы іске қосуға болады.

Ықтимал кемшіліктер

MultiModal-GPT моделінің тамаша өнімділігіне қарамастан әлі де кемшіліктері мен даму мүмкіндігі бар.

Мысалы, күрделі немесе анық емес көрнекі енгізулермен жұмыс істегенде, модель әрқашан кіріс мәтінін тани және түсіне алмауы мүмкін. Бұл үлгінің дәл емес болжамдарына немесе реакцияларына әкелуі мүмкін.

Сонымен қатар, әсіресе кіріс күрделі немесе ашық болса, модель әрқашан ең жақсы реакция немесе нәтиже бермеуі мүмкін. Модельдің жауабына, мысалы, кітап мұқабасы дұрыс анықталмаған жағдайда екі кітаптың мұқабасының ұқсастығы әсер еткен болуы мүмкін.

қорытынды

Тұтастай алғанда, MultiModal-GPT моделі табиғи тілді өңдеу және машиналық оқытуда алға жасалған үлкен қадамды білдіреді. Және оны пайдалану және онымен тәжірибе жасау өте қызықты. Ендеше, сіз де байқап көруіңіз керек!

Дегенмен, оның барлық үлгілер сияқты шектеулері бар және әртүрлі қолданбалар мен домендерде максималды өнімділікке қол жеткізу үшін қосымша нақтылау мен жақсартуды қажет етеді.