MultiModal-GPT: тил жана көрүү интеграциясындагы жаңы чек

Оозеки жана визуалдык маалыматтарды түшүнгөн AI менен баарлашууну кааладыңыз беле? MultiModal-GPT парадигмасы тилди иштетүүнү визуалдык түшүнүү менен айкалыштырат.

Бул адам менен компьютердин так жана диверсификацияланган өз ара аракеттенүү мүмкүнчүлүгүн сунуштайт. MultiModal-GPT сыпаттоочу коштомо жазууларды бере алат, айрым нерселерди санап, колдонуучунун жалпы суроолоруна жооп бере алат.

Бирок, муну кантип кылат? Жана, сиз MultiModal-GPT менен эмне кыла аласыз?

Келгиле, окуяны башынан баштап, алдыбызда турган мүмкүнчүлүктөрдү түшүнөлү.

GPT-4 сыяктуу тил моделдеринин пайда болушу менен табигый тилди иштетүү технологиялары революцияга күбө болууда. ChatGPT сыяктуу инновациялар биздин жашообузга мурунтан эле киргизилген.

Жана алар келе беришет окшойт!

GPT-4 жана анын чектөөлөрү

GPT-4 адамдар менен мультимодалдык баарлашууда укмуштуудай чеберчиликти көрсөттү. Изилдөөлөр бул көрсөткүчтү кайталоо үчүн күч-аракет жумшашты, бирок сүрөт белгилеринин саны көп болгондуктан, анын ичинде так визуалдык маалыматы бар моделдер эсептөө үчүн кымбат болушу мүмкүн.

Учурдагы моделдер, ошондой эле алардын изилдөөдө тил үйрөтүү тууралоо камтыбайт, бул алардын нөл-аттуу көп бурулма сүрөт-текст сүйлөшүүлөрүнө катышуу мүмкүнчүлүгүн чектейт.

Flamingo Framework үстүнөн куруу

MultiModal-GPT деп аталган жаңы модель тилдик жана визуалдык сигналдарды колдонуп адамдар менен баарлашууга мүмкүнчүлүк берүү үчүн иштелип чыккан.

Иштеп чыгуучулар программаны колдонушкан Фламинго алкагы, муну ишке ашыруу үчүн текстти да, визуалдык да түшүнүү үчүн мурда үйрөтүлгөн.

Flamingo Framework

Фламинго текстти жана визуалдарды камтыган кеңейтилген диалогдорду түзө албагандыктан, кээ бир өзгөрүүлөрдү талап кылды.

Жаңыртылган MultiModal-GPT модели сүрөттөрдөн маалыматтарды чогултуп, адамдын буйруктарын түшүнүү жана аткаруу үчүн аны тил менен аралаштыра алат.

MultiModal-GPT

MultiModal-GPT – бул AI моделинин бир түрү, ал адамдын ар кандай суроо-талаптарын аткара алат, мисалы, визуалдык сүрөттөрдү сүрөттөө, нерселерди эсептөө жана суроолорго жооп берүү. Ал визуалдык жана оозеки маалыматтардын аралашмасын колдонуу менен буйруктарды түшүнөт жана аткарат.

Изилдөөчүлөр MultiModal-GPTтин адамдар менен баарлашуу мүмкүнчүлүгүн жогорулатуу үчүн визуалдык жана тилдик гана маалыматтарды колдонуу менен моделди үйрөтүштү. Мындан тышкары, ал сөздүн аткарылышынын байкалаарлык жакшырышына себеп болду. Ал ошондой эле анын сүйлөшүү аткарууда байкаларлык жакшыртууга алып келди.

Алар жогорку сапаттагы окутуу маалыматтарына ээ болуу сүйлөшүүнүн жакшы иштеши үчүн абдан маанилүү экенин аныкташты, анткени кыска жооптору бар чакан маалымат топтому моделге каалаган буйрукка кыскараак жоопторду түзүүгө мүмкүндүк берет.

MultiModal-GPT менен эмне кыла аласыз?

Сүйлөшүүлөргө катышуу

Мурунку тил моделдериндей эле, MultiModal-GPTтин негизги мүнөздөмөлөрүнүн бири - бул табигый тилде талкуулоо мүмкүнчүлүгү. Бул керектөөчүлөр модель менен чыныгы адам сыяктуу эле иштеше алат дегенди билдирет.

Мисалы, MultiModal-GPT кардарларга кесме жасоонун деталдуу рецептин бере алат же тамактануу үчүн мүмкүн болгон ресторандарды сунуштай алат. Модель ошондой эле колдонуучулардын саякат ниети тууралуу жалпы суроолорго жооп бере алат.

лапша

Объекттерди таануу

MultiModal-GPT сүрөттөрдөгү нерселерди таанып, алар тууралуу суроолорго жооп бере алат. Мисалы, модель Фредди Меркурини сүрөттөн таанып, ал тууралуу суроолорго жооп бере алат.

Ал ошондой эле адамдардын санын санап, алар сүрөттө эмне кылып жатканын түшүндүрө алат. Бул объектти идентификациялоо мүмкүнчүлүгү электрондук коммерция, саламаттыкты сактоо жана коопсуздук сыяктуу ар кандай тармактарда колдонмолорго ээ.

мисал

MultiModal-GPT санарип сүрөттөрдүн ичиндеги текстти да тааный алат. Бул модель сүрөттөрдөгү текстти окуп, пайдалуу маалыматтарды чыгара алат дегенди билдирет. Ал, мисалы, сүрөттөгү каармандарды таап, китептин авторун аныктай алат.

үчүн абдан пайдалуу курал болуп саналат Документти көрүү башкаруу, маалыматтарды киргизүү жана мазмунду талдоо.

Gandalf

Ой жүгүртүү жана билимди жаратуу

Мульти-модалдык-GPT дүйнө жөнүндө ой жүгүртүп, билимди чыгара алат. Бул сүрөттөргө толук түшүндүрмө берип, ал тургай, сүрөт кайсы мезгилде тартылганын айтып бере алат дегенди билдирет.

Бул көндүм экологиялык мониторинг, айыл чарба жана метеорология, анын ичинде ар кандай дисциплиналар үчүн пайдалуу. Модель кошумча түрдө поэзия, жомоктор жана ырлар сыяктуу чыгармачыл нерселерди жаратып, аны чыгармачылык тапшырмалар үчүн эң сонун куралга айландырат.

MultiModal-GPTтин ички иштери

Бирдиктүү нускамалар үчүн шаблон

Команда MultiModal-GPT моделин синергетикалык түрдө туура үйрөтүү үчүн унимодаль лингвистикалык маалыматтарды жана мультимодальдык көрүү жана тил маалыматтарын интеграциялоо үчүн бирдиктүү шаблонду сунуштайт.

Бул бириккен стратегия эки маалымат модальдарынын бири-бирин толуктоочу мүмкүнчүлүктөрүн пайдалануу жана негизги идеяларды тереңирээк түшүнүүгө түрткү берүү аркылуу ар кандай тапшырмалар боюнча моделдин иштешин жакшыртууга аракет кылат.

Dolly 15k жана Alpaca GPT4 маалымат топтомдору команда тарабынан тил боюнча гана нускамаларды аткаруу жөндөмүн өлчөө үчүн колдонулат. Бул берилиштер топтомдору ырааттуу инструкцияга ылайык форматты кепилдөө үчүн берилиштер топтомун киргизүүнү структуралаштыруу үчүн ыкчам шаблон катары иштейт.

Dolly 15k берилиштер топтомун карап чыгуу

Сүрөт: Doly 15k маалымат топтомуна сереп салуу

Модел кантип иштейт?

MultiModal-GPT моделин үч негизги компонент түзөт: тил декодери, кабылдоочунун ресамплери жана көрүү коддору. Сүрөт көрүү коддору тарабынан кабыл алынат, андан кийин аны мүнөздөгөн мүнөздөмөлөрдүн жыйындысын түзөт.

Тилдин декодери көрүү коддоочусунан алынган маалыматты кабылдоочунун ресамператорунун жардамы менен сүрөттү сүрөттөгөн текстти түзүү үчүн колдонот.

Тилди түшүнгөн жана текстти түзгөн моделдин компоненти тил декодери болуп саналат. Сөз айкашындагы төмөнкү сөздү алдын ала айтуу үчүн, модель тил боюнча гана жана көрүү плюс тил нускамасынан кийинки маалыматтарды колдонуу менен үйрөтүлөт.

Бул моделди адамдардан келген буйруктарга кандай реакция кылууну үйрөтөт жана сүрөттүн сүрөттөлүшү үчүн алгылыктуу текстти берет.

модель

Артында команда

MultiModal-GPT Tao Gong, Chengqi Lyu жана Shilong Zhang жетектеген Microsoft Research Asia изилдөөчүлөрүнүн жана инженерлеринин командасы тарабынан түзүлгөн. Юдун Ван, Миао Чжэн, Цян Чжао, Куйкун Лю, Вэнвэй Чжан, Пин Луо жана Кай Чен моделдин изилденишине жана өнүгүшүнө салым кошкон.

Табигый тилди иштетүү, компьютер көрүнүш, жана машина үйрөнүү команда үчүн компетенттүүлүктүн бардык тармактары болуп саналат. Алардын жогорку деңгээлдеги конференцияларда жана басылмаларда жарыяланган бир нече макалалары, ошондой эле илимий аракеттери үчүн ар кандай сыйлыктар жана мактоолорго ээ.

Команданын изилдөөсү адамдар менен технологиянын ортосундагы табигый жана акылдуу өз ара аракеттенүүнү камсыз кылуу үчүн заманбап моделдерди жана ыкмаларды иштеп чыгууга багытталган.

Multi-modal-GPT иштеп чыгуу бул тармактагы өзгөчө жетишкендик, анткени ал көрүү менен тилди көп раунддуу талкуу үчүн бирдиктүү алкакта бириктирген алгачкы моделдердин бири.

Команданын MultiModal-GPT изилдөө жана иштеп чыгууларына кошкон салымы табигый тилди иштетүү жана адам менен машинанын өз ара аракеттенүүсүнүн келечегине олуттуу таасирин тийгизе алат.

MultiModal-GPT кантип колдонсо болот

Жаңы баштагандар үчүн MultiModal-GPT куралын колдонуу жөнөкөй. Жөн гана барыңыз https://mmgpt.openmmlab.org.cn/ жана "Сүрөттү жүктөө" баскычын басыңыз.

Жүктөп бере турган сүрөт файлын тандап, андан кийин текст талаасына текстти киргизиңиз. Модельден жооп түзүү үчүн, текст талаасынын астында пайда боло турган "Тапшыруу" баскычын чыкылдатыңыз.

Моделдин мүмкүнчүлүктөрү тууралуу көбүрөөк билүү үчүн ар кандай сүрөттөр жана нускамалар менен эксперимент жасасаңыз болот.

Интерфейс 1

орнотуу

MultiModal-GPT пакетин орнотуу үчүн, GitHub репозиторийлерин клондоо үчүн "git clone https://github.com/open-mmlab/Multimodal-GPT.git" терминалдык буйругун колдонуңуз. Сиз жөн гана бул кадамдарды аткара аласыз:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Же болбосо, колдонуңуз conda env create -f environment.yml жаңы конда чөйрөсүн түзүү. Сиз демонстрацияны орноткондон кийин, алдын ала даярдалган салмактарды жүктөп алып, текшерүү пункттарынын папкасында сактоо менен иштетсеңиз болот.

Gradio демосун "python app.py" буйругун иштетүү менен ишке киргизсе болот.

Потенциалдуу кемчиликтер

MultiModal-GPT моделинин эң сонун иштешине карабастан, дагы эле кемчиликтер жана өнүгүү үчүн орун бар.

Мисалы, татаал же түшүнүксүз визуалдык киргизүүлөр менен иштөөдө, модель дайыма эле киргизүүнүн контекстин таанып, түшүнө албашы мүмкүн. Бул туура эмес божомолдорго же моделдин реакцияларына алып келиши мүмкүн.

Кошумчалай кетсек, өзгөчө киргизүү татаал же ачык болгондо, модель дайыма эле эң жакшы реакцияны же натыйжаны бере бербейт. Моделдин жообуна, мисалы, китептин мукабасын туура эмес аныктоодо эки китептин мукабасынын окшоштугу таасир эткен болушу мүмкүн.

жыйынтыктоо

Жалпысынан, MultiModal-GPT модели табигый тилди иштетүүдө жана машинаны үйрөнүүдө чоң кадамды билдирет. Жана аны колдонуу жана аны менен эксперимент кылуу абдан кызыктуу. Демек, сиз да аракет кылышыңыз керек!

Бирок, бардык моделдер сыяктуу эле анын да чеги бар жана ар кандай тиркемелерде жана домендерде максималдуу аткарууну алуу үчүн кошумча тактоо жана өркүндөтүүнү талап кылат.