MultiModal-GPT: Хэл ба харааны интеграцийн шинэ хил хязгаар

Та ярианы болон харааны мэдээллийг хоёуланг нь ойлгодог хиймэл оюун ухаантай ярилцахыг хүсч байсан уу? MultiModal-GPT парадигм нь хэлний боловсруулалтыг харааны ойлголттой хослуулсан.

Энэ нь хүн-компьютер хоорондын үнэн зөв, төрөлжсөн харилцан үйлчлэлийн боломжийг санал болгодог. MultiModal-GPT тайлбартай тайлбар өгөх, бие даасан зүйлсийг тоолох, хэрэглэгчийн ерөнхий асуултад хариулах боломжтой.

Гэхдээ үүнийг яаж хийдэг вэ? Мөн та MultiModal-GPT-ээр юу хийж чадах вэ?

Түүхийг эхэнд нь хүргэж, бидний өмнө байгаа боломжуудыг ойлгоцгооё.

GPT-4 гэх мэт хэлний загварууд гарч ирснээр байгалийн хэл боловсруулах технологи нь хувьсгалын гэрч болж байна. ChatGPT гэх мэт инноваци бидний амьдралд аль хэдийн нэвтэрсэн.

Тэгээд тэд үргэлжлүүлэн ирсээр байх шиг байна!

GPT-4 ба түүний хязгаарлалт

GPT-4 нь хүмүүстэй олон төрлийн яриа өрнүүлэх чадвараа харуулсан. Судалгаагаар энэ гүйцэтгэлийг хуулбарлахыг хичээсэн боловч зурагны жетонуудын тоо өндөр байж болзошгүй тул нарийн харааны мэдээлэл бүхий загварууд нь тооцоолоход үнэтэй байдаг.

Одоо байгаа загварууд нь судалгаандаа хэлний зааварчилгааг оруулаагүй бөгөөд энэ нь тэдний олон эргэлттэй зураг-текст харилцан ярианд оролцох боломжийг хязгаарладаг.

Flamingo Framework дээр суурилсан

Хэл шинжлэлийн болон харааны дохиог ашиглан хүмүүстэй харилцах боломжийг олгохын тулд MultiModal-GPT хэмээх шинэ загварыг боловсруулсан.

Хөгжүүлэгчид программыг ашигласан Фламинго хүрээ, Үүнийг хэрэгжүүлэх боломжтой болгохын тулд өмнө нь текст болон үзүүлэнг ойлгоход сургагдсан.

Фламинго хүрээ

Фламинго нь текст болон дүрслэл бүхий өргөтгөсөн харилцан яриа хийх боломжгүй байсан тул зарим өөрчлөлтийг хийх шаардлагатай байв.

Шинэчлэгдсэн MultiModal-GPT загвар нь зургаас өгөгдөл цуглуулж, хэлтэй хольж хүний тушаалыг ойлгож, гүйцэтгэх боломжтой.

MultiModal-GPT

MultiModal-GPT нь дүрсийг дүрслэх, зүйлсийг тоолох, асуултад хариулах зэрэг хүний янз бүрийн асуултуудыг дагаж мөрдөх боломжтой хиймэл оюун ухааны загварын нэг төрөл юм. Энэ нь харааны болон аман өгөгдлийг хослуулан захиалгыг ойлгож, дагаж мөрддөг.

Судлаачид MultiModal-GPT-ийн хүмүүстэй харилцах чадавхийг нэмэгдүүлэхийн тулд зөвхөн харааны болон хэлний өгөгдлийг ашиглан загварыг сургасан. Нэмж дурдахад, энэ нь илтгэл тавих арга барилд мэдэгдэхүйц сайжирсан. Энэ нь мөн ярианы гүйцэтгэлд мэдэгдэхүйц сайжирсан.

Богино хариулт бүхий жижиг өгөгдлийн багц нь загварт аливаа тушаалд богино хариулт үүсгэх боломжийг олгодог тул өндөр чанартай сургалтын өгөгдөлтэй байх нь харилцан ярианы гүйцэтгэлд маш чухал гэдгийг олж мэдсэн.

MultiModal-GPT ашиглан юу хийж чадах вэ?

Ярилцлагад оролцох

Өмнө нь гарч ирсэн хэлний загваруудын нэгэн адил MultiModal-GPT-ийн үндсэн шинж чанаруудын нэг нь байгалийн хэлний хэлэлцүүлэгт оролцох чадвар юм. Энэ нь хэрэглэгчид бодит хүнтэй адилхан загвартай харьцаж болно гэсэн үг юм.

Жишээлбэл, MultiModal-GPT нь үйлчлүүлэгчдэд гоймон хийх дэлгэрэнгүй жор өгөх эсвэл гадуур хооллох боломжтой ресторануудыг санал болгох боломжтой. Энэхүү загвар нь хэрэглэгчдийн аяллын талаархи ерөнхий асуултуудад хариулах чадвартай.

Noodles

Объектуудыг таних

MultiModal-GPT нь зураг дээрх зүйлсийг таньж, тэдгээрийн талаарх асуултад хариулах боломжтой. Жишээлбэл, загвар өмсөгч Фредди Меркьюриг зурагнаас таньж, түүний талаарх асуултад хариулах боломжтой.

Мөн хүмүүсийн тоог тоолж, юу хийж байгааг нь зурган дээр тайлбарлаж болно. Энэхүү объектыг таних чадвар нь цахим худалдаа, эрүүл мэнд, аюулгүй байдал зэрэг олон салбарт хэрэглэгдэх боломжтой.

Жишээ нь

MultiModal-GPT нь дижитал зураг доторх текстийг таньж чаддаг. Энэ нь загвар нь зураг дээрх текстийг уншиж, хэрэгтэй өгөгдлийг гаргаж авах боломжтой гэсэн үг юм. Жишээлбэл, энэ нь зураг дээрх баатруудыг илрүүлж, номын зохиогчийг тодорхойлох боломжтой.

Энэ нь маш хэрэгтэй хэрэгсэл юм баримт бичгийн менежмент, өгөгдөл оруулах, агуулгын дүн шинжилгээ хийх.

Гандalfall

Үндэслэл ба мэдлэгийг бий болгох

Multi-modal-GPT нь дэлхийн талаарх мэдлэгийг бодож, гаргаж чаддаг. Энэ нь гэрэл зургийн бүрэн тайлбарыг өгч, тэр ч байтугай ямар улиралд авсан зургийг хэлж чадна гэсэн үг юм.

Энэ ур чадвар нь байгаль орчны хяналт, хөдөө аж ахуй, цаг уур зэрэг олон төрлийн салбаруудад хэрэгтэй. Энэхүү загвар нь яруу найраг, үлгэр, дуу зэрэг бүтээлч зүйлсийг нэмж бүтээх боломжтой бөгөөд энэ нь бүтээлч ажлуудад маш сайн хэрэгсэл болгодог.

MultiModal-GPT-ийн дотоод ажил

Нэгдсэн зааварчилгааны загвар

Баг нь MultiModal-GPT загварыг синергетик байдлаар зөв сургахын тулд unimodal хэл шинжлэлийн өгөгдөл болон мультимодаль алсын хараа-хэлний өгөгдлийг нэгтгэх нэг загварыг танилцуулж байна.

Энэхүү хосолсон стратеги нь өгөгдлийн аргуудын нэмэлт чадавхийг ашиглаж, үндсэн санааг илүү гүнзгий ойлгоход түлхэц өгөх замаар янз бүрийн даалгаврын дагуу загварын гүйцэтгэлийг сайжруулахыг оролддог.

Dolly 15k болон Alpaca GPT4 өгөгдлийн багцыг баг зөвхөн хэлний зааварчилгааг дагах чадварыг хэмжихэд ашигладаг. Эдгээр өгөгдлийн багц нь зааварчилгааг дагаж мөрдөх форматыг баталгаажуулахын тулд өгөгдлийн багцын оролтыг зохион байгуулах шуурхай загвар болж ажилладаг.

Dolly 15k өгөгдлийн багцын тойм

Зураг: Doly 15k өгөгдлийн багцын тойм

Загвар хэрхэн ажилладаг вэ?

MultiModal-GPT загварыг гурван үндсэн бүрэлдэхүүн хэсэг бүрдүүлдэг: хэлний декодер, хүлээн авагчийн дахин загварчлагч, харааны кодлогч. Зургийг харааны кодлогчоор авч, дараа нь түүнийг тодорхойлох шинж чанаруудын цуглуулгыг үүсгэдэг.

Хэлний декодлогч нь харааны кодлогчийн мэдээллийг ашиглан хүлээн авагчийн дахин загварчлагчийн тусламжтайгаар дүрсийг дүрсэлсэн текстийг үүсгэдэг.

Хэлийг ойлгож, текстийг үүсгэдэг загварын бүрэлдэхүүн хэсэг нь хэлний декодлогч юм. Дараах үгийг хэллэгээр таамаглахын тулд загварыг зөвхөн хэлний болон харааны нэмэлт хэлний зааврын дагасан өгөгдлийг ашиглан сургадаг.

Энэ нь загварт хүний тушаалд хэрхэн хариу үйлдэл үзүүлэхийг зааж, зургийн тайлбарыг хүлээн зөвшөөрч болохуйц текстийг өгдөг.

загвар

Ард байгаа баг

MultiModal-GPT-ийг Тао Гонг, Ченгчи Лю, Шилонг Жан тэргүүтэй Microsoft Research Asia судлаач, инженерүүдийн баг бүтээжээ. Юдун Ван, Миао Жэн, Цян Жао, Күйкүн Лю, Вэнвэй Жан, Пин Луо, Кай Чен нар загвар өмсөгчийг судлах, хөгжүүлэхэд хувь нэмрээ оруулсан.

Байгалийн хэлний боловсруулалт, компьютерийн алсын хараа, болон машин сургалт нь багийн чадамжийн бүх салбар юм. Тэд дээд түвшний хурал, хэвлэлд нийтлэгдсэн хэд хэдэн өгүүлэл, мөн шинжлэх ухааны хүчин чармайлтынхаа төлөө төрөл бүрийн өргөмжлөл, өргөмжлөлтэй.

Багийн судалгаа нь хүн ба технологийн хооронд илүү байгалийн, ухаалаг харилцан үйлчлэлийг бий болгох хамгийн сүүлийн үеийн загвар, арга барилыг хөгжүүлэхэд чиглэдэг.

Multi-modal-GPT хөгжүүлэлт нь олон талт хэлэлцүүлгийн нэг хүрээнд алсын хараа, хэлийг хослуулсан анхны загваруудын нэг учраас энэ салбарт анхаарал татахуйц амжилт юм.

MultiModal-GPT судалгаа, хөгжүүлэлтэд тус багийн оруулсан хувь нэмэр нь байгалийн хэлний боловсруулалт болон хүн-машины харилцан үйлчлэлийн ирээдүйд чухал нөлөө үзүүлэх боломжтой.

MultiModal-GPT-г хэрхэн ашиглах талаар

Эхлэгчдэд MultiModal-GPT хэрэгслийг ашиглах нь энгийн зүйл юм. Зүгээр л оч https://mmgpt.openmmlab.org.cn/ "Зураг байршуулах" товчийг дарна уу.

Байршуулах зургийн файлаа сонгоод дараа нь текст талбарт текст хүлээх мөрийг бичнэ үү. Загвараас хариулт үүсгэхийн тулд текст талбарын доор гарч ирэх "Илгээх" товчийг дарна уу.

Загварын чадварын талаар илүү ихийг мэдэхийн тулд та өөр өөр зураг, зааварчилгааг туршиж үзэж болно.

Интерфэйс 1

суулгах нь

MultiModal-GPT багцыг суулгахын тулд "git clone https://github.com/open-mmlab/Multimodal-GPT.git" терминалын командыг ашиглан GitHub-аас репозиторыг хувилна. Та зүгээр л дараах алхмуудыг дагаж болно:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Эсвэл ашиглах conda env create -f environment.yml шинэ конда орчинг бий болгох. Та урьдчилан бэлтгэсэн жинг татаж аваад шалгах цэгийн хавтсанд хадгалах замаар суулгасны дараа демо-г ажиллуулж болно.

Дараа нь "python app.py" командыг ажиллуулснаар Gradio demo-г эхлүүлж болно.

Болзошгүй сул талууд

MultiModal-GPT загвар нь маш сайн гүйцэтгэлтэй хэдий ч дутагдалтай, хөгжүүлэх боломжтой хэвээр байна.

Жишээлбэл, ээдрээтэй эсвэл хоёрдмол утгатай визуал оролттой ажиллах үед загвар нь оролтын контекстийг үргэлж таньж, ойлгох чадваргүй байж болно. Энэ нь загвараас буруу таамаглал эсвэл хариу үйлдэл үзүүлэхэд хүргэж болзошгүй.

Нэмж дурдахад, оролт нь төвөгтэй эсвэл нээлттэй байх үед загвар нь үргэлж хамгийн сайн хариу үйлдэл эсвэл үр дүнг өгдөггүй. Жишээлбэл, номын хавтасыг буруу тодорхойлсон тохиолдолд хоёр номын хавтас хэр төстэй байсан нь загварын хариултад нөлөөлсөн байж магадгүй юм.

Дүгнэлт

Ерөнхийдөө MultiModal-GPT загвар нь байгалийн хэлний боловсруулалт, машин сурахад том алхам юм. Үүнийг ашиглах, туршиж үзэх нь маш сонирхолтой юм. Тиймээс, та үүнийг туршиж үзэх хэрэгтэй!

Гэсэн хэдий ч, энэ нь бүх загваруудын адил хязгаарлалттай бөгөөд янз бүрийн програмууд болон домэйнуудад хамгийн их гүйцэтгэлийг олж авахын тулд нэмэлт сайжруулалт, сайжруулалтыг шаарддаг.