MultiModal-GPT: ព្រំដែនថ្មីនៅក្នុងការរួមបញ្ចូលគ្នានៃភាសា និងចក្ខុវិស័យ

តើអ្នកធ្លាប់ប្រាថ្នាថាអ្នកអាចសន្ទនាជាមួយ AI ដែលអាចយល់បានទាំងទិន្នន័យដែលនិយាយ និងរូបភាពដែរឬទេ? គំរូ MultiModal-GPT រួមបញ្ចូលគ្នានូវដំណើរការភាសាជាមួយនឹងការយល់ដឹងដែលមើលឃើញ។

វាផ្តល់នូវលទ្ធភាពនៃអន្តរកម្មរវាងមនុស្ស និងកុំព្យូទ័រដែលមានភាពត្រឹមត្រូវ និងចម្រុះ។ MultiModal-GPT អាចផ្តល់ចំណងជើងពិពណ៌នា រាប់ធាតុនីមួយៗ និងឆ្លើយតបទៅនឹងសំណួរអ្នកប្រើប្រាស់ទូទៅ។

ប៉ុន្តែ តើវាធ្វើបែបនេះដោយរបៀបណា? ហើយតើអ្នកអាចធ្វើអ្វីបានជាមួយ MultiModal-GPT?

ចូរយករឿងនេះមកចាប់ផ្តើមនិងយល់ពីលទ្ធភាពដែលនៅខាងមុខយើង។

ជាមួយនឹងការលេចចេញនូវគំរូភាសាដូចជា GPT-4 បច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិកំពុងបង្ហាញអំពីបដិវត្តន៍។ ការច្នៃប្រឌិតដូចជា ChatGPT ត្រូវបានបញ្ចូលទៅក្នុងជីវិតរបស់យើងរួចហើយ។

ហើយពួកគេហាក់ដូចជាបន្តមក!

GPT-4 និងដែនកំណត់របស់វា។

GPT-4 បានបង្ហាញពីជំនាញដ៏អស្ចារ្យក្នុងការសន្ទនាពហុមុខងារជាមួយមនុស្ស។ ការសិក្សាបានខិតខំប្រឹងប្រែងដើម្បីចម្លងការអនុវត្តនេះ ប៉ុន្តែដោយសារតែចំនួននិមិត្តសញ្ញារូបភាពដែលមានសក្តានុពលខ្ពស់ រួមទាំងម៉ូដែលដែលមានព័ត៌មានដែលមើលឃើញច្បាស់លាស់អាចមានតម្លៃថ្លៃក្នុងការគណនា។

ម៉ូដែលដែលមានស្រាប់ក៏មិនរួមបញ្ចូលការកែសម្រួលការណែនាំភាសានៅក្នុងការសិក្សារបស់ពួកគេដែរ ដែលដាក់កម្រិតសមត្ថភាពរបស់ពួកគេក្នុងការចូលរួមក្នុងការសន្ទនាជារូបភាពពហុវេន។

ការកសាងលើក្របខ័ណ្ឌ Flamingo

គំរូថ្មីមួយដែលហៅថា MultiModal-GPT ត្រូវបានបង្កើតឡើងដើម្បីបើកការប្រាស្រ័យទាក់ទងជាមួយមនុស្សដោយប្រើទាំងភាសា និងសញ្ញាដែលមើលឃើញ។

អ្នកអភិវឌ្ឍន៍បានប្រើកម្មវិធីមួយហៅថា អេ ក្របខ័ណ្ឌ Flamingo, ដែលពីមុនត្រូវបានបណ្តុះបណ្តាលដើម្បីយល់ទាំងអត្ថបទ និងរូបភាព ដើម្បីធ្វើឱ្យវាអាចទៅរួច។

ក្របខ័ណ្ឌ Flamingo

Flamingo ត្រូវការការផ្លាស់ប្តូរមួយចំនួន ព្រោះវាមិនអាចមានការសន្ទនាបន្ថែមដែលរួមបញ្ចូលអត្ថបទ និងរូបភាព។

គំរូ MultiModal-GPT ដែលបានអាប់ដេតអាចប្រមូលទិន្នន័យពីរូបភាព និងលាយវាជាមួយភាសាដើម្បីយល់ និងអនុវត្តពាក្យបញ្ជារបស់មនុស្ស។

MultiModal-GPT

MultiModal-GPT គឺជាប្រភេទនៃគំរូ AI ដែលអាចធ្វើតាមការសាកសួររបស់មនុស្សផ្សេងៗដូចជា ការពិពណ៌នាអំពីរូបភាព ការរាប់ធាតុ និងការឆ្លើយសំណួរ។ វាយល់ និងធ្វើតាមការបញ្ជាទិញដោយប្រើការលាយបញ្ចូលគ្នានៃទិន្នន័យដែលមើលឃើញ និងពាក្យសំដី។

អ្នកស្រាវជ្រាវបានបណ្តុះបណ្តាលគំរូដោយប្រើទាំងទិន្នន័យដែលមើលឃើញ និងតែភាសាដើម្បីបង្កើនសមត្ថភាពរបស់ MultiModal-GPT ក្នុងការសន្ទនាជាមួយមនុស្ស។ លើសពីនេះ វាបណ្តាលឱ្យមានការប្រសើរឡើងគួរឱ្យកត់សម្គាល់នៅក្នុងវិធីដែលសុន្ទរកថារបស់ខ្លួនត្រូវបានអនុវត្ត។ វាក៏បាននាំឱ្យមានការកែលម្អគួរឱ្យកត់សម្គាល់នៅក្នុងការអនុវត្តការសន្ទនារបស់វាផងដែរ។

ពួកគេបានរកឃើញថាការមានទិន្នន័យបណ្តុះបណ្តាលដែលមានគុណភាពខ្ពស់គឺមានសារៈសំខាន់សម្រាប់ដំណើរការសន្ទនាដ៏ល្អ ពីព្រោះសំណុំទិន្នន័យតូចមួយដែលមានការឆ្លើយតបខ្លីអាចអនុញ្ញាតឱ្យម៉ូដែលបង្កើតការឆ្លើយតបខ្លីជាងចំពោះពាក្យបញ្ជាណាមួយ។

តើអ្នកអាចធ្វើអ្វីបានជាមួយ MultiModal-GPT?

ការចូលរួមក្នុងការសន្ទនា

ដូចគំរូភាសាដែលពីមុនមក លក្ខណៈចម្បងមួយរបស់ MultiModal-GPT គឺសមត្ថភាពរបស់វាក្នុងការចូលរួមក្នុងការពិភាក្សាភាសាធម្មជាតិ។ នេះបញ្ជាក់ថាអ្នកប្រើប្រាស់អាចចូលរួមជាមួយគំរូដូចដែលពួកគេចង់បានជាមួយមនុស្សពិត។

ជាឧទាហរណ៍ MultiModal-GPT អាចផ្តល់ឱ្យអតិថិជននូវរូបមន្តលម្អិតសម្រាប់ធ្វើគុយទាវ ឬណែនាំភោជនីយដ្ឋានដែលអាចធ្វើទៅបានសម្រាប់ការទទួលទានអាហារនៅខាងក្រៅ។ ម៉ូដែលនេះក៏មានសមត្ថភាពឆ្លើយតបទៅនឹងសំណួរទូទៅអំពីបំណងធ្វើដំណើររបស់អ្នកប្រើប្រាស់ផងដែរ។

នុយ

ការទទួលស្គាល់វត្ថុ

MultiModal-GPT អាចស្គាល់អ្វីៗនៅក្នុងរូបថត និងឆ្លើយតបទៅនឹងការសាកសួរអំពីពួកគេ។ ជាឧទាហរណ៍ គំរូអាចស្គាល់ Freddie Mercury នៅក្នុងរូបភាពមួយ ហើយឆ្លើយតបទៅនឹងសំណួរអំពីគាត់។

វាក៏អាចរាប់ចំនួនបុគ្គល និងពន្យល់ពីអ្វីដែលពួកគេកំពុងធ្វើនៅក្នុងរូបភាពមួយ។ សមត្ថភាពកំណត់អត្តសញ្ញាណវត្ថុនេះមានកម្មវិធីក្នុងវិស័យជាច្រើន រួមទាំងពាណិជ្ជកម្មអេឡិចត្រូនិក ការថែទាំសុខភាព និងសុវត្ថិភាព។

ឧទាហរណ៍

MultiModal-GPT ក៏អាចស្គាល់អត្ថបទនៅក្នុងរូបភាពឌីជីថលផងដែរ។ នេះបញ្ជាក់ថា គំរូអាចអានអត្ថបទក្នុងរូបថត និងទាញយកទិន្នន័យមានប្រយោជន៍។ ជាឧទាហរណ៍ វាអាចរកឃើញតួអក្សរនៅក្នុងរូបភាព និងកំណត់អត្តសញ្ញាណអ្នកនិពន្ធសៀវភៅ។

វាជាឧបករណ៍មានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ ការគ្រប់គ្រងឯកសារ។ការបញ្ចូលទិន្នន័យ និងការវិភាគខ្លឹមសារ។

Gandalf

ហេតុផល និងការបង្កើតចំណេះដឹង

Multi-modal-GPT អាចវែកញែក និងបង្កើតចំណេះដឹងអំពីពិភពលោក។ នេះមានន័យថា វាអាចផ្តល់នូវការពន្យល់ពេញលេញនៃរូបថត ហើយថែមទាំងប្រាប់ពួកគេថាតើរូបភាពត្រូវបានថតក្នុងរដូវកាលណា។

ជំនាញនេះមានប្រយោជន៍ក្នុងមុខវិជ្ជាជាច្រើន រួមទាំងការត្រួតពិនិត្យបរិស្ថាន កសិកម្ម និងឧតុនិយម។ ម៉ូដែលនេះក៏អាចបង្កើតវត្ថុច្នៃប្រឌិតដូចជាកំណាព្យ រឿងនិទាន និងចម្រៀង ដែលធ្វើឱ្យវាក្លាយជាឧបករណ៍ដ៏ល្អសម្រាប់កិច្ចការច្នៃប្រឌិត។

ការងារខាងក្នុងនៃ MultiModal-GPT

គំរូសម្រាប់ការណែនាំបង្រួបបង្រួម

ក្រុមការងារបង្ហាញគំរូតែមួយសម្រាប់ការរួមបញ្ចូលទិន្នន័យភាសាដែលមិនមានលក្ខណៈស្តង់ដារ និងទិន្នន័យចក្ខុវិស័យ និងភាសាពហុម៉ូត ដើម្បីបណ្តុះបណ្តាលគំរូ MultiModal-GPT ឱ្យបានត្រឹមត្រូវក្នុងលក្ខណៈរួមមួយ។

យុទ្ធសាស្ត្ររួមបញ្ចូលគ្នានេះព្យាយាមកែលម្អការអនុវត្តរបស់គំរូនៅទូទាំងភារកិច្ចជាច្រើនដោយទាញយកសមត្ថភាពបន្ថែមនៃទម្រង់ទិន្នន័យទាំងពីរ និងលើកទឹកចិត្តឱ្យមានការយល់កាន់តែស៊ីជម្រៅនៃគំនិតមូលដ្ឋាន។

សំណុំទិន្នន័យ Dolly 15k និង Alpaca GPT4 ត្រូវបានប្រើដោយក្រុមដើម្បីវាស់ស្ទង់សមត្ថភាពតាមការណែនាំសម្រាប់តែភាសាប៉ុណ្ណោះ។ សំណុំទិន្នន័យទាំងនេះដើរតួជាគំរូប្រអប់បញ្ចូលសម្រាប់ការរៀបចំរចនាសម្ព័ន្ធការបញ្ចូលសំណុំទិន្នន័យ ដើម្បីធានានូវទម្រង់តាមការណែនាំស្របគ្នា។

ទិដ្ឋភាពទូទៅនៃសំណុំទិន្នន័យ Dolly 15k

រូបភាព៖ ទិដ្ឋភាពទូទៅនៃសំណុំទិន្នន័យ Doly 15k

តើគំរូដំណើរការយ៉ាងដូចម្តេច?

សមាសធាតុសំខាន់ៗចំនួនបីបង្កើតបានជាគំរូ MultiModal-GPT៖ ឧបករណ៍ឌិកូដភាសា ឧបករណ៍បំប្លែងការយល់ឃើញ និងឧបករណ៍បំប្លែងចក្ខុវិស័យ។ រូបភាពត្រូវបានថតដោយកម្មវិធីបំប្លែងចក្ខុវិស័យ ដែលបន្ទាប់មកបង្កើតបណ្តុំនៃលក្ខណៈដែលកំណត់លក្ខណៈរបស់វា។

ឧបករណ៍បំប្លែងភាសាប្រើព័ត៌មានពីកម្មវិធីបំប្លែងការយល់ឃើញដើម្បីបង្កើតអត្ថបទដែលពណ៌នារូបភាពដោយមានជំនួយពីអ្នកយល់ឃើញសារជាថ្មី។

ធាតុផ្សំនៃគំរូដែលយល់ភាសា និងបង្កើតអត្ថបទគឺជាឧបករណ៍ឌិកូដភាសា។ ដើម្បីទស្សន៍ទាយពាក្យខាងក្រោមក្នុងឃ្លាមួយ គំរូត្រូវបានបណ្តុះបណ្តាលដោយប្រើទាំងទិន្នន័យការណែនាំជាភាសា និង ចក្ខុវិស័យបូកនឹងភាសា។

វាបង្រៀនគំរូពីរបៀបប្រតិកម្មទៅនឹងពាក្យបញ្ជាពីមនុស្ស និងផ្តល់នូវអត្ថបទដែលអាចទទួលយកបានសម្រាប់ការពិពណ៌នារូបភាព។

សារីុ

ក្រុមនៅពីក្រោយ

MultiModal-GPT ត្រូវបានបង្កើតឡើងដោយក្រុមអ្នកស្រាវជ្រាវ និងវិស្វករ Microsoft Research Asia ដែលដឹកនាំដោយ Tao Gong, Chengqi Lyu និង Shilong Zhang ។ Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo និង Kai Chen សុទ្ធតែបានចូលរួមចំណែកក្នុងការសិក្សា និងការអភិវឌ្ឍន៍របស់តារាម៉ូដែល។

ដំណើរការភាសាធម្មជាតិ, ចក្ខុវិស័យកុំព្យូទ័រហើយការរៀនម៉ាស៊ីនគឺជាផ្នែកទាំងអស់នៃសមត្ថភាពសម្រាប់ក្រុម។ ពួកគេមានអត្ថបទជាច្រើនដែលបានបោះពុម្ពនៅក្នុងសន្និសិទថ្នាក់កំពូល និងការបោះពុម្ពផ្សាយ ក៏ដូចជាកិត្តិយស និងការសរសើរផ្សេងៗសម្រាប់ការខិតខំប្រឹងប្រែងផ្នែកវិទ្យាសាស្ត្ររបស់ពួកគេ។

ការស្រាវជ្រាវរបស់ក្រុមផ្តោតលើការអភិវឌ្ឍន៍នៃគំរូ និងវិធីសាស្រ្តទំនើបៗ ដើម្បីបើកឱ្យមានអន្តរកម្មធម្មជាតិ និងឆ្លាតវៃបន្ថែមទៀតរវាងមនុស្ស និងបច្ចេកវិទ្យា។

ការអភិវឌ្ឍន៍ Multi-modal-GPT គឺជាសមិទ្ធិផលគួរឱ្យកត់សម្គាល់នៅក្នុងវិស័យនេះ ចាប់តាំងពីវាគឺជាគំរូមួយក្នុងចំណោមគំរូដំបូងគេដែលរួមបញ្ចូលគ្នានូវចក្ខុវិស័យ និងភាសានៅក្នុងក្របខ័ណ្ឌតែមួយសម្រាប់ការពិភាក្សាពហុជុំ។

ការរួមចំណែករបស់ក្រុមចំពោះការស្រាវជ្រាវ និងការអភិវឌ្ឍន៍ MultiModal-GPT មានសក្តានុពលក្នុងការមានឥទ្ធិពលយ៉ាងខ្លាំងទៅលើអនាគតនៃដំណើរការភាសាធម្មជាតិ និងអន្តរកម្មរវាងមនុស្ស និងម៉ាស៊ីន។

របៀបប្រើ MultiModal-GPT

សម្រាប់អ្នកចាប់ផ្តើមដំបូង ការប្រើឧបករណ៍ MultiModal-GPT គឺសាមញ្ញ។ គ្រាន់តែទៅ https://mmgpt.openmmlab.org.cn/ ហើយចុចប៊ូតុង "ផ្ទុករូបភាព" ។

ជ្រើសរើសឯកសាររូបភាពដើម្បីផ្ទុកឡើង ហើយបន្ទាប់មកវាយបញ្ចូលប្រអប់បញ្ចូលទៅក្នុងប្រអប់អត្ថបទ។ ដើម្បីបង្កើតការឆ្លើយតបពីគំរូ សូមចុចប៊ូតុង "ដាក់ស្នើ" ដែលនឹងបង្ហាញខាងក្រោមវាលអត្ថបទ។

អ្នកអាចសាកល្បងជាមួយរូបថត និងការណែនាំផ្សេងៗគ្នា ដើម្បីស្វែងយល់បន្ថែមអំពីសមត្ថភាពរបស់ម៉ូដែល។

ចំណុចប្រទាក់ 1

ការដំឡើង

ដើម្បីដំឡើងកញ្ចប់ MultiModal-GPT ប្រើពាក្យបញ្ជាស្ថានីយ "git clone https://github.com/open-mmlab/Multimodal-GPT.git" ដើម្បីក្លូនឃ្លាំងពី GitHub ។ អ្នកអាចអនុវត្តតាមជំហានទាំងនេះបានយ៉ាងសាមញ្ញ៖

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

ជាជម្រើសប្រើ conda env create -f environment.yml ដើម្បីបង្កើតបរិយាកាស conda ថ្មី។ អ្នកអាចដំណើរការការបង្ហាញនៅក្នុងមូលដ្ឋានបន្ទាប់ពីដំឡើងវាដោយទាញយកទម្ងន់ដែលបានហ្វឹកហាត់ជាមុន ហើយរក្សាទុកវានៅក្នុងថតចំណុចត្រួតពិនិត្យ។

បន្ទាប់មក ការបង្ហាញ Gradio អាចត្រូវបានចាប់ផ្តើមដោយដំណើរការពាក្យបញ្ជា "python app.py" ។

គុណវិបត្តិដែលអាចកើតមាន

ម៉ូដែល MultiModal-GPT នៅតែមានគុណវិបត្តិ និងកន្លែងសម្រាប់ការអភិវឌ្ឍន៍ ទោះបីជាដំណើរការល្អរបស់វាក៏ដោយ។

ជាឧទាហរណ៍ នៅពេលដោះស្រាយជាមួយធាតុបញ្ចូលដែលមើលឃើញស្មុគស្មាញ ឬមិនច្បាស់លាស់ គំរូអាចនឹងមិនតែងតែអាចទទួលស្គាល់ និងយល់ពីបរិបទនៃការបញ្ចូលនោះទេ។ នេះអាចបណ្តាលឱ្យមានការព្យាករណ៍មិនត្រឹមត្រូវ ឬប្រតិកម្មពីគំរូ។

លើសពីនេះ ជាពិសេសនៅពេលដែលការបញ្ចូលមានភាពស្មុគស្មាញ ឬបើកចំហរ គំរូប្រហែលជាមិនតែងតែបង្កើតប្រតិកម្ម ឬលទ្ធផលល្អបំផុតនោះទេ។ ជាឧទាហរណ៍ ចំលើយរបស់គំរូអាចរងផលប៉ះពាល់ដោយរបៀបដែលគម្របសៀវភៅទាំងពីរមើលទៅស្រដៀងគ្នានៅក្នុងករណីនៃការកំណត់អត្តសញ្ញាណមិនត្រឹមត្រូវនៃគម្របសៀវភៅ។

សន្និដ្ឋាន

សរុបមក គំរូ MultiModal-GPT តំណាងឱ្យជំហានដ៏ធំមួយឆ្ពោះទៅមុខក្នុងដំណើរការភាសាធម្មជាតិ និងការរៀនម៉ាស៊ីន។ ហើយវាពិតជារំភើបណាស់ក្នុងការប្រើប្រាស់វា និងពិសោធន៍ជាមួយវា។ ដូច្នេះ អ្នកគួរតែសាកល្បងវាផង!

ទោះយ៉ាងណាក៏ដោយ វាមានដែនកំណត់ ដូចម៉ូដែលទាំងអស់ដែរ ហើយទាមទារការកែលម្អ និងការកែលម្អបន្ថែម ដើម្បីទទួលបានដំណើរការអតិបរមានៅក្នុងកម្មវិធី និងដែនផ្សេងៗគ្នា។