តើអ្នកធ្លាប់ប្រាថ្នាថាអ្នកអាចសន្ទនាជាមួយ AI ដែលអាចយល់បានទាំងទិន្នន័យដែលនិយាយ និងរូបភាពដែរឬទេ? គំរូ MultiModal-GPT រួមបញ្ចូលគ្នានូវដំណើរការភាសាជាមួយនឹងការយល់ដឹងដែលមើលឃើញ។
វាផ្តល់នូវលទ្ធភាពនៃអន្តរកម្មរវាងមនុស្ស និងកុំព្យូទ័រដែលមានភាពត្រឹមត្រូវ និងចម្រុះ។ MultiModal-GPT អាចផ្តល់ចំណងជើងពិពណ៌នា រាប់ធាតុនីមួយៗ និងឆ្លើយតបទៅនឹងសំណួរអ្នកប្រើប្រាស់ទូទៅ។
ប៉ុន្តែ តើវាធ្វើបែបនេះដោយរបៀបណា? ហើយតើអ្នកអាចធ្វើអ្វីបានជាមួយ MultiModal-GPT?
ចូរយករឿងនេះមកចាប់ផ្តើមនិងយល់ពីលទ្ធភាពដែលនៅខាងមុខយើង។
ជាមួយនឹងការលេចចេញនូវគំរូភាសាដូចជា GPT-4 បច្ចេកវិទ្យាដំណើរការភាសាធម្មជាតិកំពុងបង្ហាញអំពីបដិវត្តន៍។ ការច្នៃប្រឌិតដូចជា ChatGPT ត្រូវបានបញ្ចូលទៅក្នុងជីវិតរបស់យើងរួចហើយ។
ហើយពួកគេហាក់ដូចជាបន្តមក!
GPT-4 និងដែនកំណត់របស់វា។
GPT-4 បានបង្ហាញពីជំនាញដ៏អស្ចារ្យក្នុងការសន្ទនាពហុមុខងារជាមួយមនុស្ស។ ការសិក្សាបានខិតខំប្រឹងប្រែងដើម្បីចម្លងការអនុវត្តនេះ ប៉ុន្តែដោយសារតែចំនួននិមិត្តសញ្ញារូបភាពដែលមានសក្តានុពលខ្ពស់ រួមទាំងម៉ូដែលដែលមានព័ត៌មានដែលមើលឃើញច្បាស់លាស់អាចមានតម្លៃថ្លៃក្នុងការគណនា។
ម៉ូដែលដែលមានស្រាប់ក៏មិនរួមបញ្ចូលការកែសម្រួលការណែនាំភាសានៅក្នុងការសិក្សារបស់ពួកគេដែរ ដែលដាក់កម្រិតសមត្ថភាពរបស់ពួកគេក្នុងការចូលរួមក្នុងការសន្ទនាជារូបភាពពហុវេន។
ការកសាងលើក្របខ័ណ្ឌ Flamingo
គំរូថ្មីមួយដែលហៅថា MultiModal-GPT ត្រូវបានបង្កើតឡើងដើម្បីបើកការប្រាស្រ័យទាក់ទងជាមួយមនុស្សដោយប្រើទាំងភាសា និងសញ្ញាដែលមើលឃើញ។
អ្នកអភិវឌ្ឍន៍បានប្រើកម្មវិធីមួយហៅថា អេ ក្របខ័ណ្ឌ Flamingo, ដែលពីមុនត្រូវបានបណ្តុះបណ្តាលដើម្បីយល់ទាំងអត្ថបទ និងរូបភាព ដើម្បីធ្វើឱ្យវាអាចទៅរួច។
Flamingo ត្រូវការការផ្លាស់ប្តូរមួយចំនួន ព្រោះវាមិនអាចមានការសន្ទនាបន្ថែមដែលរួមបញ្ចូលអត្ថបទ និងរូបភាព។
គំរូ MultiModal-GPT ដែលបានអាប់ដេតអាចប្រមូលទិន្នន័យពីរូបភាព និងលាយវាជាមួយភាសាដើម្បីយល់ និងអនុវត្តពាក្យបញ្ជារបស់មនុស្ស។
MultiModal-GPT
MultiModal-GPT គឺជាប្រភេទនៃគំរូ AI ដែលអាចធ្វើតាមការសាកសួររបស់មនុស្សផ្សេងៗដូចជា ការពិពណ៌នាអំពីរូបភាព ការរាប់ធាតុ និងការឆ្លើយសំណួរ។ វាយល់ និងធ្វើតាមការបញ្ជាទិញដោយប្រើការលាយបញ្ចូលគ្នានៃទិន្នន័យដែលមើលឃើញ និងពាក្យសំដី។
អ្នកស្រាវជ្រាវបានបណ្តុះបណ្តាលគំរូដោយប្រើទាំងទិន្នន័យដែលមើលឃើញ និងតែភាសាដើម្បីបង្កើនសមត្ថភាពរបស់ MultiModal-GPT ក្នុងការសន្ទនាជាមួយមនុស្ស។ លើសពីនេះ វាបណ្តាលឱ្យមានការប្រសើរឡើងគួរឱ្យកត់សម្គាល់នៅក្នុងវិធីដែលសុន្ទរកថារបស់ខ្លួនត្រូវបានអនុវត្ត។ វាក៏បាននាំឱ្យមានការកែលម្អគួរឱ្យកត់សម្គាល់នៅក្នុងការអនុវត្តការសន្ទនារបស់វាផងដែរ។
ពួកគេបានរកឃើញថាការមានទិន្នន័យបណ្តុះបណ្តាលដែលមានគុណភាពខ្ពស់គឺមានសារៈសំខាន់សម្រាប់ដំណើរការសន្ទនាដ៏ល្អ ពីព្រោះសំណុំទិន្នន័យតូចមួយដែលមានការឆ្លើយតបខ្លីអាចអនុញ្ញាតឱ្យម៉ូដែលបង្កើតការឆ្លើយតបខ្លីជាងចំពោះពាក្យបញ្ជាណាមួយ។
តើអ្នកអាចធ្វើអ្វីបានជាមួយ MultiModal-GPT?
ការចូលរួមក្នុងការសន្ទនា
ដូចគំរូភាសាដែលពីមុនមក លក្ខណៈចម្បងមួយរបស់ MultiModal-GPT គឺសមត្ថភាពរបស់វាក្នុងការចូលរួមក្នុងការពិភាក្សាភាសាធម្មជាតិ។ នេះបញ្ជាក់ថាអ្នកប្រើប្រាស់អាចចូលរួមជាមួយគំរូដូចដែលពួកគេចង់បានជាមួយមនុស្សពិត។
ជាឧទាហរណ៍ MultiModal-GPT អាចផ្តល់ឱ្យអតិថិជននូវរូបមន្តលម្អិតសម្រាប់ធ្វើគុយទាវ ឬណែនាំភោជនីយដ្ឋានដែលអាចធ្វើទៅបានសម្រាប់ការទទួលទានអាហារនៅខាងក្រៅ។ ម៉ូដែលនេះក៏មានសមត្ថភាពឆ្លើយតបទៅនឹងសំណួរទូទៅអំពីបំណងធ្វើដំណើររបស់អ្នកប្រើប្រាស់ផងដែរ។
ការទទួលស្គាល់វត្ថុ
MultiModal-GPT អាចស្គាល់អ្វីៗនៅក្នុងរូបថត និងឆ្លើយតបទៅនឹងការសាកសួរអំពីពួកគេ។ ជាឧទាហរណ៍ គំរូអាចស្គាល់ Freddie Mercury នៅក្នុងរូបភាពមួយ ហើយឆ្លើយតបទៅនឹងសំណួរអំពីគាត់។
វាក៏អាចរាប់ចំនួនបុគ្គល និងពន្យល់ពីអ្វីដែលពួកគេកំពុងធ្វើនៅក្នុងរូបភាពមួយ។ សមត្ថភាពកំណត់អត្តសញ្ញាណវត្ថុនេះមានកម្មវិធីក្នុងវិស័យជាច្រើន រួមទាំងពាណិជ្ជកម្មអេឡិចត្រូនិក ការថែទាំសុខភាព និងសុវត្ថិភាព។
MultiModal-GPT ក៏អាចស្គាល់អត្ថបទនៅក្នុងរូបភាពឌីជីថលផងដែរ។ នេះបញ្ជាក់ថា គំរូអាចអានអត្ថបទក្នុងរូបថត និងទាញយកទិន្នន័យមានប្រយោជន៍។ ជាឧទាហរណ៍ វាអាចរកឃើញតួអក្សរនៅក្នុងរូបភាព និងកំណត់អត្តសញ្ញាណអ្នកនិពន្ធសៀវភៅ។
វាជាឧបករណ៍មានប្រយោជន៍ខ្លាំងណាស់សម្រាប់ ការគ្រប់គ្រងឯកសារ។ការបញ្ចូលទិន្នន័យ និងការវិភាគខ្លឹមសារ។
ហេតុផល និងការបង្កើតចំណេះដឹង
Multi-modal-GPT អាចវែកញែក និងបង្កើតចំណេះដឹងអំពីពិភពលោក។ នេះមានន័យថា វាអាចផ្តល់នូវការពន្យល់ពេញលេញនៃរូបថត ហើយថែមទាំងប្រាប់ពួកគេថាតើរូបភាពត្រូវបានថតក្នុងរដូវកាលណា។
ជំនាញនេះមានប្រយោជន៍ក្នុងមុខវិជ្ជាជាច្រើន រួមទាំងការត្រួតពិនិត្យបរិស្ថាន កសិកម្ម និងឧតុនិយម។ ម៉ូដែលនេះក៏អាចបង្កើតវត្ថុច្នៃប្រឌិតដូចជាកំណាព្យ រឿងនិទាន និងចម្រៀង ដែលធ្វើឱ្យវាក្លាយជាឧបករណ៍ដ៏ល្អសម្រាប់កិច្ចការច្នៃប្រឌិត។
ការងារខាងក្នុងនៃ MultiModal-GPT
គំរូសម្រាប់ការណែនាំបង្រួបបង្រួម
ក្រុមការងារបង្ហាញគំរូតែមួយសម្រាប់ការរួមបញ្ចូលទិន្នន័យភាសាដែលមិនមានលក្ខណៈស្តង់ដារ និងទិន្នន័យចក្ខុវិស័យ និងភាសាពហុម៉ូត ដើម្បីបណ្តុះបណ្តាលគំរូ MultiModal-GPT ឱ្យបានត្រឹមត្រូវក្នុងលក្ខណៈរួមមួយ។
យុទ្ធសាស្ត្ររួមបញ្ចូលគ្នានេះព្យាយាមកែលម្អការអនុវត្តរបស់គំរូនៅទូទាំងភារកិច្ចជាច្រើនដោយទាញយកសមត្ថភាពបន្ថែមនៃទម្រង់ទិន្នន័យទាំងពីរ និងលើកទឹកចិត្តឱ្យមានការយល់កាន់តែស៊ីជម្រៅនៃគំនិតមូលដ្ឋាន។
សំណុំទិន្នន័យ Dolly 15k និង Alpaca GPT4 ត្រូវបានប្រើដោយក្រុមដើម្បីវាស់ស្ទង់សមត្ថភាពតាមការណែនាំសម្រាប់តែភាសាប៉ុណ្ណោះ។ សំណុំទិន្នន័យទាំងនេះដើរតួជាគំរូប្រអប់បញ្ចូលសម្រាប់ការរៀបចំរចនាសម្ព័ន្ធការបញ្ចូលសំណុំទិន្នន័យ ដើម្បីធានានូវទម្រង់តាមការណែនាំស្របគ្នា។
រូបភាព៖ ទិដ្ឋភាពទូទៅនៃសំណុំទិន្នន័យ Doly 15k
តើគំរូដំណើរការយ៉ាងដូចម្តេច?
សមាសធាតុសំខាន់ៗចំនួនបីបង្កើតបានជាគំរូ MultiModal-GPT៖ ឧបករណ៍ឌិកូដភាសា ឧបករណ៍បំប្លែងការយល់ឃើញ និងឧបករណ៍បំប្លែងចក្ខុវិស័យ។ រូបភាពត្រូវបានថតដោយកម្មវិធីបំប្លែងចក្ខុវិស័យ ដែលបន្ទាប់មកបង្កើតបណ្តុំនៃលក្ខណៈដែលកំណត់លក្ខណៈរបស់វា។
ឧបករណ៍បំប្លែងភាសាប្រើព័ត៌មានពីកម្មវិធីបំប្លែងការយល់ឃើញដើម្បីបង្កើតអត្ថបទដែលពណ៌នារូបភាពដោយមានជំនួយពីអ្នកយល់ឃើញសារជាថ្មី។
ធាតុផ្សំនៃគំរូដែលយល់ភាសា និងបង្កើតអត្ថបទគឺជាឧបករណ៍ឌិកូដភាសា។ ដើម្បីទស្សន៍ទាយពាក្យខាងក្រោមក្នុងឃ្លាមួយ គំរូត្រូវបានបណ្តុះបណ្តាលដោយប្រើទាំងទិន្នន័យការណែនាំជាភាសា និង ចក្ខុវិស័យបូកនឹងភាសា។
វាបង្រៀនគំរូពីរបៀបប្រតិកម្មទៅនឹងពាក្យបញ្ជាពីមនុស្ស និងផ្តល់នូវអត្ថបទដែលអាចទទួលយកបានសម្រាប់ការពិពណ៌នារូបភាព។
ក្រុមនៅពីក្រោយ
MultiModal-GPT ត្រូវបានបង្កើតឡើងដោយក្រុមអ្នកស្រាវជ្រាវ និងវិស្វករ Microsoft Research Asia ដែលដឹកនាំដោយ Tao Gong, Chengqi Lyu និង Shilong Zhang ។ Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo និង Kai Chen សុទ្ធតែបានចូលរួមចំណែកក្នុងការសិក្សា និងការអភិវឌ្ឍន៍របស់តារាម៉ូដែល។
ដំណើរការភាសាធម្មជាតិ, ចក្ខុវិស័យកុំព្យូទ័រហើយការរៀនម៉ាស៊ីនគឺជាផ្នែកទាំងអស់នៃសមត្ថភាពសម្រាប់ក្រុម។ ពួកគេមានអត្ថបទជាច្រើនដែលបានបោះពុម្ពនៅក្នុងសន្និសិទថ្នាក់កំពូល និងការបោះពុម្ពផ្សាយ ក៏ដូចជាកិត្តិយស និងការសរសើរផ្សេងៗសម្រាប់ការខិតខំប្រឹងប្រែងផ្នែកវិទ្យាសាស្ត្ររបស់ពួកគេ។
ការស្រាវជ្រាវរបស់ក្រុមផ្តោតលើការអភិវឌ្ឍន៍នៃគំរូ និងវិធីសាស្រ្តទំនើបៗ ដើម្បីបើកឱ្យមានអន្តរកម្មធម្មជាតិ និងឆ្លាតវៃបន្ថែមទៀតរវាងមនុស្ស និងបច្ចេកវិទ្យា។
ការអភិវឌ្ឍន៍ Multi-modal-GPT គឺជាសមិទ្ធិផលគួរឱ្យកត់សម្គាល់នៅក្នុងវិស័យនេះ ចាប់តាំងពីវាគឺជាគំរូមួយក្នុងចំណោមគំរូដំបូងគេដែលរួមបញ្ចូលគ្នានូវចក្ខុវិស័យ និងភាសានៅក្នុងក្របខ័ណ្ឌតែមួយសម្រាប់ការពិភាក្សាពហុជុំ។
ការរួមចំណែករបស់ក្រុមចំពោះការស្រាវជ្រាវ និងការអភិវឌ្ឍន៍ MultiModal-GPT មានសក្តានុពលក្នុងការមានឥទ្ធិពលយ៉ាងខ្លាំងទៅលើអនាគតនៃដំណើរការភាសាធម្មជាតិ និងអន្តរកម្មរវាងមនុស្ស និងម៉ាស៊ីន។
របៀបប្រើ MultiModal-GPT
សម្រាប់អ្នកចាប់ផ្តើមដំបូង ការប្រើឧបករណ៍ MultiModal-GPT គឺសាមញ្ញ។ គ្រាន់តែទៅ https://mmgpt.openmmlab.org.cn/ ហើយចុចប៊ូតុង "ផ្ទុករូបភាព" ។
ជ្រើសរើសឯកសាររូបភាពដើម្បីផ្ទុកឡើង ហើយបន្ទាប់មកវាយបញ្ចូលប្រអប់បញ្ចូលទៅក្នុងប្រអប់អត្ថបទ។ ដើម្បីបង្កើតការឆ្លើយតបពីគំរូ សូមចុចប៊ូតុង "ដាក់ស្នើ" ដែលនឹងបង្ហាញខាងក្រោមវាលអត្ថបទ។
អ្នកអាចសាកល្បងជាមួយរូបថត និងការណែនាំផ្សេងៗគ្នា ដើម្បីស្វែងយល់បន្ថែមអំពីសមត្ថភាពរបស់ម៉ូដែល។
ការដំឡើង
ដើម្បីដំឡើងកញ្ចប់ MultiModal-GPT ប្រើពាក្យបញ្ជាស្ថានីយ "git clone https://github.com/open-mmlab/Multimodal-GPT.git" ដើម្បីក្លូនឃ្លាំងពី GitHub ។ អ្នកអាចអនុវត្តតាមជំហានទាំងនេះបានយ៉ាងសាមញ្ញ៖
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
ជាជម្រើសប្រើ conda env create -f environment.yml
ដើម្បីបង្កើតបរិយាកាស conda ថ្មី។ អ្នកអាចដំណើរការការបង្ហាញនៅក្នុងមូលដ្ឋានបន្ទាប់ពីដំឡើងវាដោយទាញយកទម្ងន់ដែលបានហ្វឹកហាត់ជាមុន ហើយរក្សាទុកវានៅក្នុងថតចំណុចត្រួតពិនិត្យ។
បន្ទាប់មក ការបង្ហាញ Gradio អាចត្រូវបានចាប់ផ្តើមដោយដំណើរការពាក្យបញ្ជា "python app.py" ។
គុណវិបត្តិដែលអាចកើតមាន
ម៉ូដែល MultiModal-GPT នៅតែមានគុណវិបត្តិ និងកន្លែងសម្រាប់ការអភិវឌ្ឍន៍ ទោះបីជាដំណើរការល្អរបស់វាក៏ដោយ។
ជាឧទាហរណ៍ នៅពេលដោះស្រាយជាមួយធាតុបញ្ចូលដែលមើលឃើញស្មុគស្មាញ ឬមិនច្បាស់លាស់ គំរូអាចនឹងមិនតែងតែអាចទទួលស្គាល់ និងយល់ពីបរិបទនៃការបញ្ចូលនោះទេ។ នេះអាចបណ្តាលឱ្យមានការព្យាករណ៍មិនត្រឹមត្រូវ ឬប្រតិកម្មពីគំរូ។
លើសពីនេះ ជាពិសេសនៅពេលដែលការបញ្ចូលមានភាពស្មុគស្មាញ ឬបើកចំហរ គំរូប្រហែលជាមិនតែងតែបង្កើតប្រតិកម្ម ឬលទ្ធផលល្អបំផុតនោះទេ។ ជាឧទាហរណ៍ ចំលើយរបស់គំរូអាចរងផលប៉ះពាល់ដោយរបៀបដែលគម្របសៀវភៅទាំងពីរមើលទៅស្រដៀងគ្នានៅក្នុងករណីនៃការកំណត់អត្តសញ្ញាណមិនត្រឹមត្រូវនៃគម្របសៀវភៅ។
សន្និដ្ឋាន
សរុបមក គំរូ MultiModal-GPT តំណាងឱ្យជំហានដ៏ធំមួយឆ្ពោះទៅមុខក្នុងដំណើរការភាសាធម្មជាតិ និងការរៀនម៉ាស៊ីន។ ហើយវាពិតជារំភើបណាស់ក្នុងការប្រើប្រាស់វា និងពិសោធន៍ជាមួយវា។ ដូច្នេះ អ្នកគួរតែសាកល្បងវាផង!
ទោះយ៉ាងណាក៏ដោយ វាមានដែនកំណត់ ដូចម៉ូដែលទាំងអស់ដែរ ហើយទាមទារការកែលម្អ និងការកែលម្អបន្ថែម ដើម្បីទទួលបានដំណើរការអតិបរមានៅក្នុងកម្មវិធី និងដែនផ្សេងៗគ្នា។
សូមផ្ដល់យោបល់