MultiModal-GPT: භාෂාව සහ දැක්ම ඒකාබද්ධ කිරීමේ නව මායිම

කථන සහ දෘශ්‍ය දත්ත යන දෙකම අවබෝධ කර ගත හැකි AI සමඟ කතා කිරීමට ඔබ කවදා හෝ ප්‍රාර්ථනා කර තිබේද? MultiModal-GPT සුසමාදර්ශය භාෂා සැකසුම් දෘශ්‍ය අවබෝධය සමඟ ඒකාබද්ධ කරයි.

එය නිවැරදි හා විවිධාංගීකරණය වූ මානව-පරිගණක අන්තර්ක්‍රියා කිරීමේ හැකියාව ලබා දෙයි. MultiModal-GPT විස්තරාත්මක සිරස්තල ලබා දීමට, තනි අයිතම ගණන් කිරීමට සහ සාමාන්‍ය පරිශීලක ප්‍රශ්නවලට ප්‍රතිචාර දැක්විය හැක.

නමුත්, එය එසේ කරන්නේ කෙසේද? සහ, MultiModal-GPT සමඟ ඔබට කුමක් කළ හැකිද?

අපි කතාව මුලට අරගෙන ඉස්සරහට තියෙන හැකියාව තේරුම් ගනිමු.

GPT-4 වැනි භාෂා ආකෘති මතුවීමත් සමඟ ස්වභාවික භාෂා සැකසුම් තාක්ෂණයන් විප්ලවයක් සිදුවෙමින් පවතී. ChatGPT වැනි නවෝත්පාදන දැනටමත් අපගේ ජීවිතයට ඇතුළත් කර ඇත.

තවද, ඔවුන් දිගටම පැමිණෙන බව පෙනේ!

GPT-4 සහ එහි සීමාවන්

GPT-4 මිනිසුන් සමඟ බහුමාධ්‍ය සංවාදවල විස්මිත ප්‍රවීණතාවයක් පෙන්නුම් කර ඇත. අධ්‍යයනයන් මෙම කාර්ය සාධනය අනුපිටපත් කිරීමට උත්සාහ දරා ඇත, නමුත් විභව ඉහළ පින්තූර ටෝකන සංඛ්‍යාවක් නිසා, නිරවද්‍ය දෘෂ්‍ය තොරතුරු සහිත ආකෘති ඇතුළුව පරිගණකමය වශයෙන් මිල අධික විය හැකිය.

පවතින ආකෘතීන් ඔවුන්ගේ අධ්‍යයනයේ භාෂා උපදෙස් සුසර කිරීම ඇතුළත් නොවේ, එමඟින් ශුන්‍ය-වෙඩි බහු-පරිමාණ රූප-පෙළ සංවාදවලට සහභාගී වීමේ හැකියාව සීමා කරයි.

ෆ්ලෙමින්ගෝ රාමුව මත ගොඩනැගීම

MultiModal-GPT නමින් නව මාදිලියක් නිර්මාණය කරන ලද්දේ භාෂාමය සහ දෘශ්‍ය ඉඟි යන දෙකම භාවිතා කරමින් මිනිසුන් සමඟ සන්නිවේදනය කිරීමට හැකිවන පරිදිය.

සංවර්ධකයින් විසින් වැඩසටහනක් භාවිතා කරන ලදී ෆ්ලෙමින්ගෝ රාමුව, මෙය ශක්‍ය කිරීම සඳහා පෙළ සහ දෘශ්‍ය යන දෙකම අවබෝධ කර ගැනීමට පෙර පුහුණු කරන ලදී.

ෆ්ලෙමින්ගෝ රාමුව

ෆ්ලෙමින්ගෝ හට යම් වෙනස්කම් අවශ්‍ය විය, නමුත් එයට පෙළ සහ දෘශ්‍ය ඇතුළත් දිගු දෙබස් කිරීමට නොහැකි විය.

යාවත්කාලීන කරන ලද MultiModal-GPT ආකෘතියට පින්තූර වලින් දත්ත රැස් කර එය භාෂාව සමඟ මිශ්‍ර කර මිනිස් විධාන තේරුම් ගැනීමට සහ ක්‍රියාත්මක කිරීමට හැකිය.

MultiModal-GPT

MultiModal-GPT යනු දෘශ්‍ය විස්තර කිරීම, අයිතම ගණන් කිරීම සහ ප්‍රශ්නවලට පිළිතුරු සැපයීම වැනි විවිධ මානව විමසීම් අනුගමනය කළ හැකි AI ආකෘතියකි. එය දෘශ්‍ය සහ වාචික දත්ත මිශ්‍රණයක් භාවිතයෙන් ඇණවුම් තේරුම් ගෙන අනුගමනය කරයි.

MultiModal-GPT හි මිනිසුන් සමඟ සංවාද කිරීමේ හැකියාව වැඩි කිරීම සඳහා පර්යේෂකයන් දෘශ්‍ය සහ භාෂා-පමණක් දත්ත භාවිතා කරමින් ආකෘතිය පුහුණු කරන ලදී. ඊට අමතරව, එය එහි දේශනය සිදු කරන ආකාරයෙහි කැපී පෙනෙන දියුණුවක් ඇති කළේය. එය එහි සංවාද කාර්ය සාධනයේ කැපී පෙනෙන දියුණුවක් ද ඇති කළේය.

කෙටි ප්‍රතිචාර සහිත කුඩා දත්ත කට්ටලයක් මඟින් ඕනෑම විධානයකට කෙටි ප්‍රතිචාරයක් නිර්මාණය කිරීමට ආකෘතියට හැකි වන බැවින් උසස් තත්ත්වයේ පුහුණු දත්ත තිබීම හොඳ සංවාද ක්‍රියාකාරිත්වය සඳහා ඉතා වැදගත් බව ඔවුන් සොයා ගත්හ.

MultiModal-GPT සමඟ ඔබට කුමක් කළ හැකිද?

සංවාදවල නිරත වීම

මීට පෙර පැමිණි භාෂා ආකෘති මෙන්ම, MultiModal-GPT හි මූලික ලක්ෂණයක් වන්නේ ස්වභාවික භාෂා සාකච්ඡා වල යෙදීමේ හැකියාවයි. මෙයින් ඇඟවෙන්නේ පාරිභෝගිකයින් සැබෑ පුද්ගලයෙකු සමඟ කරන ආකාරයටම ආකෘතිය සමඟ සම්බන්ධ විය හැකි බවයි.

උදාහරණයක් ලෙස, MultiModal-GPT පාරිභෝගිකයින්ට නූඩ්ල්ස් සෑදීම සඳහා සවිස්තරාත්මක වට්ටෝරුවක් ලබා දීමට හෝ ආහාර ගැනීම සඳහා හැකි අවන්හල් නිර්දේශ කිරීමට හැකිය. පරිශීලකයින්ගේ චාරිකා අභිප්‍රායන් පිළිබඳ සාමාන්‍ය ප්‍රශ්නවලට ප්‍රතිචාර දැක්වීමට ද ආකෘතියට හැකියාව ඇත.

නූඩ්ල්ස්

වස්තූන් හඳුනා ගැනීම

MultiModal-GPT හට ඡායාරූපවල ඇති දේවල් හඳුනා ගැනීමට සහ ඒවා පිළිබඳ විමසීම්වලට ප්‍රතිචාර දැක්විය හැක. නිදසුනක් ලෙස, ආකෘතියට රූපයක ෆ්‍රෙඩී මර්කරි හඳුනාගෙන ඔහු පිළිබඳ විමසුම්වලට ප්‍රතිචාර දැක්විය හැක.

එයට පුද්ගලයන් සංඛ්‍යාව ගණන් කිරීමට සහ පින්තූරයක ඔවුන් කරන්නේ කුමක්ද යන්න පැහැදිලි කළ හැකිය. මෙම වස්තු හඳුනාගැනීමේ හැකියාවට ඊ-වාණිජ්‍යය, සෞඛ්‍ය සේවා සහ ආරක්ෂාව ඇතුළු විවිධ ක්ෂේත්‍රවල යෙදුම් ඇත.

උදාහරණයක්

MultiModal-GPT හට ඩිජිටල් පින්තූර තුළ ඇති පෙළ ද හඳුනාගත හැක. මෙයින් ඇඟවෙන්නේ ආකෘතියට ඡායාරූපවල ඇති පෙළ කියවා ප්‍රයෝජනවත් දත්ත උකහා ගත හැකි බවයි. නිදසුනක් වශයෙන්, එය රූපයක අක්ෂර හඳුනාගෙන පොතක කතුවරයා හඳුනා ගත හැකිය.

සඳහා අතිශයින්ම ප්රයෝජනවත් මෙවලමකි ලේඛන කළමනාකරණය, දත්ත ආදානය සහ අන්තර්ගත විශ්ලේෂණය.

ගන්දල්ෆ්

තර්කනය සහ දැනුම උත්පාදනය

Multi-modal-GPT ලෝකය ගැන තර්ක කිරීමට සහ දැනුම නිපදවීමට හැකිය. මෙයින් අදහස් කරන්නේ එයට ඡායාරූප පිළිබඳ සම්පූර්ණ පැහැදිලි කිරීම් සැපයිය හැකි අතර රූපය ගනු ලැබුවේ කුමන සමයකදැයි ඔවුන්ට පැවසිය හැකිය.

පාරිසරික නිරීක්ෂණ, කෘෂිකර්මාන්තය සහ කාලගුණ විද්‍යාව ඇතුළු විවිධ විෂයයන් සඳහා මෙම කුසලතාව ප්‍රයෝජනවත් වේ. මෙම ආකෘතියට අතිරේකව කවි, කතා, සහ ගීත වැනි නිර්මාණාත්මක දේවල් ජනනය කළ හැකි අතර, එය නිර්මාණාත්මක කාර්යයන් සඳහා විශිෂ්ට මෙවලමක් බවට පත් කරයි.

MultiModal-GPT හි අභ්‍යන්තර ක්‍රියාකාරිත්වය

ඒකාබද්ධ උපදෙස් සඳහා සැකිල්ල

MultiModal-GPT ආකෘතිය සහමුහුර්ත ආකාරයකින් නිසි ලෙස පුහුණු කිරීම සඳහා ඒකමතික භාෂාමය දත්ත සහ බහුමාධ්‍ය දැක්ම සහ භාෂා දත්ත ඒකාබද්ධ කිරීම සඳහා කණ්ඩායම තනි අච්චුවක් ඉදිරිපත් කරයි.

මෙම ඒකාබද්ධ උපාය මාර්ගය දත්ත ක්‍රම දෙකෙහිම අනුපූරක හැකියාවන් උපයෝගී කර ගනිමින් සහ යටින් පවතින අදහස් ගැඹුරින් අවබෝධ කර ගැනීම දිරිගන්වමින් විවිධ කාර්යයන් හරහා ආකෘතියේ ක්‍රියාකාරිත්වය වැඩිදියුණු කිරීමට උත්සාහ කරයි.

ඩොලි 15k සහ Alpaca GPT4 දත්ත කට්ටල භාෂාව-පමණක් උපදෙස් අනුගමනය කිරීමේ හැකියාවන් මැනීමට කණ්ඩායම විසින් භාවිතා කරයි. මෙම දත්ත කට්ටල ස්ථාවර උපදෙස් අනුගමනය කරන ආකෘතියක් සහතික කිරීම සඳහා දත්ත කට්ටල ආදානය ව්‍යුහගත කිරීම සඳහා ඉක්මන් අච්චුවක් ලෙස ක්‍රියා කරයි.

Dolly 15k දත්ත කට්ටල දළ විශ්ලේෂණය

රූපය: Doly 15k දත්ත කට්ටලයේ දළ විශ්ලේෂණය

ආකෘතිය ක්රියා කරන්නේ කෙසේද?

ප්‍රධාන සංරචක තුනක් MultiModal-GPT ආකෘතිය සෑදී ඇත: භාෂා විකේතකයක්, සංජානන ප්‍රතිසැම්පලයක් සහ දර්ශන කේතකයක්. දර්ශණ කේතකය මගින් රූපය ලබා ගන්නා අතර, එය සංලක්ෂිත ලක්ෂණ එකතුවක් ජනනය කරයි.

භාෂා විකේතකය දෘශ්‍ය කේතකය වෙතින් ලැබෙන තොරතුරු ප්‍රත්‍යක්ෂක ප්‍රතිසාම්පන්නයේ ආධාරයෙන් රූපය විස්තර කරන පෙළ නිර්මාණය කරයි.

භාෂාව තේරුම් ගන්නා සහ පෙළ නිපදවන ආකෘතියේ සංරචකය භාෂා විකේතනය වේ. වාක්‍ය ඛණ්ඩයක පහත වචනය පුරෝකථනය කිරීම සඳහා, ආකෘතිය භාෂා-පමණක් සහ දර්ශනය-ප්ලස් භාෂා උපදෙස්-පහත දත්ත භාවිතා කරමින් පුහුණු කරනු ලැබේ.

මෙය මිනිසුන්ගෙන් ලැබෙන විධානවලට ප්‍රතික්‍රියා කරන ආකාරය ආකෘතියට උගන්වන අතර පින්තූර විස්තර සඳහා පිළිගත හැකි පෙළ සපයයි.

ආදර්ශ

පිටුපස කණ්ඩායම

MultiModal-GPT නිර්මාණය කරන ලද්දේ Tao Gong, Chengqi Lyu සහ Shilong Zhang විසින් මෙහෙයවන ලද Microsoft Research Asia පර්යේෂකයන් සහ ඉංජිනේරුවන් කණ්ඩායමක් විසිනි. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo සහ Kai Chen යන සියල්ලෝම ආකෘතියේ අධ්‍යයනයට සහ සංවර්ධනයට දායක වූහ.

ස්වභාවික භාෂා සැකසුම්, පරිගණක දැක්ම, සහ යන්ත්‍ර ඉගෙනීම කණ්ඩායම සඳහා නිපුණතාවයේ සියලුම අංශ වේ. ඔවුන් සතුව ඉහළ පෙළේ සම්මන්ත්‍රණ සහ ප්‍රකාශනවල ප්‍රකාශයට පත් කරන ලද ලිපි කිහිපයක් මෙන්ම ඔවුන්ගේ විද්‍යාත්මක උත්සාහයන් සඳහා විවිධ ගෞරව සහ ප්‍රශංසා ද ඇත.

මිනිසුන් සහ තාක්ෂණය අතර වඩාත් ස්වාභාවික සහ බුද්ධිමත් අන්තර්ක්‍රියා සක්‍රීය කිරීම සඳහා අති නවීන මාදිලි සහ ප්‍රවේශයන් සංවර්ධනය කිරීම කෙරෙහි කණ්ඩායමේ පර්යේෂණ අවධානය යොමු කරයි.

බහු-මාදිලි-GPT සංවර්ධනය ක්ෂේත්‍රයේ කැපී පෙනෙන ජයග්‍රහණයක් වන්නේ එය බහු-වට සාකච්ඡා සඳහා තනි රාමුවක් තුළ දර්ශනය සහ භාෂාව ඒකාබද්ධ කළ පළමු මාදිලිවලින් එකකි.

MultiModal-GPT පර්යේෂණ සහ සංවර්ධනය සඳහා කණ්ඩායමේ දායකත්වය ස්වභාවික භාෂා සැකසුම් සහ මානව-යන්ත්‍ර අන්තර්ක්‍රියා වල අනාගතය කෙරෙහි සැලකිය යුතු බලපෑමක් ඇති කිරීමට හැකියාව ඇත.

MultiModal-GPT භාවිතා කරන්නේ කෙසේද

ආරම්භකයින් සඳහා, MultiModal-GPT මෙවලම භාවිතා කිරීම සරල ය. සරලව යන්න https://mmgpt.openmmlab.org.cn/ සහ "Upload Image" බොත්තම ඔබන්න.

උඩුගත කිරීමට පින්තූර ගොනුව තෝරන්න, ඉන්පසු පෙළ ක්ෂේත්‍රය තුළට පෙළ විමසුම ටයිප් කරන්න. ආකෘතියෙන් ප්රතිචාරයක් නිර්මාණය කිරීම සඳහා, "ඉදිරිපත් කරන්න" බොත්තම ක්ලික් කරන්න, එය පෙළ ක්ෂේත්රයට පහළින් දිස්වනු ඇත.

ආකෘතියේ හැකියාවන් ගැන වැඩි විස්තර දැන ගැනීමට ඔබට විවිධ ඡායාරූප සහ උපදෙස් සමඟ අත්හදා බැලිය හැකිය.

අතුරුමුහුණත 1

ස්ථාපනය සඳහා

MultiModal-GPT පැකේජය ස්ථාපනය කිරීම සඳහා, GitHub වෙතින් ගබඩාව ක්ලෝන කිරීමට “git clone https://github.com/open-mmlab/Multimodal-GPT.git” යන ටර්මිනල් විධානය භාවිතා කරන්න. ඔබට සරලව මෙම පියවර අනුගමනය කළ හැකිය:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

විකල්පයක් ලෙස, භාවිතා කරන්න conda env create -f environment.yml නව කොන්ඩා පරිසරයක් ස්ථාපිත කිරීමට. පෙර පුහුණු කළ බර බාගත කර මුරපොල ෆෝල්ඩරයේ ගබඩා කිරීමෙන් ඔබට එය ස්ථාපනය කිරීමෙන් පසු එය දේශීයව ධාවනය කළ හැකිය.

පසුව "python app.py" විධානය ක්‍රියාත්මක කිරීමෙන් Gradio demo දියත් කළ හැක.

විය හැකි අඩුපාඩු

MultiModal-GPT ආකෘතිය එහි විශිෂ්ට කාර්ය සාධනය තිබියදීත් තවමත් අඩුපාඩු සහ සංවර්ධනය සඳහා ඉඩකඩ ඇත.

නිදසුනක් වශයෙන්, සංකීර්ණ හෝ අපැහැදිලි දෘෂ්‍ය යෙදවුම් සමඟ කටයුතු කරන විට, ආදානයේ සන්දර්භය හඳුනා ගැනීමට සහ අවබෝධ කර ගැනීමට ආකෘතියට සැමවිටම නොහැකි විය හැක. මෙය ආකෘතියෙන් සාවද්‍ය අනාවැකි හෝ ප්‍රතික්‍රියා ඇති විය හැක.

අතිරේකව, විශේෂයෙන් ආදානය සංකීර්ණ වූ විට හෝ විවෘතව පවතින විට, ආකෘතිය සෑම විටම හොඳම ප්‍රතික්‍රියාව හෝ ප්‍රතිඵලය නිපදවන්නේ නැත. නිදසුනක් වශයෙන්, ආකෘතියේ පිළිතුර, පොත් කවරයක් වැරදි ලෙස හඳුනාගැනීමේදී පොත් දෙකෙහි කවරය කෙතරම් සමානද යන්න බලපාන්නට ඇත.

නිගමනය

සමස්තයක් වශයෙන්, MultiModal-GPT ආකෘතිය ස්වභාවික භාෂා සැකසීමේ සහ යන්ත්‍ර ඉගෙනීමේ විශාල ඉදිරි පියවරක් නියෝජනය කරයි. තවද, එය භාවිතා කිරීම සහ එය අත්හදා බැලීම ඉතා සිත්ගන්නා සුළුය. එබැවින්, ඔබ එය උත්සාහ කළ යුතුය!

කෙසේ වෙතත්, සියලුම මාදිලි මෙන් එයට සීමාවන් ඇති අතර, විවිධ යෙදුම් සහ වසම්වල උපරිම කාර්ය සාධනය ලබා ගැනීම සඳහා අමතර පිරිපහදු කිරීම් සහ වැඩිදියුණු කිරීම් අවශ්‍ය වේ.