மல்டிமாடல்-ஜிபிடி: மொழி மற்றும் பார்வை ஒருங்கிணைப்பில் ஒரு புதிய எல்லை

பேசப்படும் மற்றும் காட்சி தரவு இரண்டையும் புரிந்துகொள்ளும் AI உடன் நீங்கள் எப்போதாவது உரையாட விரும்பினீர்களா? மல்டிமாடல்-ஜிபிடி முன்னுதாரணம் மொழி செயலாக்கத்தை காட்சி புரிதலுடன் இணைக்கிறது.

இது துல்லியமான மற்றும் பன்முகப்படுத்தப்பட்ட மனித-கணினி தொடர்புக்கான சாத்தியத்தை வழங்குகிறது. மல்டிமாடல்-ஜிபிடி விளக்கமான தலைப்புகளை வழங்கலாம், தனிப்பட்ட உருப்படிகளை எண்ணலாம் மற்றும் பொதுவான பயனர் கேள்விகளுக்கு பதிலளிக்கலாம்.

ஆனால், அது எப்படி செய்கிறது? மேலும், MultiModal-GPT மூலம் நீங்கள் என்ன செய்யலாம்?

கதையை ஆரம்பத்திற்கு எடுத்துச் சென்று, நமக்கு முன்னால் உள்ள சாத்தியக்கூறுகளைப் புரிந்துகொள்வோம்.

GPT-4 போன்ற மொழி மாதிரிகள் தோன்றியவுடன், இயற்கை மொழி செயலாக்க தொழில்நுட்பங்கள் ஒரு புரட்சியைக் காண்கின்றன. ChatGPT போன்ற புதுமைகள் ஏற்கனவே நம் வாழ்வில் இணைக்கப்பட்டுள்ளன.

மேலும், அவர்கள் தொடர்ந்து வருவதாகத் தெரிகிறது!

GPT-4 மற்றும் அதன் வரம்புகள்

GPT-4 மக்களுடன் பலதரப்பட்ட உரையாடல்களில் அற்புதமான நிபுணத்துவத்தைக் காட்டியுள்ளது. இந்த செயல்திறனை நகலெடுக்க ஆய்வுகள் முயற்சி செய்தன, ஆனால் அதிக எண்ணிக்கையிலான பட டோக்கன்கள் இருப்பதால், துல்லியமான காட்சித் தகவல்களுடன் கூடிய மாதிரிகள் கணக்கீட்டு ரீதியாக விலை உயர்ந்ததாக இருக்கும்.

தற்போதுள்ள மாதிரிகள் மொழி அறிவுறுத்தல் டியூனிங்கை தங்கள் ஆய்வில் சேர்க்கவில்லை, இது ஜீரோ-ஷாட் மல்டிடர்ன் இமேஜ்-டெக்ஸ்ட் உரையாடல்களில் பங்கேற்கும் திறனைக் கட்டுப்படுத்துகிறது.

ஃபிளமிங்கோ கட்டமைப்பை உருவாக்குதல்

மல்டிமோடல்-ஜிபிடி எனப்படும் புதிய மாதிரியானது மொழியியல் மற்றும் காட்சி குறிப்புகள் இரண்டையும் பயன்படுத்தி மக்களுடன் தொடர்பு கொள்ள உருவாக்கப்பட்டது.

டெவலப்பர்கள் ஒரு திட்டத்தைப் பயன்படுத்தினர் ஃபிளமிங்கோ கட்டமைப்பு, உரை மற்றும் காட்சிகள் இரண்டையும் புரிந்துகொள்வதற்கு, இதை சாத்தியமாக்குவதற்கு முன்பு பயிற்சியளிக்கப்பட்டது.

ஃபிளமிங்கோ கட்டமைப்பு

ஃபிளமிங்கோவுக்கு சில மாற்றங்கள் தேவைப்பட்டன, இருப்பினும், உரை மற்றும் காட்சிகளை உள்ளடக்கிய நீட்டிக்கப்பட்ட உரையாடல்களைக் கொண்டிருக்க முடியவில்லை.

புதுப்பிக்கப்பட்ட MultiModal-GPT மாதிரியானது படங்களிலிருந்து தரவைச் சேகரித்து, மனிதக் கட்டளைகளைப் புரிந்துகொள்ளவும் செயல்படுத்தவும் மொழியுடன் கலக்கலாம்.

மல்டிமாடல்-ஜிபிடி

MultiModal-GPT என்பது ஒரு வகை AI மாதிரியாகும், இது காட்சிகளை விவரிப்பது, பொருட்களை எண்ணுவது மற்றும் கேள்விகளுக்கு பதிலளிப்பது போன்ற பல்வேறு மனித விசாரணைகளை பின்பற்ற முடியும். இது காட்சி மற்றும் வாய்மொழி தரவுகளின் கலவையைப் பயன்படுத்தி ஆர்டர்களைப் புரிந்துகொண்டு பின்பற்றுகிறது.

மல்டிமோடல்-ஜிபிடியின் மக்களுடன் உரையாடும் திறனை அதிகரிக்க, காட்சி மற்றும் மொழி-மட்டும் தரவைப் பயன்படுத்தி ஆராய்ச்சியாளர்கள் மாதிரியைப் பயிற்றுவித்தனர். கூடுதலாக, அதன் சொற்பொழிவு நிகழ்த்தப்பட்ட விதத்தில் குறிப்பிடத்தக்க முன்னேற்றத்தை ஏற்படுத்தியது. இது அதன் உரையாடல் செயல்திறனில் குறிப்பிடத்தக்க முன்னேற்றத்தையும் ஏற்படுத்தியது.

நல்ல உரையாடல் செயல்திறனுக்கு உயர்தர பயிற்சித் தரவைக் கொண்டிருப்பது மிகவும் முக்கியமானது என்பதை அவர்கள் கண்டுபிடித்தனர், ஏனெனில் குறுகிய பதில்களைக் கொண்ட சிறிய தரவுத்தொகுப்பு எந்த கட்டளைக்கும் குறுகிய பதில்களை உருவாக்க மாதிரியை இயக்கலாம்.

MultiModal-GPT மூலம் நீங்கள் என்ன செய்ய முடியும்?

உரையாடல்களில் ஈடுபடுதல்

முன்னர் வந்த மொழி மாதிரிகளைப் போலவே, மல்டிமாடல்-ஜிபிடியின் முதன்மையான பண்புகளில் ஒன்று, இயல்பான மொழி விவாதங்களில் ஈடுபடும் திறன் ஆகும். நுகர்வோர் ஒரு உண்மையான நபருடன் ஈடுபடுவதைப் போலவே மாடலிலும் ஈடுபடலாம் என்பதை இது குறிக்கிறது.

எடுத்துக்காட்டாக, MultiModal-GPT வாடிக்கையாளர்களுக்கு நூடுல்ஸ் தயாரிப்பதற்கான விரிவான செய்முறையை வழங்கலாம் அல்லது உணவருந்துவதற்கு சாத்தியமான உணவகங்களைப் பரிந்துரைக்கலாம். பயனர்களின் பயண நோக்கங்கள் குறித்த பொதுவான கேள்விகளுக்கும் இந்த மாதிரி பதிலளிக்கும் திறன் கொண்டது.

நூடுல்ஸ்

பொருள்களின் அங்கீகாரம்

MultiModal-GPT புகைப்படங்களில் உள்ள விஷயங்களை அடையாளம் கண்டு அவற்றைப் பற்றிய விசாரணைகளுக்கு பதிலளிக்க முடியும். உதாரணமாக, மாடல் ஃப்ரெடி மெர்குரியை ஒரு படத்தில் அடையாளம் கண்டு அவரைப் பற்றிய கேள்விகளுக்கு பதிலளிக்க முடியும்.

இது தனிநபர்களின் எண்ணிக்கையை எண்ணி அவர்கள் ஒரு படத்தில் என்ன செய்கிறார்கள் என்பதை விளக்கவும் முடியும். இ-காமர்ஸ், ஹெல்த்கேர் மற்றும் பாதுகாப்பு உள்ளிட்ட பல்வேறு துறைகளில் இந்த பொருள் அடையாளம் காணும் திறன் பயன்பாடுகளைக் கொண்டுள்ளது.

உதாரணமாக

மல்டிமாடல்-ஜிபிடி டிஜிட்டல் படங்களுக்குள் உள்ள உரையையும் அடையாளம் காண முடியும். மாடல் புகைப்படங்களில் உள்ள உரையைப் படித்து பயனுள்ள தரவைப் பிரித்தெடுக்க முடியும் என்பதை இது குறிக்கிறது. எடுத்துக்காட்டாக, இது ஒரு படத்தில் உள்ள எழுத்துக்களைக் கண்டறிந்து ஒரு புத்தகத்தின் ஆசிரியரை அடையாளம் காணலாம்.

இது மிகவும் பயனுள்ள கருவியாகும் ஆவண மேலாண்மை, தரவு உள்ளீடு மற்றும் உள்ளடக்க பகுப்பாய்வு.

மலக்கூடத்தொட்டியில்

பகுத்தறிவு மற்றும் அறிவின் உருவாக்கம்

மல்டி-மாடல்-ஜிபிடி உலகைப் பற்றிய அறிவைப் பகுத்தறிந்து உருவாக்க முடியும். இதன் பொருள், இது புகைப்படங்களின் முழு விளக்கத்தையும் அளிக்கும் மற்றும் படம் எந்த பருவத்தில் எடுக்கப்பட்டது என்று கூட சொல்ல முடியும்.

சுற்றுச்சூழல் கண்காணிப்பு, விவசாயம் மற்றும் வானிலை ஆய்வு உள்ளிட்ட பல்வேறு துறைகளில் இந்த திறன் பயனுள்ளதாக இருக்கும். இந்த மாதிரியானது கவிதை, கதைகள் மற்றும் பாடல்கள் போன்ற ஆக்கப்பூர்வமான விஷயங்களை உருவாக்க முடியும், இது படைப்பு பணிகளுக்கான சிறந்த கருவியாக அமைகிறது.

மல்டிமாடல்-ஜிபிடியின் உள் செயல்பாடுகள்

ஒருங்கிணைந்த வழிமுறைகளுக்கான டெம்ப்ளேட்

மல்டிமோடல்-ஜிபிடி மாதிரியை ஒருங்கிணைக்கப்பட்ட முறையில் சரியாகப் பயிற்றுவிப்பதற்காக ஒரே மாதிரியான மொழியியல் தரவு மற்றும் மல்டிமாடல் பார்வை மற்றும் மொழித் தரவு ஆகியவற்றின் ஒருங்கிணைப்புக்கான ஒரு டெம்ப்ளேட்டை குழு வழங்குகிறது.

இந்த ஒருங்கிணைந்த மூலோபாயம் இரண்டு தரவு முறைகளின் நிரப்பு திறன்களைப் பயன்படுத்துவதன் மூலமும், அடிப்படை யோசனைகளின் ஆழமான புரிதலை ஊக்குவிப்பதன் மூலமும் பல்வேறு பணிகளில் மாதிரியின் செயல்திறனை மேம்படுத்த முயற்சிக்கிறது.

டோலி 15k மற்றும் Alpaca GPT4 தரவுத்தொகுப்புகள் மொழி-மட்டுமே அறிவுறுத்தல்-பின்வரும் திறன்களை அளவிட குழுவால் பயன்படுத்தப்படுகின்றன. இந்த தரவுத்தொகுப்புகள் நிலையான அறிவுறுத்தல்-பின்வரும் வடிவமைப்பிற்கு உத்தரவாதம் அளிக்க தரவுத்தொகுப்பு உள்ளீட்டை கட்டமைப்பதற்கான ஒரு உடனடி டெம்ப்ளேட்டாக செயல்படுகின்றன.

டோலி 15k தரவுத்தொகுப்பு மேலோட்டம்

படம்: Doly 15k தரவுத்தொகுப்பின் மேலோட்டம்

மாதிரி எப்படி வேலை செய்கிறது?

மூன்று முக்கிய கூறுகள் MultiModal-GPT மாதிரியை உருவாக்குகின்றன: ஒரு மொழி குறிவிலக்கி, ஒரு உணர்தல் மறுவடிவமைப்பான் மற்றும் ஒரு பார்வை குறியாக்கி. பார்வை குறியாக்கி மூலம் படம் எடுக்கப்பட்டது, அதன்பின் குணாதிசயங்களின் தொகுப்பை உருவாக்குகிறது.

மொழி குறியாக்கி, பார்வை குறியாக்கியின் தகவலைப் பயன்படுத்தி, உணர்தல் மறுவடிவமைப்பாளரின் உதவியுடன் படத்தை விவரிக்கும் உரையை உருவாக்குகிறது.

மொழியைப் புரிந்துகொண்டு உரையை உருவாக்கும் மாதிரியின் கூறு மொழி குறிவிலக்கி ஆகும். ஒரு சொற்றொடரில் பின்வரும் வார்த்தையைக் கணிக்க, மாதிரியானது மொழி-மட்டும் மற்றும் பார்வை-பிளஸ் மொழி அறிவுறுத்தல்-பின்வரும் தரவைப் பயன்படுத்தி பயிற்சியளிக்கப்படுகிறது.

இது மனிதர்களிடமிருந்து வரும் கட்டளைகளுக்கு எவ்வாறு எதிர்வினையாற்றுவது என்பதை மாதிரியை கற்பிக்கிறது மற்றும் பட விளக்கங்களுக்கு ஏற்றுக்கொள்ளக்கூடிய உரையை வழங்குகிறது.

மாடல்

பின்னால் அணி

தாவோ காங், செங்கி லியு மற்றும் ஷிலாங் ஜாங் தலைமையிலான மைக்ரோசாஃப்ட் ரிசர்ச் ஆசியா ஆராய்ச்சியாளர்கள் மற்றும் பொறியாளர்கள் குழுவால் மல்டிமாடல்-ஜிபிடி உருவாக்கப்பட்டது. யுடாங் வாங், மியாவ் ஜெங், கியான் ஜாவோ, குய்குன் லியு, வென்வேய் ஜாங், பிங் லுவோ மற்றும் கை சென் ஆகியோர் மாதிரியின் ஆய்வு மற்றும் வளர்ச்சிக்கு பங்களித்தனர்.

இயற்கை மொழி செயலாக்கம், கணினி பார்வை, மற்றும் இயந்திர கற்றல் என்பது அணிக்கான அனைத்துத் திறனுக்கான பகுதிகளாகும். அவர்கள் உயர்மட்ட மாநாடுகள் மற்றும் வெளியீடுகளில் வெளியிடப்பட்ட பல கட்டுரைகள் மற்றும் அவர்களின் அறிவியல் முயற்சிகளுக்கு பல்வேறு மரியாதைகள் மற்றும் பாராட்டுக்களைப் பெற்றுள்ளனர்.

மனிதர்களுக்கும் தொழில்நுட்பத்துக்கும் இடையே இயற்கையான மற்றும் அறிவார்ந்த தொடர்புகளை செயல்படுத்துவதற்கான அதிநவீன மாதிரிகள் மற்றும் அணுகுமுறைகளின் வளர்ச்சியில் குழுவின் ஆராய்ச்சி கவனம் செலுத்துகிறது.

மல்டி-மாடல்-ஜிபிடி மேம்பாடு என்பது துறையில் குறிப்பிடத்தக்க சாதனையாகும், ஏனெனில் இது பல சுற்று விவாதங்களுக்கு ஒரே கட்டமைப்பில் பார்வை மற்றும் மொழியை இணைக்கும் முதல் மாதிரிகளில் ஒன்றாகும்.

மல்டிமாடல்-ஜிபிடி ஆராய்ச்சி மற்றும் மேம்பாட்டிற்கான குழுவின் பங்களிப்புகள் இயற்கையான மொழி செயலாக்கம் மற்றும் மனித-இயந்திர தொடர்புகளின் எதிர்காலத்தில் கணிசமான தாக்கத்தை ஏற்படுத்தும் திறனைக் கொண்டுள்ளன.

MultiModal-GPT ஐ எவ்வாறு பயன்படுத்துவது

ஆரம்பநிலைக்கு, MultiModal-GPT கருவியைப் பயன்படுத்துவது எளிது. வெறுமனே செல்லுங்கள் https://mmgpt.openmmlab.org.cn/ மற்றும் "படத்தைப் பதிவேற்று" பொத்தானை அழுத்தவும்.

பதிவேற்ற படக் கோப்பைத் தேர்வுசெய்து, உரை புலத்தில் உரை வரியில் தட்டச்சு செய்யவும். மாதிரியிலிருந்து பதிலை உருவாக்க, "சமர்ப்பி" பொத்தானைக் கிளிக் செய்யவும், இது உரை புலத்தின் கீழே தோன்றும்.

மாதிரியின் திறன்களைப் பற்றி மேலும் அறிய, வெவ்வேறு புகைப்படங்கள் மற்றும் வழிமுறைகளை நீங்கள் பரிசோதிக்கலாம்.

இடைமுகம் 1

நிறுவுதல்

MultiModal-GPT தொகுப்பை நிறுவ, "git clone https://github.com/open-mmlab/Multimodal-GPT.git" என்ற டெர்மினல் கட்டளையைப் பயன்படுத்தி GitHub இலிருந்து களஞ்சியத்தை குளோன் செய்யவும். நீங்கள் இந்த வழிமுறைகளைப் பின்பற்றலாம்:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

மாற்றாக, பயன்படுத்தவும் conda env create -f environment.yml ஒரு புதிய கோண்டா சூழலை நிறுவ வேண்டும். முன் பயிற்சி பெற்ற எடைகளைப் பதிவிறக்கி அவற்றை சோதனைச் சாவடிகள் கோப்புறையில் சேமிப்பதன் மூலம் டெமோவை நிறுவிய பின் உள்நாட்டில் இயக்கலாம்.

"python app.py" கட்டளையை இயக்குவதன் மூலம் Gradio டெமோ தொடங்கப்படலாம்.

சாத்தியமான குறைபாடுகள்

MultiModal-GPT மாடல் அதன் சிறந்த செயல்திறன் இருந்தபோதிலும் இன்னும் குறைபாடுகள் மற்றும் வளர்ச்சிக்கான இடங்களைக் கொண்டுள்ளது.

எடுத்துக்காட்டாக, சிக்கலான அல்லது தெளிவற்ற காட்சி உள்ளீடுகளைக் கையாளும் போது, மாதிரியால் எப்போதும் உள்ளீட்டின் சூழலை அடையாளம் கண்டு புரிந்து கொள்ள முடியாது. இது மாதிரியிலிருந்து தவறான கணிப்புகள் அல்லது எதிர்வினைகளை ஏற்படுத்தலாம்.

கூடுதலாக, குறிப்பாக உள்ளீடு சிக்கலானதாகவோ அல்லது திறந்த நிலையில் இருக்கும் போது, மாதிரியானது எப்போதும் சிறந்த எதிர்வினை அல்லது முடிவை உருவாக்காது. உதாரணமாக, மாதிரியின் பதில், புத்தக அட்டையின் தவறான அடையாளத்தின் விஷயத்தில் இரண்டு புத்தகங்களின் அட்டைகளும் எவ்வளவு ஒத்ததாக இருந்தன என்பதன் மூலம் தாக்கம் ஏற்பட்டிருக்கலாம்.

தீர்மானம்

ஒட்டுமொத்தமாக, மல்டிமாடல்-ஜிபிடி மாதிரியானது இயற்கையான மொழி செயலாக்கம் மற்றும் இயந்திர கற்றலில் ஒரு பெரிய படியை பிரதிபலிக்கிறது. மேலும், அதைப் பயன்படுத்துவதற்கும் பரிசோதனை செய்வதற்கும் மிகவும் உற்சாகமாக இருக்கிறது. எனவே, நீங்கள் அதை முயற்சி செய்ய வேண்டும்!

இருப்பினும், எல்லா மாடல்களையும் போலவே இதற்கு வரம்புகள் உள்ளன, மேலும் பல்வேறு பயன்பாடுகள் மற்றும் டொமைன்களில் அதிகபட்ச செயல்திறனைப் பெற கூடுதல் சுத்திகரிப்பு மற்றும் மேம்படுத்தல் தேவைப்படுகிறது.