பேசப்படும் மற்றும் காட்சி தரவு இரண்டையும் புரிந்துகொள்ளும் AI உடன் நீங்கள் எப்போதாவது உரையாட விரும்பினீர்களா? மல்டிமாடல்-ஜிபிடி முன்னுதாரணம் மொழி செயலாக்கத்தை காட்சி புரிதலுடன் இணைக்கிறது.
இது துல்லியமான மற்றும் பன்முகப்படுத்தப்பட்ட மனித-கணினி தொடர்புக்கான சாத்தியத்தை வழங்குகிறது. மல்டிமாடல்-ஜிபிடி விளக்கமான தலைப்புகளை வழங்கலாம், தனிப்பட்ட உருப்படிகளை எண்ணலாம் மற்றும் பொதுவான பயனர் கேள்விகளுக்கு பதிலளிக்கலாம்.
ஆனால், அது எப்படி செய்கிறது? மேலும், MultiModal-GPT மூலம் நீங்கள் என்ன செய்யலாம்?
கதையை ஆரம்பத்திற்கு எடுத்துச் சென்று, நமக்கு முன்னால் உள்ள சாத்தியக்கூறுகளைப் புரிந்துகொள்வோம்.
GPT-4 போன்ற மொழி மாதிரிகள் தோன்றியவுடன், இயற்கை மொழி செயலாக்க தொழில்நுட்பங்கள் ஒரு புரட்சியைக் காண்கின்றன. ChatGPT போன்ற புதுமைகள் ஏற்கனவே நம் வாழ்வில் இணைக்கப்பட்டுள்ளன.
மேலும், அவர்கள் தொடர்ந்து வருவதாகத் தெரிகிறது!
GPT-4 மற்றும் அதன் வரம்புகள்
GPT-4 மக்களுடன் பலதரப்பட்ட உரையாடல்களில் அற்புதமான நிபுணத்துவத்தைக் காட்டியுள்ளது. இந்த செயல்திறனை நகலெடுக்க ஆய்வுகள் முயற்சி செய்தன, ஆனால் அதிக எண்ணிக்கையிலான பட டோக்கன்கள் இருப்பதால், துல்லியமான காட்சித் தகவல்களுடன் கூடிய மாதிரிகள் கணக்கீட்டு ரீதியாக விலை உயர்ந்ததாக இருக்கும்.
தற்போதுள்ள மாதிரிகள் மொழி அறிவுறுத்தல் டியூனிங்கை தங்கள் ஆய்வில் சேர்க்கவில்லை, இது ஜீரோ-ஷாட் மல்டிடர்ன் இமேஜ்-டெக்ஸ்ட் உரையாடல்களில் பங்கேற்கும் திறனைக் கட்டுப்படுத்துகிறது.
ஃபிளமிங்கோ கட்டமைப்பை உருவாக்குதல்
மல்டிமோடல்-ஜிபிடி எனப்படும் புதிய மாதிரியானது மொழியியல் மற்றும் காட்சி குறிப்புகள் இரண்டையும் பயன்படுத்தி மக்களுடன் தொடர்பு கொள்ள உருவாக்கப்பட்டது.
டெவலப்பர்கள் ஒரு திட்டத்தைப் பயன்படுத்தினர் ஃபிளமிங்கோ கட்டமைப்பு, உரை மற்றும் காட்சிகள் இரண்டையும் புரிந்துகொள்வதற்கு, இதை சாத்தியமாக்குவதற்கு முன்பு பயிற்சியளிக்கப்பட்டது.
ஃபிளமிங்கோவுக்கு சில மாற்றங்கள் தேவைப்பட்டன, இருப்பினும், உரை மற்றும் காட்சிகளை உள்ளடக்கிய நீட்டிக்கப்பட்ட உரையாடல்களைக் கொண்டிருக்க முடியவில்லை.
புதுப்பிக்கப்பட்ட MultiModal-GPT மாதிரியானது படங்களிலிருந்து தரவைச் சேகரித்து, மனிதக் கட்டளைகளைப் புரிந்துகொள்ளவும் செயல்படுத்தவும் மொழியுடன் கலக்கலாம்.
மல்டிமாடல்-ஜிபிடி
MultiModal-GPT என்பது ஒரு வகை AI மாதிரியாகும், இது காட்சிகளை விவரிப்பது, பொருட்களை எண்ணுவது மற்றும் கேள்விகளுக்கு பதிலளிப்பது போன்ற பல்வேறு மனித விசாரணைகளை பின்பற்ற முடியும். இது காட்சி மற்றும் வாய்மொழி தரவுகளின் கலவையைப் பயன்படுத்தி ஆர்டர்களைப் புரிந்துகொண்டு பின்பற்றுகிறது.
மல்டிமோடல்-ஜிபிடியின் மக்களுடன் உரையாடும் திறனை அதிகரிக்க, காட்சி மற்றும் மொழி-மட்டும் தரவைப் பயன்படுத்தி ஆராய்ச்சியாளர்கள் மாதிரியைப் பயிற்றுவித்தனர். கூடுதலாக, அதன் சொற்பொழிவு நிகழ்த்தப்பட்ட விதத்தில் குறிப்பிடத்தக்க முன்னேற்றத்தை ஏற்படுத்தியது. இது அதன் உரையாடல் செயல்திறனில் குறிப்பிடத்தக்க முன்னேற்றத்தையும் ஏற்படுத்தியது.
நல்ல உரையாடல் செயல்திறனுக்கு உயர்தர பயிற்சித் தரவைக் கொண்டிருப்பது மிகவும் முக்கியமானது என்பதை அவர்கள் கண்டுபிடித்தனர், ஏனெனில் குறுகிய பதில்களைக் கொண்ட சிறிய தரவுத்தொகுப்பு எந்த கட்டளைக்கும் குறுகிய பதில்களை உருவாக்க மாதிரியை இயக்கலாம்.
MultiModal-GPT மூலம் நீங்கள் என்ன செய்ய முடியும்?
உரையாடல்களில் ஈடுபடுதல்
முன்னர் வந்த மொழி மாதிரிகளைப் போலவே, மல்டிமாடல்-ஜிபிடியின் முதன்மையான பண்புகளில் ஒன்று, இயல்பான மொழி விவாதங்களில் ஈடுபடும் திறன் ஆகும். நுகர்வோர் ஒரு உண்மையான நபருடன் ஈடுபடுவதைப் போலவே மாடலிலும் ஈடுபடலாம் என்பதை இது குறிக்கிறது.
எடுத்துக்காட்டாக, MultiModal-GPT வாடிக்கையாளர்களுக்கு நூடுல்ஸ் தயாரிப்பதற்கான விரிவான செய்முறையை வழங்கலாம் அல்லது உணவருந்துவதற்கு சாத்தியமான உணவகங்களைப் பரிந்துரைக்கலாம். பயனர்களின் பயண நோக்கங்கள் குறித்த பொதுவான கேள்விகளுக்கும் இந்த மாதிரி பதிலளிக்கும் திறன் கொண்டது.
பொருள்களின் அங்கீகாரம்
MultiModal-GPT புகைப்படங்களில் உள்ள விஷயங்களை அடையாளம் கண்டு அவற்றைப் பற்றிய விசாரணைகளுக்கு பதிலளிக்க முடியும். உதாரணமாக, மாடல் ஃப்ரெடி மெர்குரியை ஒரு படத்தில் அடையாளம் கண்டு அவரைப் பற்றிய கேள்விகளுக்கு பதிலளிக்க முடியும்.
இது தனிநபர்களின் எண்ணிக்கையை எண்ணி அவர்கள் ஒரு படத்தில் என்ன செய்கிறார்கள் என்பதை விளக்கவும் முடியும். இ-காமர்ஸ், ஹெல்த்கேர் மற்றும் பாதுகாப்பு உள்ளிட்ட பல்வேறு துறைகளில் இந்த பொருள் அடையாளம் காணும் திறன் பயன்பாடுகளைக் கொண்டுள்ளது.
மல்டிமாடல்-ஜிபிடி டிஜிட்டல் படங்களுக்குள் உள்ள உரையையும் அடையாளம் காண முடியும். மாடல் புகைப்படங்களில் உள்ள உரையைப் படித்து பயனுள்ள தரவைப் பிரித்தெடுக்க முடியும் என்பதை இது குறிக்கிறது. எடுத்துக்காட்டாக, இது ஒரு படத்தில் உள்ள எழுத்துக்களைக் கண்டறிந்து ஒரு புத்தகத்தின் ஆசிரியரை அடையாளம் காணலாம்.
இது மிகவும் பயனுள்ள கருவியாகும் ஆவண மேலாண்மை, தரவு உள்ளீடு மற்றும் உள்ளடக்க பகுப்பாய்வு.
பகுத்தறிவு மற்றும் அறிவின் உருவாக்கம்
மல்டி-மாடல்-ஜிபிடி உலகைப் பற்றிய அறிவைப் பகுத்தறிந்து உருவாக்க முடியும். இதன் பொருள், இது புகைப்படங்களின் முழு விளக்கத்தையும் அளிக்கும் மற்றும் படம் எந்த பருவத்தில் எடுக்கப்பட்டது என்று கூட சொல்ல முடியும்.
சுற்றுச்சூழல் கண்காணிப்பு, விவசாயம் மற்றும் வானிலை ஆய்வு உள்ளிட்ட பல்வேறு துறைகளில் இந்த திறன் பயனுள்ளதாக இருக்கும். இந்த மாதிரியானது கவிதை, கதைகள் மற்றும் பாடல்கள் போன்ற ஆக்கப்பூர்வமான விஷயங்களை உருவாக்க முடியும், இது படைப்பு பணிகளுக்கான சிறந்த கருவியாக அமைகிறது.
மல்டிமாடல்-ஜிபிடியின் உள் செயல்பாடுகள்
ஒருங்கிணைந்த வழிமுறைகளுக்கான டெம்ப்ளேட்
மல்டிமோடல்-ஜிபிடி மாதிரியை ஒருங்கிணைக்கப்பட்ட முறையில் சரியாகப் பயிற்றுவிப்பதற்காக ஒரே மாதிரியான மொழியியல் தரவு மற்றும் மல்டிமாடல் பார்வை மற்றும் மொழித் தரவு ஆகியவற்றின் ஒருங்கிணைப்புக்கான ஒரு டெம்ப்ளேட்டை குழு வழங்குகிறது.
இந்த ஒருங்கிணைந்த மூலோபாயம் இரண்டு தரவு முறைகளின் நிரப்பு திறன்களைப் பயன்படுத்துவதன் மூலமும், அடிப்படை யோசனைகளின் ஆழமான புரிதலை ஊக்குவிப்பதன் மூலமும் பல்வேறு பணிகளில் மாதிரியின் செயல்திறனை மேம்படுத்த முயற்சிக்கிறது.
டோலி 15k மற்றும் Alpaca GPT4 தரவுத்தொகுப்புகள் மொழி-மட்டுமே அறிவுறுத்தல்-பின்வரும் திறன்களை அளவிட குழுவால் பயன்படுத்தப்படுகின்றன. இந்த தரவுத்தொகுப்புகள் நிலையான அறிவுறுத்தல்-பின்வரும் வடிவமைப்பிற்கு உத்தரவாதம் அளிக்க தரவுத்தொகுப்பு உள்ளீட்டை கட்டமைப்பதற்கான ஒரு உடனடி டெம்ப்ளேட்டாக செயல்படுகின்றன.
படம்: Doly 15k தரவுத்தொகுப்பின் மேலோட்டம்
மாதிரி எப்படி வேலை செய்கிறது?
மூன்று முக்கிய கூறுகள் MultiModal-GPT மாதிரியை உருவாக்குகின்றன: ஒரு மொழி குறிவிலக்கி, ஒரு உணர்தல் மறுவடிவமைப்பான் மற்றும் ஒரு பார்வை குறியாக்கி. பார்வை குறியாக்கி மூலம் படம் எடுக்கப்பட்டது, அதன்பின் குணாதிசயங்களின் தொகுப்பை உருவாக்குகிறது.
மொழி குறியாக்கி, பார்வை குறியாக்கியின் தகவலைப் பயன்படுத்தி, உணர்தல் மறுவடிவமைப்பாளரின் உதவியுடன் படத்தை விவரிக்கும் உரையை உருவாக்குகிறது.
மொழியைப் புரிந்துகொண்டு உரையை உருவாக்கும் மாதிரியின் கூறு மொழி குறிவிலக்கி ஆகும். ஒரு சொற்றொடரில் பின்வரும் வார்த்தையைக் கணிக்க, மாதிரியானது மொழி-மட்டும் மற்றும் பார்வை-பிளஸ் மொழி அறிவுறுத்தல்-பின்வரும் தரவைப் பயன்படுத்தி பயிற்சியளிக்கப்படுகிறது.
இது மனிதர்களிடமிருந்து வரும் கட்டளைகளுக்கு எவ்வாறு எதிர்வினையாற்றுவது என்பதை மாதிரியை கற்பிக்கிறது மற்றும் பட விளக்கங்களுக்கு ஏற்றுக்கொள்ளக்கூடிய உரையை வழங்குகிறது.
பின்னால் அணி
தாவோ காங், செங்கி லியு மற்றும் ஷிலாங் ஜாங் தலைமையிலான மைக்ரோசாஃப்ட் ரிசர்ச் ஆசியா ஆராய்ச்சியாளர்கள் மற்றும் பொறியாளர்கள் குழுவால் மல்டிமாடல்-ஜிபிடி உருவாக்கப்பட்டது. யுடாங் வாங், மியாவ் ஜெங், கியான் ஜாவோ, குய்குன் லியு, வென்வேய் ஜாங், பிங் லுவோ மற்றும் கை சென் ஆகியோர் மாதிரியின் ஆய்வு மற்றும் வளர்ச்சிக்கு பங்களித்தனர்.
இயற்கை மொழி செயலாக்கம், கணினி பார்வை, மற்றும் இயந்திர கற்றல் என்பது அணிக்கான அனைத்துத் திறனுக்கான பகுதிகளாகும். அவர்கள் உயர்மட்ட மாநாடுகள் மற்றும் வெளியீடுகளில் வெளியிடப்பட்ட பல கட்டுரைகள் மற்றும் அவர்களின் அறிவியல் முயற்சிகளுக்கு பல்வேறு மரியாதைகள் மற்றும் பாராட்டுக்களைப் பெற்றுள்ளனர்.
மனிதர்களுக்கும் தொழில்நுட்பத்துக்கும் இடையே இயற்கையான மற்றும் அறிவார்ந்த தொடர்புகளை செயல்படுத்துவதற்கான அதிநவீன மாதிரிகள் மற்றும் அணுகுமுறைகளின் வளர்ச்சியில் குழுவின் ஆராய்ச்சி கவனம் செலுத்துகிறது.
மல்டி-மாடல்-ஜிபிடி மேம்பாடு என்பது துறையில் குறிப்பிடத்தக்க சாதனையாகும், ஏனெனில் இது பல சுற்று விவாதங்களுக்கு ஒரே கட்டமைப்பில் பார்வை மற்றும் மொழியை இணைக்கும் முதல் மாதிரிகளில் ஒன்றாகும்.
மல்டிமாடல்-ஜிபிடி ஆராய்ச்சி மற்றும் மேம்பாட்டிற்கான குழுவின் பங்களிப்புகள் இயற்கையான மொழி செயலாக்கம் மற்றும் மனித-இயந்திர தொடர்புகளின் எதிர்காலத்தில் கணிசமான தாக்கத்தை ஏற்படுத்தும் திறனைக் கொண்டுள்ளன.
MultiModal-GPT ஐ எவ்வாறு பயன்படுத்துவது
ஆரம்பநிலைக்கு, MultiModal-GPT கருவியைப் பயன்படுத்துவது எளிது. வெறுமனே செல்லுங்கள் https://mmgpt.openmmlab.org.cn/ மற்றும் "படத்தைப் பதிவேற்று" பொத்தானை அழுத்தவும்.
பதிவேற்ற படக் கோப்பைத் தேர்வுசெய்து, உரை புலத்தில் உரை வரியில் தட்டச்சு செய்யவும். மாதிரியிலிருந்து பதிலை உருவாக்க, "சமர்ப்பி" பொத்தானைக் கிளிக் செய்யவும், இது உரை புலத்தின் கீழே தோன்றும்.
மாதிரியின் திறன்களைப் பற்றி மேலும் அறிய, வெவ்வேறு புகைப்படங்கள் மற்றும் வழிமுறைகளை நீங்கள் பரிசோதிக்கலாம்.
நிறுவுதல்
MultiModal-GPT தொகுப்பை நிறுவ, "git clone https://github.com/open-mmlab/Multimodal-GPT.git" என்ற டெர்மினல் கட்டளையைப் பயன்படுத்தி GitHub இலிருந்து களஞ்சியத்தை குளோன் செய்யவும். நீங்கள் இந்த வழிமுறைகளைப் பின்பற்றலாம்:
git clone https://github.com/open-mmlab/Multimodal-GPT.git
cd Multimodal-GPT
pip install -r requirements.txt
pip install -v -e .
மாற்றாக, பயன்படுத்தவும் conda env create -f environment.yml
ஒரு புதிய கோண்டா சூழலை நிறுவ வேண்டும். முன் பயிற்சி பெற்ற எடைகளைப் பதிவிறக்கி அவற்றை சோதனைச் சாவடிகள் கோப்புறையில் சேமிப்பதன் மூலம் டெமோவை நிறுவிய பின் உள்நாட்டில் இயக்கலாம்.
"python app.py" கட்டளையை இயக்குவதன் மூலம் Gradio டெமோ தொடங்கப்படலாம்.
சாத்தியமான குறைபாடுகள்
MultiModal-GPT மாடல் அதன் சிறந்த செயல்திறன் இருந்தபோதிலும் இன்னும் குறைபாடுகள் மற்றும் வளர்ச்சிக்கான இடங்களைக் கொண்டுள்ளது.
எடுத்துக்காட்டாக, சிக்கலான அல்லது தெளிவற்ற காட்சி உள்ளீடுகளைக் கையாளும் போது, மாதிரியால் எப்போதும் உள்ளீட்டின் சூழலை அடையாளம் கண்டு புரிந்து கொள்ள முடியாது. இது மாதிரியிலிருந்து தவறான கணிப்புகள் அல்லது எதிர்வினைகளை ஏற்படுத்தலாம்.
கூடுதலாக, குறிப்பாக உள்ளீடு சிக்கலானதாகவோ அல்லது திறந்த நிலையில் இருக்கும் போது, மாதிரியானது எப்போதும் சிறந்த எதிர்வினை அல்லது முடிவை உருவாக்காது. உதாரணமாக, மாதிரியின் பதில், புத்தக அட்டையின் தவறான அடையாளத்தின் விஷயத்தில் இரண்டு புத்தகங்களின் அட்டைகளும் எவ்வளவு ஒத்ததாக இருந்தன என்பதன் மூலம் தாக்கம் ஏற்பட்டிருக்கலாம்.
தீர்மானம்
ஒட்டுமொத்தமாக, மல்டிமாடல்-ஜிபிடி மாதிரியானது இயற்கையான மொழி செயலாக்கம் மற்றும் இயந்திர கற்றலில் ஒரு பெரிய படியை பிரதிபலிக்கிறது. மேலும், அதைப் பயன்படுத்துவதற்கும் பரிசோதனை செய்வதற்கும் மிகவும் உற்சாகமாக இருக்கிறது. எனவே, நீங்கள் அதை முயற்சி செய்ய வேண்டும்!
இருப்பினும், எல்லா மாடல்களையும் போலவே இதற்கு வரம்புகள் உள்ளன, மேலும் பல்வேறு பயன்பாடுகள் மற்றும் டொமைன்களில் அதிகபட்ச செயல்திறனைப் பெற கூடுதல் சுத்திகரிப்பு மற்றும் மேம்படுத்தல் தேவைப்படுகிறது.
ஒரு பதில் விடவும்