MultiModal-GPT: भाषा र दृष्टि एकीकरण मा एक नयाँ सीमा

के तपाईंले कहिल्यै बोल्ने र भिजुअल डेटा बुझ्न सक्ने एआईसँग कुराकानी गर्न सक्नुहुन्छ भन्ने इच्छा गर्नुभएको छ? MultiModal-GPT प्रतिमानले भिजुअल समझको साथ भाषा प्रशोधनलाई जोड्दछ।

यसले सही र विविध मानव-कम्प्यूटर अन्तरक्रियाको सम्भावना प्रदान गर्दछ। MultiModal-GPT वर्णनात्मक क्याप्सनहरू प्रदान गर्न, व्यक्तिगत वस्तुहरू गणना गर्न, र सामान्य प्रयोगकर्ता प्रश्नहरूको जवाफ दिन सक्छ।

तर, यो कसरी गर्छ? र, तपाईं MultiModal-GPT को साथ के गर्न सक्नुहुन्छ?

कथालाई सुरुमा लैजाऔं र हाम्रा अगाडिका सम्भावनाहरू बुझौं।

GPT-4 जस्ता भाषा मोडेलहरूको उदयसँगै, प्राकृतिक भाषा प्रशोधन प्रविधिहरूले क्रान्ति देखिरहेका छन्। ChatGPT जस्ता आविष्कारहरू पहिले नै हाम्रो जीवनमा समाहित भइसकेका छन्।

र, तिनीहरू आउने क्रम जारी देखिन्छ!

GPT-4 र यसको सीमाहरू

GPT-4 ले मानिसहरूसँग बहुविध कुराकानीहरूमा अद्भुत प्रवीणता देखाएको छ। अध्ययनहरूले यस कार्यसम्पादनलाई नक्कल गर्ने प्रयास गरेको छ, तर सटीक भिजुअल जानकारी भएका मोडेलहरू सहित चित्र टोकनहरूको सम्भावित उच्च संख्याको कारणले कम्प्युटेशनली महँगो हुन सक्छ।

अवस्थित मोडेलहरूले पनि तिनीहरूको अध्ययनमा भाषा निर्देशन ट्युनिङ समावेश गर्दैनन्, जसले शून्य-शट बहु-टर्न छवि-पाठ कुराकानीहरूमा भाग लिने तिनीहरूको क्षमतालाई प्रतिबन्धित गर्दछ।

फ्लेमिङ्गो फ्रेमवर्कमा निर्माण

MultiModal-GPT भनिने नयाँ मोडेल भाषिक र भिजुअल संकेतहरू प्रयोग गरेर मानिसहरूसँग सञ्चार गर्न सक्षम बनाउन विकास गरिएको थियो।

विकासकर्ताहरूले नामक कार्यक्रम प्रयोग गरे फ्लेमिङ्गो फ्रेमवर्क, जसलाई पहिले पाठ र भिजुअल दुवै बुझ्न तालिम दिइएको थियो, यसलाई सम्भव बनाउनको लागि।

फ्लेमिंगो फ्रेमवर्क

फ्लेमिङ्गोलाई केही परिवर्तनहरू आवश्यक थियो, यद्यपि यसले पाठ र दृश्यहरू समावेश गर्ने विस्तारित संवादहरू गर्न असमर्थ थियो।

अद्यावधिक गरिएको MultiModal-GPT मोडेलले तस्बिरहरूबाट डाटा सङ्कलन गर्न र मानव आदेशहरू बुझ्न र कार्यान्वयन गर्न भाषासँग मिलाउन सक्छ।

MultiModal-GPT

MultiModal-GPT एक प्रकारको AI मोडेल हो जसले विभिन्न मानवीय सोधपुछहरू पछ्याउन सक्छ जस्तै दृश्यहरू वर्णन गर्ने, वस्तुहरू गणना गर्ने, र प्रश्नहरूको जवाफ दिने। यसले दृश्य र मौखिक डेटाको मिश्रण प्रयोग गरेर आदेशहरू बुझ्छ र पालन गर्दछ।

अन्वेषकहरूले मानिसहरूसँग कुराकानी गर्न MultiModal-GPT को क्षमता बढाउन भिजुअल र भाषा-मात्र डेटा प्रयोग गरेर मोडेललाई तालिम दिए। थप रूपमा, यसले यसको भाषण प्रदर्शन गर्ने तरिकामा उल्लेखनीय सुधार ल्यायो। यसले यसको वार्तालाप कार्यसम्पादनमा पनि उल्लेखनीय सुधार गरेको छ।

तिनीहरूले पत्ता लगाए कि उच्च-गुणस्तरको प्रशिक्षण डेटा हुनु राम्रो वार्तालाप प्रदर्शनको लागि महत्त्वपूर्ण छ, किनभने छोटो प्रतिक्रियाहरू भएको सानो डेटासेटले मोडेललाई कुनै पनि आदेशमा छोटो प्रतिक्रियाहरू सिर्जना गर्न सक्षम पार्न सक्छ।

तपाईं MultiModal-GPT को साथ के गर्न सक्नुहुन्छ?

कुराकानीमा संलग्न

पहिले आएका भाषा मोडेलहरू जस्तै, MultiModal-GPT को प्राथमिक विशेषताहरू मध्ये एक प्राकृतिक भाषा छलफलहरूमा संलग्न हुने क्षमता हो। यसले उपभोक्ताहरूले वास्तविक व्यक्तिसँग जस्तै मोडेलसँग संलग्न हुन सक्छन् भन्ने संकेत गर्छ।

उदाहरणका लागि, MultiModal-GPT ले ग्राहकहरूलाई चाउचाउ बनाउनको लागि विस्तृत नुस्खा दिन सक्छ वा भोजनको लागि सम्भावित रेस्टुरेन्टहरू सिफारिस गर्न सक्छ। यो मोडेल प्रयोगकर्ताहरूको यात्रा उद्देश्य बारे सामान्य प्रश्नहरूको जवाफ दिन सक्षम छ।

चाउचाउ

वस्तुहरूको पहिचान

MultiModal-GPT तस्बिरहरूमा चीजहरू पहिचान गर्न र तिनीहरूको बारेमा सोधपुछको जवाफ दिन सक्छ। उदाहरणका लागि, मोडेलले फ्रेडी मर्करीलाई छविमा चिन्न सक्छ र उनको बारेमा प्रश्नहरूको जवाफ दिन सक्छ।

यसले व्यक्तिहरूको संख्या पनि गणना गर्न सक्छ र चित्रमा के गर्दैछ भनेर व्याख्या गर्न सक्छ। यो वस्तु पहिचान क्षमतामा ई-वाणिज्य, स्वास्थ्य सेवा, र सुरक्षा सहित विभिन्न क्षेत्रहरूमा अनुप्रयोगहरू छन्।

उदाहरणका

MultiModal-GPT ले डिजिटल चित्र भित्रको पाठलाई पनि चिन्न सक्छ। यसले मोडेलले तस्बिरहरूमा पाठ पढ्न र उपयोगी डेटा निकाल्न सक्छ भन्ने संकेत गर्दछ। यसले, उदाहरणका लागि, छविमा क्यारेक्टरहरू पत्ता लगाउन र पुस्तकको लेखक पहिचान गर्न सक्छ।

यो को लागी एक अत्यन्त उपयोगी उपकरण हो कागजात व्यवस्थापन, डेटा इनपुट, र सामग्री विश्लेषण।

गांधी

तर्क र ज्ञानको उत्पादन

बहु-मोडल-GPT ले तर्क र संसारको बारेमा ज्ञान उत्पादन गर्न सक्छ। यसको मतलब यसले तस्बिरहरूको पूर्ण व्याख्या प्रदान गर्न सक्छ र उनीहरूलाई कुन मौसममा छवि लिइएको थियो भनेर पनि बताउन सक्छ।

यो सीप वातावरणीय अनुगमन, कृषि, र मौसम विज्ञान सहित विभिन्न विषयहरूमा उपयोगी छ। मोडेलले कविता, कथा र गीतहरू जस्ता रचनात्मक सामग्रीहरू सिर्जना गर्न सक्छ, यसलाई रचनात्मक कार्यहरूको लागि उत्कृष्ट उपकरण बनाउँदछ।

MultiModal-GPT को भित्री कार्यहरू

एकीकृत निर्देशनहरूको लागि टेम्प्लेट

टोलीले समानुपातिक भाषिक डेटा र बहुविध दृष्टि-र-भाषा डेटाको एकीकरणको लागि एकल टेम्प्लेट प्रस्तुत गर्दछ जसले बहुविध-जीपीटी मोडेललाई समन्वयात्मक रूपमा तालिम दिन्छ।

यो संयुक्त रणनीतिले दुबै डेटा मोडालिटीहरूको पूरक क्षमताहरूको शोषण गरेर र अन्तर्निहित विचारहरूको गहिरो समझलाई प्रोत्साहित गरेर विभिन्न कार्यहरूमा मोडेलको प्रदर्शन सुधार गर्ने प्रयास गर्दछ।

Dolly 15k र Alpaca GPT4 डाटासेटहरू टोलीद्वारा भाषा-मात्र निर्देशन-निम्न क्षमताहरू मापन गर्न प्रयोग गरिन्छ। यी डेटासेटहरूले एक सुसंगत निर्देशन-निम्न ढाँचाको ग्यारेन्टी गर्न डेटासेट इनपुट संरचनाको लागि प्रम्प्ट टेम्प्लेटको रूपमा कार्य गर्दछ।

Dolly 15k डाटासेट सिंहावलोकन

छवि: Doly 15k डेटासेटको अवलोकन

मोडेलले कसरी काम गर्छ?

मल्टिमोडल-जीपीटी मोडेलमा तीनवटा मुख्य कम्पोनेन्टहरू बनाउँछन्: भाषा डिकोडर, एक पर्सिभर रिसेम्पलर, र भिजन एन्कोडर। छवि भिजन एन्कोडर द्वारा लिइन्छ, जसले त्यसपछि विशेषताहरूको संग्रह उत्पन्न गर्दछ जुन यसलाई विशेषता गर्दछ।

भाषा डिकोडरले पाठ सिर्जना गर्न भिजन एन्कोडरबाट जानकारी प्रयोग गर्दछ जसले छविलाई बुझाउने रिसेम्पलरको सहायताले वर्णन गर्दछ।

मोडेलको कम्पोनेन्ट जसले भाषा बुझ्छ र पाठ उत्पादन गर्दछ भाषा डिकोडर हो। वाक्यांशमा निम्न शब्दको भविष्यवाणी गर्न, मोडेललाई भाषा-मात्र र दृष्टि-प्लस भाषा निर्देशन-निम्न डेटा दुवै प्रयोग गरेर तालिम दिइएको छ।

यसले मोडेललाई कसरी मानवबाट आएको आदेशहरूमा प्रतिक्रिया गर्ने भनेर सिकाउँछ र चित्र विवरणहरूको लागि स्वीकार्य पाठ प्रदान गर्दछ।

मोडेल

टोली पछाडि

MultiModal-GPT माईक्रोसफ्ट रिसर्च एसिया अनुसन्धानकर्ताहरू र ताओ गोंग, चेन्ग्की ल्यु र शिलोङ झाङको नेतृत्वमा इन्जिनियरहरूको टोलीद्वारा सिर्जना गरिएको थियो। युडोङ वाङ, मियाओ झेङ, छियान झाओ, कुइकुन लिउ, वेनवेई झाङ, पिङ लुओ र काई चेनले मोडेलको अध्ययन र विकासमा योगदान पुर्याएका छन्।

प्राकृतिक भाषा प्रशोधन, कम्प्युटर दृष्टि, र मेसिन लर्निङ टोलीका लागि योग्यताका सबै क्षेत्रहरू हुन्। तिनीहरूसँग शीर्ष-स्तरीय सम्मेलनहरू र प्रकाशनहरूमा प्रकाशित धेरै लेखहरू छन्, साथै तिनीहरूको वैज्ञानिक प्रयासहरूको लागि विभिन्न सम्मान र प्रशंसाहरू छन्।

टोलीको अनुसन्धानले मानव र प्रविधिको बीचमा थप प्राकृतिक र बौद्धिक अन्तरक्रियालाई सक्षम पार्न अत्याधुनिक मोडेल र दृष्टिकोणहरूको विकासमा केन्द्रित छ।

बहु-मोडल-GPT विकास क्षेत्र मा एक उल्लेखनीय उपलब्धि हो किनभने यो बहु-राउन्ड छलफलको लागि एकल ढाँचामा दृष्टि र भाषा संयोजन गर्ने पहिलो मोडेलहरू मध्ये एक हो।

MultiModal-GPT अनुसन्धान र विकासमा टोलीको योगदानले प्राकृतिक भाषा प्रशोधन र मानव-मेसिन अन्तरक्रियाको भविष्यमा पर्याप्त प्रभाव पार्ने सम्भावना छ।

MultiModal-GPT कसरी प्रयोग गर्ने

शुरुवातका लागि, MultiModal-GPT उपकरण प्रयोग गर्नु सरल छ। बस मा जानुहोस् https://mmgpt.openmmlab.org.cn/ र "अपलोड छवि" बटन थिच्नुहोस्।

अपलोड गर्नको लागि तस्विर फाइल छान्नुहोस्, र त्यसपछि टेक्स्ट फिल्डमा टेक्स्ट प्रम्प्ट टाइप गर्नुहोस्। मोडेलबाट प्रतिक्रिया सिर्जना गर्न, "पेश गर्नुहोस्" बटनमा क्लिक गर्नुहोस्, जुन पाठ फिल्डको तल देखा पर्नेछ।

तपाईंले मोडेलको क्षमताहरू बारे थप जान्नको लागि विभिन्न फोटोहरू र निर्देशनहरू प्रयोग गर्न सक्नुहुन्छ।

ईन्टरफेस १ 1०

स्थापना

MultiModal-GPT प्याकेज स्थापना गर्न, GitHub बाट भण्डार क्लोन गर्न टर्मिनल आदेश "git clone https://github.com/open-mmlab/Multimodal-GPT.git" प्रयोग गर्नुहोस्। तपाईं केवल यी चरणहरू पालना गर्न सक्नुहुन्छ:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

वैकल्पिक रूपमा, प्रयोग गर्नुहोस् conda env create -f environment.yml नयाँ conda वातावरण स्थापना गर्न। तपाईंले पूर्व-प्रशिक्षित वजनहरू डाउनलोड गरेर चेकपोइन्ट फोल्डरमा भण्डारण गरेर स्थापना गरेपछि स्थानीय रूपमा डेमो चलाउन सक्नुहुन्छ।

Gradio डेमो त्यसपछि "python app.py" आदेश चलाएर सुरु गर्न सकिन्छ।

सम्भावित कमजोरीहरू

MultiModal-GPT मोडेलमा अझै पनि त्रुटिहरू छन् र यसको उत्कृष्ट प्रदर्शनको बाबजुद विकासको लागि कोठा छ।

उदाहरणका लागि, जब जटिल वा अस्पष्ट भिजुअल इनपुटहरूसँग व्यवहार गर्दा, मोडेलले सधैँ इनपुटको सन्दर्भ पहिचान गर्न र बुझ्न सक्षम नहुन सक्छ। यसले मोडेलबाट गलत भविष्यवाणी वा प्रतिक्रियाहरूको परिणाम हुन सक्छ।

थप रूपमा, विशेष गरी जब इनपुट जटिल वा खुला-समाप्त हुन्छ, मोडेलले सधैं राम्रो प्रतिक्रिया वा परिणाम उत्पादन नगर्न सक्छ। मोडेलको जवाफ, उदाहरणका लागि, पुस्तक कभरको गलत पहिचानको मामलामा दुई पुस्तकको आवरण कत्तिको समान देखिन्थ्यो भनेर प्रभाव पारेको हुन सक्छ।

निष्कर्ष

समग्रमा, मल्टिमोडल-जीपीटी मोडेलले प्राकृतिक भाषा प्रशोधन र मेसिन लर्निङमा अगाडि बढ्ने ठूलो कदमलाई प्रतिनिधित्व गर्दछ। र, यो प्रयोग गर्न र यसको साथ प्रयोग गर्न धेरै रोमाञ्चक छ। त्यसोभए, तपाईंले यसलाई प्रयास गर्नुपर्छ!

यद्यपि, सबै मोडेलहरू जस्तै यसको सीमाहरू छन्, र विभिन्न अनुप्रयोगहरू र डोमेनहरूमा अधिकतम प्रदर्शन प्राप्त गर्न थप परिष्कृत र वृद्धि आवश्यक छ।