ठूला भाषा मोडेलहरू: तपाईंले जान्न आवश्यक सबै कुरा

विषयसूची[लुकाउनुहोस्][देखाउनु]

ठूलो भाषा मोडेल के हो?
LLMs लाई कसरी तालिम दिइन्छ?+-
- ट्रान्सफर्मर आर्किटेक्चरको साथ पूर्व-प्रशिक्षण
- फाइन-ट्यूनिंग
ठूला भाषा मोडेलहरूको सीमितता+-
निष्कर्ष

कृत्रिम बुद्धिमत्ताको एक क्लासिक समस्या भनेको मानव भाषा बुझ्न सक्ने मेसिनको खोजी हो।

उदाहरणका लागि, तपाईंको मनपर्ने खोज इन्जिनमा "नजिकैको इटालियन रेस्टुरेन्टहरू" खोज्दा, एल्गोरिदमले तपाईंको क्वेरीमा प्रत्येक शब्दको विश्लेषण गर्नुपर्छ र सान्दर्भिक परिणामहरू आउटपुट गर्नुपर्छ। एक सभ्य अनुवाद एपले अंग्रेजीमा एक विशेष शब्दको सन्दर्भ बुझ्नुपर्छ र कुनै न कुनै रूपमा भाषाहरू बीच व्याकरणमा भिन्नताहरूको लागि खाता हुनुपर्छ।

यी सबै कार्यहरू र धेरै धेरै कम्प्युटर विज्ञान को उपक्षेत्र अन्तर्गत पर्दछ भनेर चिनिन्छ प्राकृतिक भाषा प्रशोधन वा NLP। NLP मा भएको प्रगतिले अमेजनको एलेक्सा जस्ता भर्चुअल सहायकहरूबाट स्प्याम फिल्टरहरू सम्मको व्यावहारिक अनुप्रयोगहरूको विस्तृत श्रृंखलामा पुर्‍याएको छ जसले दुर्भावनापूर्ण इमेल पत्ता लगाउँदछ।

NLP मा सबैभन्दा भर्खरको सफलता एक को विचार हो ठूलो भाषा मोडेल वा LLM। GPT-3 जस्ता LLM हरू यति शक्तिशाली भएका छन् कि तिनीहरू लगभग कुनै पनि NLP कार्य वा प्रयोगको मामलामा सफल देखिन्छन्।

यस लेखमा, हामी वास्तवमा एलएलएमहरू के हुन्, यी मोडेलहरू कसरी प्रशिक्षित हुन्छन्, र तिनीहरूका हालका सीमितताहरू हेर्नेछौं।

ठूलो भाषा मोडेल के हो?

यसको मूल मा, एक भाषा मोडेल केवल एक एल्गोरिथ्म हो जसले शब्दहरूको अनुक्रम एक वैध वाक्य हो भनेर जान्दछ।

केही सय पुस्तकहरूमा प्रशिक्षित एक धेरै सरल भाषा मोडेलले बताउन सक्षम हुनुपर्दछ कि "उनी घर गए" भन्दा बढी वैध छ।

यदि हामीले अपेक्षाकृत सानो डेटासेटलाई इन्टरनेटबाट स्क्र्याप गरिएको ठूलो डेटासेटको साथ बदल्यौं भने, हामी एकको विचारमा पुग्न थाल्छौं। ठूलो भाषा मोडेल.

प्रयोग तंत्रिका सञ्जालहरू, शोधकर्ताहरूले पाठ डेटाको ठूलो मात्रामा LLM लाई तालिम दिन सक्छन्। मोडेलले देखेको पाठ डेटाको मात्राको कारणले, LLM अनुक्रममा अर्को शब्द भविष्यवाणी गर्न धेरै राम्रो हुन्छ।

मोडेल यति परिष्कृत हुन्छ, यसले धेरै NLP कार्यहरू गर्न सक्छ। यी कार्यहरूमा पाठ संक्षेप, उपन्यास सामग्री सिर्जना, र मानव-जस्तै कुराकानी नक्कल पनि समावेश छ।

ठूला भाषा मोडेलहरूले प्रम्प्टहरूमा आधारित उपन्यास सामग्री सिर्जना गर्न सक्छन्

उदाहरण को लागी, अत्यधिक लोकप्रिय GPT-3 भाषा मोडेल 175 बिलियन मापदण्डहरु संग प्रशिक्षित गरिएको छ र यसलाई अहिलेसम्मको सबैभन्दा उन्नत भाषा मोडेल मानिन्छ।

यसले कार्य कोड उत्पन्न गर्न, सम्पूर्ण लेखहरू लेख्न र कुनै पनि विषयको बारेमा प्रश्नहरूको जवाफ दिन सक्षम छ।

LLMs लाई कसरी तालिम दिइन्छ?

हामीले छोटकरीमा यस तथ्यलाई छोएका छौं कि LLMs ले उनीहरूको प्रशिक्षण डेटाको आकारमा उनीहरूको धेरै शक्ति दिन्छ। हामीले तिनीहरूलाई "ठूलो" भाषा मोडेलहरू भन्नुको एउटा कारण छ।

ट्रान्सफर्मर आर्किटेक्चरको साथ पूर्व-प्रशिक्षण

पूर्व-प्रशिक्षण चरणको दौडान, भाषाको सामान्य संरचना र नियमहरू सिक्नको लागि LLM लाई अवस्थित पाठ डेटामा प्रस्तुत गरिन्छ।

विगतका केही वर्षहरूमा, LLM लाई डेटासेटहरूमा पूर्व-प्रशिक्षित गरिएको छ जसले सार्वजनिक इन्टरनेटको महत्त्वपूर्ण भागलाई समेट्छ। उदाहरण को लागी, GPT-3 को भाषा मोडेल को डाटा मा तालिम दिइएको थियो सामान्य क्रॉल डाटासेट, वेब पोष्टहरू, वेब पृष्ठहरू, र 50 मिलियन भन्दा बढी डोमेनहरूबाट स्क्र्याप गरिएका डिजिटाइज्ड पुस्तकहरूको एक समूह।

ठूला डाटासेटलाई त्यसपछि ए को रूपमा चिनिने मोडेलमा फिड गरिन्छ ट्रांसफर्मर। ट्रान्सफर्मर एक प्रकारका हुन् गहिरो न्यूरल नेटवर्क जुन क्रमिक डेटाको लागि उत्तम काम गर्दछ।

ठूला भाषा मोडेलहरूले ट्रान्सफर्मरहरू प्रयोग गर्छन्

ट्रान्सफर्मरहरू प्रयोग गर्छन् एन्कोडर-डिकोडर वास्तुकला इनपुट र आउटपुट ह्यान्डल गर्नका लागि। अनिवार्य रूपमा, ट्रान्सफर्मरले दुई न्यूरल नेटवर्कहरू समावेश गर्दछ: एउटा एन्कोडर र एक डिकोडर। इन्कोडरले इनपुट पाठको अर्थ निकाल्न र भेक्टरको रूपमा भण्डारण गर्न सक्छ। डिकोडरले त्यसपछि भेक्टर प्राप्त गर्दछ र पाठको यसको व्याख्या उत्पादन गर्दछ।

जे होस्, मुख्य अवधारणा जसले ट्रान्सफर्मर आर्किटेक्चरलाई राम्रोसँग काम गर्न अनुमति दियो त्यो हो a को थप आत्म-ध्यान संयन्त्र। आत्म-ध्यानको अवधारणाले मोडेललाई दिइएको वाक्यमा सबैभन्दा महत्त्वपूर्ण शब्दहरूमा ध्यान दिन अनुमति दियो। संयन्त्रले क्रमशः धेरै टाढा भएका शब्दहरू बीचको वजनलाई पनि विचार गर्दछ।

आत्म-ध्यान को अर्को लाभ यो प्रक्रिया समानांतर हुन सक्छ। क्रमिक डेटा प्रशोधन गर्नुको सट्टा, ट्रान्सफर्मर मोडेलहरूले एकैचोटि सबै इनपुटहरू प्रशोधन गर्न सक्छन्। यसले ट्रान्सफर्मरहरूलाई अन्य विधिहरूको तुलनामा तुलनात्मक रूपमा छिटो डाटाको ठूलो मात्रामा तालिम दिन सक्षम बनाउँछ।

फाइन-ट्यूनिंग

पूर्व-प्रशिक्षण चरण पछि, तपाईंले आधार LLM को लागि नयाँ पाठ परिचय गर्न रोज्न सक्नुहुन्छ। हामी यो प्रक्रियालाई कल गर्छौं फाइन-ट्युनिंग र प्राय: विशेष कार्यमा LLM को आउटपुट सुधार गर्न प्रयोग गरिन्छ।

उदाहरण को लागी, तपाइँ तपाइँको Twitter खाता को लागी सामग्री उत्पन्न गर्न को लागी एक LLM प्रयोग गर्न सक्नुहुन्छ। वांछित आउटपुटको एक विचार दिनको लागि हामी तपाईंको अघिल्लो ट्वीटहरूको धेरै उदाहरणहरू प्रदान गर्न सक्छौं।

त्यहाँ केही फरक प्रकारका फाइन-ट्यूनिङहरू छन्।

ठूला भाषा मोडेलहरू थोरै शट सिक्न सक्षम छन्

थोरै-शट सिकाइ भाषा मोडेलले समान आउटपुट कसरी बनाउने भनेर पत्ता लगाउने अपेक्षाको साथ मोडेलको सानो संख्यामा उदाहरण दिने प्रक्रियालाई बुझाउँछ। एक-शट सिकाइ केवल एक उदाहरण प्रदान गरिएको बाहेक समान प्रक्रिया हो।

ठूला भाषा मोडेलहरूको सीमितता

LLMs जस्तै GPT-3 ले फाइन-ट्युनिङ बिना पनि ठूलो संख्यामा प्रयोगका केसहरू प्रदर्शन गर्न सक्षम छन्। यद्यपि, यी मोडेलहरू अझै पनि आफ्नै सीमाहरूको सेटको साथ आउँछन्।

संसारको अर्थगत बुझाइको अभाव

सतहमा, LLMs ले बुद्धि प्रदर्शन गरेको देखिन्छ। यद्यपि, यी मोडेलहरू समान रूपमा काम गर्दैनन् मानव मस्तिष्क गर्छ। LLM हरू मात्र आउटपुट उत्पन्न गर्न सांख्यिकीय गणनाहरूमा भर पर्छन्। तिनीहरूमा आफ्नै विचार र अवधारणाहरू तर्क गर्ने क्षमता छैन।

यसको कारणले गर्दा, एउटा LLM ले अनावश्यक जवाफहरू आउटपुट गर्न सक्छ किनभने शब्दहरू "सही" वा "सांख्यिकीय रूपमा सम्भावित" देखिन्छ जब त्यो विशेष क्रममा राखिन्छ।

हलचलहरू

GPT-3 जस्ता मोडेलहरू पनि गलत प्रतिक्रियाहरूबाट ग्रस्त छन्। LLMs को रूपमा चिनिने घटनाबाट पीडित हुन सक्छ मतिभ्रम जहाँ मोडेलहरूले कुनै पनि सचेतना बिना वास्तविक रूपमा गलत प्रतिक्रिया आउटपुट गर्दछ कि प्रतिक्रियाको वास्तविकतामा कुनै आधार छैन।

उदाहरणका लागि, प्रयोगकर्ताले मोडेललाई पछिल्लो आईफोनमा स्टिभ जब्सका विचारहरू व्याख्या गर्न सोध्न सक्छ। मोडेलले यसको प्रशिक्षण डेटाको आधारमा पातलो हावाबाट उद्धरण उत्पन्न गर्न सक्छ।

पूर्वाग्रह र सीमित ज्ञान

धेरै अन्य एल्गोरिदमहरू जस्तै, ठूला भाषा मोडेलहरू प्रशिक्षण डेटामा उपस्थित पूर्वाग्रहहरू इनहेरिट गर्न प्रवण हुन्छन्। हामीले जानकारी पुन: प्राप्त गर्न LLMs मा अधिक भर पर्न थालेपछि, यी मोडेलका विकासकर्ताहरूले पूर्वाग्रही प्रतिक्रियाहरूको सम्भावित हानिकारक प्रभावहरूलाई कम गर्ने तरिकाहरू खोज्नुपर्छ।

उस्तै क्षमतामा, मोडेलको प्रशिक्षण डेटाको ब्लाइन्डस्पटहरूले पनि मोडेललाई नै बाधा पुर्‍याउनेछ। हाल, ठूला भाषा मोडेलहरूलाई तालिम लिन महिनौं लाग्छ। यी मोडेलहरू डेटासेटहरूमा पनि भर पर्छन् जुन दायरामा सीमित छन्। यसैले ChatGPT सँग २०२१ पछि भएका घटनाहरूको सीमित जानकारी मात्र छ।

निष्कर्ष

ठूला भाषा मोडेलहरूमा हामीले प्रविधि र हाम्रो संसारसँग सामान्य रूपमा अन्तरक्रिया गर्ने तरिकालाई साँच्चै परिवर्तन गर्ने क्षमता हुन्छ।

इन्टरनेटमा उपलब्ध डाटाको विशाल मात्राले अनुसन्धानकर्ताहरूलाई भाषाको जटिलताहरू मोडेल गर्ने तरिका दिएको छ। यद्यपि, बाटोको साथमा, यी भाषा मोडेलहरूले संसारको जस्तै मानव-जस्तै बुझेको जस्तो देखिन्छ।

जब जनताले यी भाषा मोडेलहरूलाई सही आउटपुट प्रदान गर्न विश्वास गर्न थाल्छ, अनुसन्धानकर्ताहरू र विकासकर्ताहरूले पहिले नै रेलहरू थप्ने तरिकाहरू खोजिरहेका छन् ताकि टेक्नोलोजी नैतिक रहन्छ।

तपाईलाई एलएलएमको भविष्य कस्तो लाग्छ ?

ठूला भाषा मोडेलहरू: तपाईंले जान्न आवश्यक सबै कुरा

ठूलो भाषा मोडेल के हो?

LLMs लाई कसरी तालिम दिइन्छ?