हामी सम्भवतः नयाँ जेनेरेटिभ एआई क्रान्तिको सुरुवातमा छौं।
जेनेरेटिभ आर्टिफिसियल इन्टेलिजेन्सले सामग्री सिर्जना गर्न सक्षम हुने एल्गोरिदम र मोडेलहरूलाई जनाउँछ। त्यस्ता मोडेलहरूको आउटपुटमा पाठ, अडियो र छविहरू समावेश हुन्छन् जुन प्रायः वास्तविक मानव आउटपुटको रूपमा गलत हुन सक्छ।
अनुप्रयोगहरू जस्तै GPT च्याट गर्नुहोस् जेनेरेटिभ एआई केवल नवीनता होइन भनेर देखाएको छ। एआई अब विस्तृत निर्देशनहरू पालना गर्न सक्षम छ र संसारले कसरी काम गर्छ भन्ने बारे गहिरो बुझेको देखिन्छ।
तर हामी यो बिन्दुमा कसरी पुग्यौं? यस गाइडमा, हामी AI अनुसन्धानमा भएका केही प्रमुख सफलताहरू पार गर्नेछौं जसले यस नयाँ र रोमाञ्चक जनरेटिभ एआई क्रान्तिको लागि मार्ग प्रशस्त गरेको छ।
न्यूरल नेटवर्कको उदय
तपाईं अनुसन्धानमा आधुनिक एआईको उत्पत्ति पत्ता लगाउन सक्नुहुन्छ गहिरो शिक्षा र तंत्रिका नेटवर्कहरू 2012 मा।
त्यस वर्षमा, टोरन्टो विश्वविद्यालयका एलेक्स क्रिजेभस्की र उनको टोलीले वस्तुहरू वर्गीकरण गर्न सक्ने उच्च-सही एल्गोरिदम प्राप्त गर्न सक्षम भए।
यो अत्याधुनिक तंत्रिका नेटवर्क, अहिले AlexNet को रूपमा चिनिन्छ, रनर-अप भन्दा धेरै कम त्रुटि दर संग ImageNet भिजुअल डाटाबेसमा वस्तुहरू वर्गीकृत गर्न सक्षम थियो।
तंत्रिका सञ्जालहरू एल्गोरिदमहरू हुन् जसले केही प्रशिक्षण डेटामा आधारित विशेष व्यवहार सिक्न गणितीय कार्यहरूको नेटवर्क प्रयोग गर्दछ। उदाहरणका लागि, तपाईंले क्यान्सर जस्ता रोगको निदान गर्न मोडेललाई तालिम दिनको लागि न्यूरल नेटवर्क मेडिकल डाटा फिड गर्न सक्नुहुन्छ।
आशा छ कि न्यूरल नेटवर्कले बिस्तारै डाटामा ढाँचाहरू फेला पार्छ र उपन्यास डाटा दिएपछि थप सटीक हुन्छ।
AlexNet को एक सफलता आवेदन थियो कन्फ्युशनल न्यूरल नेटवर्क वा CNNs। "कन्भोलुसनल" कुञ्जी शब्दले कन्भोलुसनल तहहरूको थपलाई जनाउँछ जसले डेटामा बढी जोड दिन्छ जुन एकसाथ नजिक छ।
जबकि CNNs पहिले नै 1980s मा एक विचार थियो, तिनीहरूले मात्र 2010 को शुरुवातमा लोकप्रियता प्राप्त गर्न थाले जब नवीनतम GPU प्रविधिले नयाँ उचाइहरूमा टेक्नोलोजीलाई धकेल्यो।
CNNs को क्षेत्रमा सफलता कम्प्युटर दृष्टि तंत्रिका नेटवर्क को अनुसन्धान मा अधिक चासो को नेतृत्व।
गुगल र फेसबुक जस्ता टेक दिग्गजहरूले जनताका लागि आफ्नै एआई फ्रेमवर्क जारी गर्ने निर्णय गरे। उच्च-स्तर APIs जस्तै केरास प्रयोगकर्ताहरूलाई गहिरो न्यूरल नेटवर्कहरू प्रयोग गर्न प्रयोगकर्ता-अनुकूल इन्टरफेस दियो।
सीएनएनहरू छवि पहिचान र भिडियो विश्लेषणमा उत्कृष्ट थिए तर भाषा-आधारित समस्याहरू समाधान गर्ने क्रममा समस्या भइरहेको थियो। प्राकृतिक भाषा प्रशोधनमा यो सीमा अवस्थित हुन सक्छ किनभने कसरी छविहरू र पाठहरू वास्तवमा मौलिक रूपमा फरक समस्याहरू हुन्।
उदाहरणका लागि, यदि तपाईंसँग छविमा ट्राफिक लाइट छ कि छैन भनेर वर्गीकरण गर्ने मोडेल छ भने, प्रश्नमा रहेको ट्राफिक लाइट छविमा जहाँसुकै देखिन सक्छ। यद्यपि, यस प्रकारको उदारता भाषामा राम्रोसँग काम गर्दैन। "बबले माछा खायो" र "माछा खायो बब" वाक्यको एउटै शब्दहरू प्रयोग गर्दा पनि फरक फरक अर्थहरू छन्।
यो स्पष्ट भएको थियो कि अनुसन्धानकर्ताहरूले मानव भाषा समावेश समस्याहरू समाधान गर्न नयाँ दृष्टिकोण खोज्न आवश्यक छ।
ट्रान्सफर्मरले सबै कुरा परिवर्तन गर्छ
2017, a अनुसन्धान कागज "ध्यान आवश्यक छ" शीर्षकले नयाँ प्रकारको नेटवर्क प्रस्ताव गरेको छ: ट्रान्सफर्मर।
CNN ले छविको सानो भागलाई बारम्बार फिल्टर गरेर काम गर्दा, ट्रान्सफर्मरहरूले डेटामा भएका प्रत्येक तत्वलाई प्रत्येक अन्य तत्वसँग जोड्छन्। अनुसन्धानकर्ताहरूले यो प्रक्रियालाई "आत्म-ध्यान" भनिन्छ।
वाक्यहरू पार्स गर्ने प्रयास गर्दा, CNN र ट्रान्सफर्मरहरू धेरै फरक तरिकाले काम गर्छन्। CNN ले एकअर्काको नजिक भएका शब्दहरूसँग जडानहरू बनाउनमा ध्यान केन्द्रित गर्नेछ भने, एक ट्रान्सफर्मरले वाक्यमा प्रत्येक शब्दहरू बीच जडानहरू सिर्जना गर्नेछ।
आत्म-ध्यान प्रक्रिया मानव भाषा बुझ्न एक अभिन्न अंग हो। जुम आउट गरेर र पूरै वाक्य कसरी मिल्छ भनेर हेरेर, मेसिनहरूले वाक्यको संरचनाको स्पष्ट बुझाउन सक्छ।
एक पटक पहिलो ट्रान्सफर्मर मोडेलहरू रिलीज भएपछि, शोधकर्ताहरूले चाँडै इन्टरनेटमा पाइने पाठ डेटाको अविश्वसनीय मात्राको फाइदा लिन नयाँ वास्तुकला प्रयोग गरे।
GPT-3 र इन्टरनेट
2020 मा, OpenAI को GPT-3 मोडेलले देखाएको छ कि ट्रान्सफर्मर कत्तिको प्रभावकारी हुन सक्छ। GPT-3 पाठ आउटपुट गर्न सक्षम थियो जुन मानिसबाट लगभग अविभाज्य देखिन्छ। GPT-3 लाई यति शक्तिशाली बनाउनुको एउटा अंश प्रयोग गरिएको प्रशिक्षण डेटाको मात्रा थियो। धेरै जसो मोडेलको पूर्व-प्रशिक्षण डेटासेट साझा क्रल भनेर चिनिने डेटासेटबाट आउँछ जुन 400 बिलियन भन्दा बढी टोकनहरूसँग आउँछ।
GPT-3 को यथार्थपरक मानव पाठ उत्पन्न गर्ने क्षमता आफ्नै आधारमा ग्राउन्डब्रेकिंग थियो, शोधकर्ताहरूले पत्ता लगाए कि एउटै मोडेलले अन्य कार्यहरू कसरी समाधान गर्न सक्छ।
उदाहरण को लागी, उही GPT-3 मोडेल जुन तपाईले ट्वीट उत्पन्न गर्न प्रयोग गर्न सक्नुहुन्छ तपाईलाई पाठ संक्षेप गर्न, अनुच्छेद पुन: लेख्न र कथा समाप्त गर्न मद्दत गर्न सक्छ। भाषा मोडेलहरू यति शक्तिशाली भएका छन् कि तिनीहरू अब अनिवार्य रूपमा सामान्य-उद्देश्य उपकरणहरू हुन् जसले कुनै पनि प्रकारको आदेश पालना गर्दछ।
GPT-3 को सामान्य-उद्देश्य प्रकृतिले यस्तो अनुप्रयोगहरूको लागि अनुमति दिएको छ GitHub Copilot, जसले प्रोग्रामरहरूलाई सादा अंग्रेजीबाट काम गर्ने कोड उत्पन्न गर्न अनुमति दिन्छ।
प्रसार मोडेलहरू: पाठ देखि छविहरू
ट्रान्सफर्मर र एनएलपीसँग भएको प्रगतिले अन्य क्षेत्रहरूमा पनि जेनेरेटिभ एआईको लागि मार्ग प्रशस्त गरेको छ।
कम्प्यूटर दर्शनको दायरामा, हामीले पहिले नै कभर गरिसकेका छौं कि कसरी गहिरो शिक्षाले मेसिनहरूलाई छविहरू बुझ्न अनुमति दिन्छ। जे होस्, हामीले अझै पनि एआईलाई छविहरू वर्गीकरण गर्नुको सट्टा आफैं उत्पन्न गर्नको लागि मार्ग खोज्नु आवश्यक छ।
DALL-E 2, Stable Diffusion, र Midjourney जस्ता जेनेरेटिभ छवि मोडेलहरू लोकप्रिय भएका छन् किनभने तिनीहरू कसरी पाठ इनपुटलाई छविहरूमा रूपान्तरण गर्न सक्षम छन्।
यी छवि मोडेलहरू दुई मुख्य पक्षहरूमा निर्भर हुन्छन्: एउटा मोडेल जसले छविहरू र पाठ बीचको सम्बन्ध बुझ्दछ र एउटा मोडेल जसले वास्तवमा इनपुटसँग मिल्ने उच्च-परिभाषा छवि सिर्जना गर्न सक्छ।
ओपनएआईको क्लिप (Contrastive Language–Image Pre-training) एउटा खुला स्रोत मोडेल हो जसले पहिलो पक्षलाई समाधान गर्ने लक्ष्य राख्छ। एउटा छवि दिएर, CLIP मोडेलले त्यो विशेष छविको लागि सबैभन्दा सान्दर्भिक पाठ विवरण भविष्यवाणी गर्न सक्छ।
CLIP मोडेलले महत्त्वपूर्ण छवि सुविधाहरू कसरी निकाल्ने र छविको सरल प्रतिनिधित्व सिर्जना गर्ने भनेर सिकेर काम गर्छ।
जब प्रयोगकर्ताहरूले DALL-E 2 मा नमूना पाठ इनपुट प्रदान गर्छन्, इनपुटलाई CLIP मोडेल प्रयोग गरेर "छवि इम्बेडिङ" मा रूपान्तरण गरिन्छ। अब लक्ष्य भनेको छवि उत्पन्न गर्ने तरिका खोज्नु हो जुन उत्पन्न छवि इम्बेडिङसँग मेल खान्छ।
नवीनतम उत्पादन छवि AIs प्रयोग गर्दछ a प्रसार मोडेल वास्तवमा छवि सिर्जना गर्ने कार्यलाई सम्हाल्न। डिफ्यूजन मोडेलहरू तस्बिरहरूबाट थपिएको आवाज कसरी हटाउने भनेर जान्न पूर्व-प्रशिक्षित गरिएका न्यूरल नेटवर्कहरूमा निर्भर हुन्छन्।
तालिमको यस प्रक्रियाको क्रममा, तंत्रिका नेटवर्कले अन्ततः कसरी अनियमित आवाज छविबाट उच्च-रिजोल्युसन छवि सिर्जना गर्ने भनेर सिक्न सक्छ। हामीसँग पहिले नै CLIP द्वारा प्रदान गरिएको पाठ र छविहरूको म्यापिङ छ, हामी सक्छौं एक प्रसार मोडेल तालिम CLIP छवि इम्बेडिङहरूमा कुनै पनि छवि उत्पन्न गर्न प्रक्रिया सिर्जना गर्न।
जेनेरेटिभ एआई क्रान्ति: अब के हुन्छ?
हामी अब एक बिन्दुमा छौं जहाँ जेनेरेटिभ AI मा सफलताहरू प्रत्येक दुई दिनमा भइरहेका छन्। AI प्रयोग गरेर विभिन्न प्रकारका मिडियाहरू उत्पन्न गर्न सजिलो र सजिलो हुँदै गएको छ, यसले हाम्रो समाजलाई कसरी असर गर्न सक्छ भनेर हामी चिन्तित हुनुपर्छ?
वाष्प इन्जिनको आविष्कार भएदेखि नै कामदारहरू प्रतिस्थापन गर्ने मेसिनहरूको चिन्ता सधैं कुराकानीमा रहेको छ, यो यस पटक अलि फरक छ जस्तो देखिन्छ।
जेनेरेटिभ एआई एक बहुउद्देश्यीय उपकरण बनिरहेको छ जसले एआई टेकओभरबाट सुरक्षित मानिने उद्योगहरूलाई बाधा पुर्याउन सक्छ।
यदि एआईले केही आधारभूत निर्देशनहरूबाट निर्दोष कोड लेख्न सुरु गर्न सक्छ भने के हामीलाई प्रोग्रामरहरू चाहिन्छ? के मानिसहरूले क्रिएटिभहरू भाडामा लिनेछन् यदि उनीहरूले सस्तोमा चाहेको आउटपुट उत्पादन गर्न जेनेरेटिभ मोडेल प्रयोग गर्न सक्छन्?
जेनेरेटिभ एआई क्रान्तिको भविष्य भविष्यवाणी गर्न गाह्रो छ। तर अब जब अलंकारिक Pandora's बक्स खोलिएको छ, मलाई आशा छ कि प्रविधिले संसारमा सकारात्मक प्रभाव छोड्न सक्ने थप रोमाञ्चक आविष्कारहरूको लागि अनुमति दिनेछ।
जवाफ छाड्नुस्