जेनेरेटिभ एआई क्रान्तिको कारण के भयो?

विषयसूची[लुकाउनुहोस्][देखाउनु]

न्यूरल नेटवर्कको उदय
ट्रान्सफर्मरले सबै कुरा परिवर्तन गर्छ
GPT-3 र इन्टरनेट
प्रसार मोडेलहरू: पाठ देखि छविहरू
जेनेरेटिभ एआई क्रान्ति: अब के हुन्छ?

हामी सम्भवतः नयाँ जेनेरेटिभ एआई क्रान्तिको सुरुवातमा छौं।

जेनेरेटिभ आर्टिफिसियल इन्टेलिजेन्सले सामग्री सिर्जना गर्न सक्षम हुने एल्गोरिदम र मोडेलहरूलाई जनाउँछ। त्यस्ता मोडेलहरूको आउटपुटमा पाठ, अडियो र छविहरू समावेश हुन्छन् जुन प्रायः वास्तविक मानव आउटपुटको रूपमा गलत हुन सक्छ।

अनुप्रयोगहरू जस्तै GPT च्याट गर्नुहोस् जेनेरेटिभ एआई केवल नवीनता होइन भनेर देखाएको छ। एआई अब विस्तृत निर्देशनहरू पालना गर्न सक्षम छ र संसारले कसरी काम गर्छ भन्ने बारे गहिरो बुझेको देखिन्छ।

तर हामी यो बिन्दुमा कसरी पुग्यौं? यस गाइडमा, हामी AI अनुसन्धानमा भएका केही प्रमुख सफलताहरू पार गर्नेछौं जसले यस नयाँ र रोमाञ्चक जनरेटिभ एआई क्रान्तिको लागि मार्ग प्रशस्त गरेको छ।

न्यूरल नेटवर्कको उदय

तपाईं अनुसन्धानमा आधुनिक एआईको उत्पत्ति पत्ता लगाउन सक्नुहुन्छ गहिरो शिक्षा र तंत्रिका नेटवर्कहरू 2012 मा।

त्यस वर्षमा, टोरन्टो विश्वविद्यालयका एलेक्स क्रिजेभस्की र उनको टोलीले वस्तुहरू वर्गीकरण गर्न सक्ने उच्च-सही एल्गोरिदम प्राप्त गर्न सक्षम भए।

यो अत्याधुनिक तंत्रिका नेटवर्क, अहिले AlexNet को रूपमा चिनिन्छ, रनर-अप भन्दा धेरै कम त्रुटि दर संग ImageNet भिजुअल डाटाबेसमा वस्तुहरू वर्गीकृत गर्न सक्षम थियो।

alexnet रेखाचित्र

तंत्रिका सञ्जालहरू एल्गोरिदमहरू हुन् जसले केही प्रशिक्षण डेटामा आधारित विशेष व्यवहार सिक्न गणितीय कार्यहरूको नेटवर्क प्रयोग गर्दछ। उदाहरणका लागि, तपाईंले क्यान्सर जस्ता रोगको निदान गर्न मोडेललाई तालिम दिनको लागि न्यूरल नेटवर्क मेडिकल डाटा फिड गर्न सक्नुहुन्छ।

आशा छ कि न्यूरल नेटवर्कले बिस्तारै डाटामा ढाँचाहरू फेला पार्छ र उपन्यास डाटा दिएपछि थप सटीक हुन्छ।

AlexNet को एक सफलता आवेदन थियो कन्फ्युशनल न्यूरल नेटवर्क वा CNNs। "कन्भोलुसनल" कुञ्जी शब्दले कन्भोलुसनल तहहरूको थपलाई जनाउँछ जसले डेटामा बढी जोड दिन्छ जुन एकसाथ नजिक छ।

जबकि CNNs पहिले नै 1980s मा एक विचार थियो, तिनीहरूले मात्र 2010 को शुरुवातमा लोकप्रियता प्राप्त गर्न थाले जब नवीनतम GPU प्रविधिले नयाँ उचाइहरूमा टेक्नोलोजीलाई धकेल्यो।

CNNs को क्षेत्रमा सफलता कम्प्युटर दृष्टि तंत्रिका नेटवर्क को अनुसन्धान मा अधिक चासो को नेतृत्व।

गुगल र फेसबुक जस्ता टेक दिग्गजहरूले जनताका लागि आफ्नै एआई फ्रेमवर्क जारी गर्ने निर्णय गरे। उच्च-स्तर APIs जस्तै केरास प्रयोगकर्ताहरूलाई गहिरो न्यूरल नेटवर्कहरू प्रयोग गर्न प्रयोगकर्ता-अनुकूल इन्टरफेस दियो।

keras ले गहिरो सिकाइ मोडेलहरू प्रयोग गर्न प्रयोगकर्ता-अनुकूल तरिका प्रदान गर्‍यो

सीएनएनहरू छवि पहिचान र भिडियो विश्लेषणमा उत्कृष्ट थिए तर भाषा-आधारित समस्याहरू समाधान गर्ने क्रममा समस्या भइरहेको थियो। प्राकृतिक भाषा प्रशोधनमा यो सीमा अवस्थित हुन सक्छ किनभने कसरी छविहरू र पाठहरू वास्तवमा मौलिक रूपमा फरक समस्याहरू हुन्।

उदाहरणका लागि, यदि तपाईंसँग छविमा ट्राफिक लाइट छ कि छैन भनेर वर्गीकरण गर्ने मोडेल छ भने, प्रश्नमा रहेको ट्राफिक लाइट छविमा जहाँसुकै देखिन सक्छ। यद्यपि, यस प्रकारको उदारता भाषामा राम्रोसँग काम गर्दैन। "बबले माछा खायो" र "माछा खायो बब" वाक्यको एउटै शब्दहरू प्रयोग गर्दा पनि फरक फरक अर्थहरू छन्।

यो स्पष्ट भएको थियो कि अनुसन्धानकर्ताहरूले मानव भाषा समावेश समस्याहरू समाधान गर्न नयाँ दृष्टिकोण खोज्न आवश्यक छ।

ट्रान्सफर्मरले सबै कुरा परिवर्तन गर्छ

2017, a अनुसन्धान कागज "ध्यान आवश्यक छ" शीर्षकले नयाँ प्रकारको नेटवर्क प्रस्ताव गरेको छ: ट्रान्सफर्मर।

CNN ले छविको सानो भागलाई बारम्बार फिल्टर गरेर काम गर्दा, ट्रान्सफर्मरहरूले डेटामा भएका प्रत्येक तत्वलाई प्रत्येक अन्य तत्वसँग जोड्छन्। अनुसन्धानकर्ताहरूले यो प्रक्रियालाई "आत्म-ध्यान" भनिन्छ।

CNN वास्तुकला को स्केच रेखाचित्र

वाक्यहरू पार्स गर्ने प्रयास गर्दा, CNN र ट्रान्सफर्मरहरू धेरै फरक तरिकाले काम गर्छन्। CNN ले एकअर्काको नजिक भएका शब्दहरूसँग जडानहरू बनाउनमा ध्यान केन्द्रित गर्नेछ भने, एक ट्रान्सफर्मरले वाक्यमा प्रत्येक शब्दहरू बीच जडानहरू सिर्जना गर्नेछ।

ट्रान्सफर्मर वास्तुकला को स्केच रेखाचित्र

आत्म-ध्यान प्रक्रिया मानव भाषा बुझ्न एक अभिन्न अंग हो। जुम आउट गरेर र पूरै वाक्य कसरी मिल्छ भनेर हेरेर, मेसिनहरूले वाक्यको संरचनाको स्पष्ट बुझाउन सक्छ।

एक पटक पहिलो ट्रान्सफर्मर मोडेलहरू रिलीज भएपछि, शोधकर्ताहरूले चाँडै इन्टरनेटमा पाइने पाठ डेटाको अविश्वसनीय मात्राको फाइदा लिन नयाँ वास्तुकला प्रयोग गरे।

GPT-3 र इन्टरनेट

2020 मा, OpenAI को GPT-3 मोडेलले देखाएको छ कि ट्रान्सफर्मर कत्तिको प्रभावकारी हुन सक्छ। GPT-3 पाठ आउटपुट गर्न सक्षम थियो जुन मानिसबाट लगभग अविभाज्य देखिन्छ। GPT-3 लाई यति शक्तिशाली बनाउनुको एउटा अंश प्रयोग गरिएको प्रशिक्षण डेटाको मात्रा थियो। धेरै जसो मोडेलको पूर्व-प्रशिक्षण डेटासेट साझा क्रल भनेर चिनिने डेटासेटबाट आउँछ जुन 400 बिलियन भन्दा बढी टोकनहरूसँग आउँछ।

GPT-3 को यथार्थपरक मानव पाठ उत्पन्न गर्ने क्षमता आफ्नै आधारमा ग्राउन्डब्रेकिंग थियो, शोधकर्ताहरूले पत्ता लगाए कि एउटै मोडेलले अन्य कार्यहरू कसरी समाधान गर्न सक्छ।

उदाहरण को लागी, उही GPT-3 मोडेल जुन तपाईले ट्वीट उत्पन्न गर्न प्रयोग गर्न सक्नुहुन्छ तपाईलाई पाठ संक्षेप गर्न, अनुच्छेद पुन: लेख्न र कथा समाप्त गर्न मद्दत गर्न सक्छ। भाषा मोडेलहरू यति शक्तिशाली भएका छन् कि तिनीहरू अब अनिवार्य रूपमा सामान्य-उद्देश्य उपकरणहरू हुन् जसले कुनै पनि प्रकारको आदेश पालना गर्दछ।

जेनेरेटिभ एआई क्रान्तिलाई gpt-3 जस्ता ठूला भाषा मोडेलहरूले गति दिएको थियो

GPT-3 को सामान्य-उद्देश्य प्रकृतिले यस्तो अनुप्रयोगहरूको लागि अनुमति दिएको छ GitHub Copilot, जसले प्रोग्रामरहरूलाई सादा अंग्रेजीबाट काम गर्ने कोड उत्पन्न गर्न अनुमति दिन्छ।

गुगल copilot को डेमो। जेनेरेटिभ एआई क्रान्तिले एआई बनाउने प्रोग्रामरहरूलाई पनि असर गर्न सक्छ

प्रसार मोडेलहरू: पाठ देखि छविहरू

ट्रान्सफर्मर र एनएलपीसँग भएको प्रगतिले अन्य क्षेत्रहरूमा पनि जेनेरेटिभ एआईको लागि मार्ग प्रशस्त गरेको छ।

कम्प्यूटर दर्शनको दायरामा, हामीले पहिले नै कभर गरिसकेका छौं कि कसरी गहिरो शिक्षाले मेसिनहरूलाई छविहरू बुझ्न अनुमति दिन्छ। जे होस्, हामीले अझै पनि एआईलाई छविहरू वर्गीकरण गर्नुको सट्टा आफैं उत्पन्न गर्नको लागि मार्ग खोज्नु आवश्यक छ।

DALL-E 2, Stable Diffusion, र Midjourney जस्ता जेनेरेटिभ छवि मोडेलहरू लोकप्रिय भएका छन् किनभने तिनीहरू कसरी पाठ इनपुटलाई छविहरूमा रूपान्तरण गर्न सक्षम छन्।

dall-e 2 को नमूना आउटपुट

यी छवि मोडेलहरू दुई मुख्य पक्षहरूमा निर्भर हुन्छन्: एउटा मोडेल जसले छविहरू र पाठ बीचको सम्बन्ध बुझ्दछ र एउटा मोडेल जसले वास्तवमा इनपुटसँग मिल्ने उच्च-परिभाषा छवि सिर्जना गर्न सक्छ।

ओपनएआईको क्लिप (Contrastive Language–Image Pre-training) एउटा खुला स्रोत मोडेल हो जसले पहिलो पक्षलाई समाधान गर्ने लक्ष्य राख्छ। एउटा छवि दिएर, CLIP मोडेलले त्यो विशेष छविको लागि सबैभन्दा सान्दर्भिक पाठ विवरण भविष्यवाणी गर्न सक्छ।

CLIP मोडेलले महत्त्वपूर्ण छवि सुविधाहरू कसरी निकाल्ने र छविको सरल प्रतिनिधित्व सिर्जना गर्ने भनेर सिकेर काम गर्छ।

CLIP ले छवि र पाठ बीचको पुलको रूपमा काम गर्दछ र जेनेरेटिभ एआई क्रान्तिलाई दृश्य क्षेत्रमा सार्न मद्दत गर्दछ।

जब प्रयोगकर्ताहरूले DALL-E 2 मा नमूना पाठ इनपुट प्रदान गर्छन्, इनपुटलाई CLIP मोडेल प्रयोग गरेर "छवि इम्बेडिङ" मा रूपान्तरण गरिन्छ। अब लक्ष्य भनेको छवि उत्पन्न गर्ने तरिका खोज्नु हो जुन उत्पन्न छवि इम्बेडिङसँग मेल खान्छ।

नवीनतम उत्पादन छवि AIs प्रयोग गर्दछ a प्रसार मोडेल वास्तवमा छवि सिर्जना गर्ने कार्यलाई सम्हाल्न। डिफ्यूजन मोडेलहरू तस्बिरहरूबाट थपिएको आवाज कसरी हटाउने भनेर जान्न पूर्व-प्रशिक्षित गरिएका न्यूरल नेटवर्कहरूमा निर्भर हुन्छन्।

तालिमको यस प्रक्रियाको क्रममा, तंत्रिका नेटवर्कले अन्ततः कसरी अनियमित आवाज छविबाट उच्च-रिजोल्युसन छवि सिर्जना गर्ने भनेर सिक्न सक्छ। हामीसँग पहिले नै CLIP द्वारा प्रदान गरिएको पाठ र छविहरूको म्यापिङ छ, हामी सक्छौं एक प्रसार मोडेल तालिम CLIP छवि इम्बेडिङहरूमा कुनै पनि छवि उत्पन्न गर्न प्रक्रिया सिर्जना गर्न।

जेनेरेटिभ एआई क्रान्ति: अब के हुन्छ?

हामी अब एक बिन्दुमा छौं जहाँ जेनेरेटिभ AI मा सफलताहरू प्रत्येक दुई दिनमा भइरहेका छन्। AI प्रयोग गरेर विभिन्न प्रकारका मिडियाहरू उत्पन्न गर्न सजिलो र सजिलो हुँदै गएको छ, यसले हाम्रो समाजलाई कसरी असर गर्न सक्छ भनेर हामी चिन्तित हुनुपर्छ?

वाष्प इन्जिनको आविष्कार भएदेखि नै कामदारहरू प्रतिस्थापन गर्ने मेसिनहरूको चिन्ता सधैं कुराकानीमा रहेको छ, यो यस पटक अलि फरक छ जस्तो देखिन्छ।

जेनेरेटिभ एआई एक बहुउद्देश्यीय उपकरण बनिरहेको छ जसले एआई टेकओभरबाट सुरक्षित मानिने उद्योगहरूलाई बाधा पुर्‍याउन सक्छ।

यदि एआईले केही आधारभूत निर्देशनहरूबाट निर्दोष कोड लेख्न सुरु गर्न सक्छ भने के हामीलाई प्रोग्रामरहरू चाहिन्छ? के मानिसहरूले क्रिएटिभहरू भाडामा लिनेछन् यदि उनीहरूले सस्तोमा चाहेको आउटपुट उत्पादन गर्न जेनेरेटिभ मोडेल प्रयोग गर्न सक्छन्?

जेनेरेटिभ एआई क्रान्तिको भविष्य भविष्यवाणी गर्न गाह्रो छ। तर अब जब अलंकारिक Pandora's बक्स खोलिएको छ, मलाई आशा छ कि प्रविधिले संसारमा सकारात्मक प्रभाव छोड्न सक्ने थप रोमाञ्चक आविष्कारहरूको लागि अनुमति दिनेछ।

जेनेरेटिभ एआई क्रान्तिको कारण के भयो?

न्यूरल नेटवर्कको उदय

ट्रान्सफर्मरले सबै कुरा परिवर्तन गर्छ

GPT-3 र इन्टरनेट

प्रसार मोडेलहरू: पाठ देखि छविहरू

जेनेरेटिभ एआई क्रान्ति: अब के हुन्छ?

हाम्रो बारेमा डियोन मेनोर

HashDork मा थप लेखहरू:

तपाईको AI मा भ्रम कसरी कम गर्ने

Colossyan बनाम Heygen

यो भविष्य टेक न्यूजलेटर बेकार छैन

जेनेरेटिभ एआई क्रान्तिको कारण के भयो?

न्यूरल नेटवर्कको उदय

ट्रान्सफर्मरले सबै कुरा परिवर्तन गर्छ

GPT-3 र इन्टरनेट

प्रसार मोडेलहरू: पाठ देखि छविहरू

जेनेरेटिभ एआई क्रान्ति: अब के हुन्छ?

हाम्रो बारेमा डियोन मेनोर

HashDork मा थप लेखहरू:

तपाईको AI मा भ्रम कसरी कम गर्ने

सामाजिक सञ्जालका लागि १० उत्कृष्ट एआई उपकरणहरू

Colossyan बनाम Heygen

१० सर्वश्रेष्ठ एआई एनिमेटेड भिडियो निर्माता उपकरणहरू

पाठक अन्तरक्रिया

जवाफ छाड्नुस् जवाफ रद्द

यो भविष्य टेक न्यूजलेटर बेकार छैन