हम एक नई जनरेटिव AI क्रांति की शुरुआत करने की संभावना रखते हैं।
जनरेटिव आर्टिफिशियल इंटेलिजेंस एल्गोरिदम और मॉडल को संदर्भित करता है जो सामग्री बनाने में सक्षम हैं। ऐसे मॉडलों के आउटपुट में टेक्स्ट, ऑडियो और छवियां शामिल होती हैं जिन्हें अक्सर वास्तविक मानव आउटपुट के रूप में गलत माना जा सकता है।
जैसे आवेदन ChatGPT दिखाया है कि जनरेटिव एआई कोई नवीनता नहीं है। एआई अब विस्तृत निर्देशों का पालन करने में सक्षम है और लगता है कि दुनिया कैसे काम करती है, इसकी गहरी समझ है।
लेकिन हम इस बिंदु पर कैसे पहुंचे? इस गाइड में, हम AI अनुसंधान में कुछ प्रमुख सफलताओं के बारे में जानेंगे जिन्होंने इस नई और रोमांचक जनरेटिव AI क्रांति का मार्ग प्रशस्त किया है।
तंत्रिका नेटवर्क का उदय
आप आधुनिक एआई की उत्पत्ति पर शोध के लिए पता लगा सकते हैं गहरी शिक्षा और तंत्रिका नेटवर्क 2012 में।
उस वर्ष, टोरंटो विश्वविद्यालय से एलेक्स क्रिज़ेव्स्की और उनकी टीम एक अत्यधिक सटीक एल्गोरिदम प्राप्त करने में सक्षम थी जो वस्तुओं को वर्गीकृत कर सकती है।
RSI अत्याधुनिक तंत्रिका नेटवर्क, जिसे अब एलेक्सनेट के रूप में जाना जाता है, रनर-अप की तुलना में बहुत कम त्रुटि दर के साथ इमेजनेट विज़ुअल डेटाबेस में वस्तुओं को वर्गीकृत करने में सक्षम था।
तंत्रिका जाल एल्गोरिदम हैं जो कुछ प्रशिक्षण डेटा के आधार पर किसी विशेष व्यवहार को सीखने के लिए गणितीय कार्यों के नेटवर्क का उपयोग करते हैं। उदाहरण के लिए, आप कैंसर जैसी बीमारी के निदान के लिए मॉडल को प्रशिक्षित करने के लिए न्यूरल नेटवर्क मेडिकल डेटा फीड कर सकते हैं।
आशा यह है कि तंत्रिका नेटवर्क धीरे-धीरे डेटा में पैटर्न ढूंढता है और उपन्यास डेटा दिए जाने पर अधिक सटीक हो जाता है।
एलेक्सनेट एक सफल अनुप्रयोग था दृढ़ तंत्रिका नेटवर्क या सीएनएन। "कन्वेन्शनल" कीवर्ड का तात्पर्य कन्वेन्शनल लेयर्स को जोड़ने से है जो डेटा पर अधिक जोर देता है जो एक साथ करीब है।
जबकि सीएनएन 1980 के दशक में पहले से ही एक विचार थे, उन्होंने केवल 2010 की शुरुआत में लोकप्रियता हासिल करना शुरू किया जब नवीनतम जीपीयू तकनीक ने प्रौद्योगिकी को नई ऊंचाइयों पर धकेल दिया।
के क्षेत्र में सीएनएन की सफलता कंप्यूटर दृष्टि तंत्रिका नेटवर्क के अनुसंधान में अधिक रुचि पैदा की।
Google और Facebook जैसे टेक दिग्गजों ने अपने स्वयं के AI फ्रेमवर्क को जनता के लिए जारी करने का निर्णय लिया। उच्च स्तरीय एपीआई जैसे Keras उपयोगकर्ताओं को गहरे तंत्रिका नेटवर्क के साथ प्रयोग करने के लिए उपयोगकर्ता के अनुकूल इंटरफेस दिया।
छवि पहचान और वीडियो विश्लेषण में सीएनएन बहुत अच्छे थे लेकिन जब भाषा-आधारित समस्याओं को हल करने की बात आती है तो उन्हें परेशानी होती है। प्राकृतिक भाषा प्रसंस्करण में यह सीमा मौजूद हो सकती है क्योंकि चित्र और पाठ वास्तव में मौलिक रूप से भिन्न समस्याएं हैं।
उदाहरण के लिए, यदि आपके पास एक मॉडल है जो वर्गीकृत करता है कि छवि में ट्रैफिक लाइट है या नहीं, तो प्रश्न में ट्रैफिक लाइट छवि में कहीं भी दिखाई दे सकती है। हालाँकि, इस प्रकार की उदारता भाषा में अच्छी तरह से काम नहीं करती है। वाक्य "बॉब एट फिश" और "फिश एट बॉब" एक ही शब्द का उपयोग करने के बावजूद बहुत अलग अर्थ रखते हैं।
यह स्पष्ट हो गया था कि शोधकर्ताओं को मानव भाषा से जुड़ी समस्याओं को हल करने के लिए एक नया दृष्टिकोण खोजने की आवश्यकता थी।
ट्रांसफॉर्मर सब कुछ बदल देते हैं
2017 में, एक शोध पत्र "अटेंशन इज़ ऑल यू नीड" शीर्षक से एक नए प्रकार के नेटवर्क का प्रस्ताव दिया गया: ट्रांसफार्मर।
जबकि सीएनएन एक छवि के छोटे हिस्से को बार-बार फ़िल्टर करके काम करते हैं, ट्रांसफॉर्मर डेटा में प्रत्येक तत्व को हर दूसरे तत्व से जोड़ते हैं। शोधकर्ता इस प्रक्रिया को "आत्म-ध्यान" कहते हैं।
वाक्यों को पार्स करने का प्रयास करते समय, सीएनएन और ट्रांसफॉर्मर बहुत अलग तरीके से काम करते हैं। जबकि एक CNN उन शब्दों के साथ संबंध बनाने पर ध्यान केंद्रित करेगा जो एक दूसरे के पास हैं, एक ट्रांसफॉर्मर एक वाक्य में प्रत्येक शब्द के बीच संबंध बनाएगा।
आत्म-ध्यान प्रक्रिया मानव भाषा को समझने का एक अभिन्न अंग है। ज़ूम आउट करके और यह देखते हुए कि पूरा वाक्य एक साथ कैसे फिट बैठता है, मशीनों को वाक्य की संरचना की स्पष्ट समझ हो सकती है।
एक बार पहले ट्रांसफॉर्मर मॉडल जारी किए जाने के बाद, शोधकर्ताओं ने इंटरनेट पर पाए जाने वाले टेक्स्ट डेटा की अविश्वसनीय मात्रा का लाभ उठाने के लिए जल्द ही नए आर्किटेक्चर का इस्तेमाल किया।
GPT-3 और इंटरनेट
2020 में, OpenAI's GPT-3 मॉडल ने दिखाया कि ट्रांसफार्मर कितने प्रभावी हो सकते हैं। GPT-3 ऐसे टेक्स्ट को आउटपुट करने में सक्षम था जो मानव से लगभग अप्रभेद्य लगता है। GPT-3 को इतना शक्तिशाली बनाने का एक हिस्सा इस्तेमाल किए गए प्रशिक्षण डेटा की मात्रा थी। अधिकांश मॉडल के प्री-ट्रेनिंग डेटासेट कॉमन क्रॉल नामक डेटासेट से आते हैं जो 400 बिलियन से अधिक टोकन के साथ आता है।
जबकि GPT-3 की यथार्थवादी मानव पाठ उत्पन्न करने की क्षमता अपने आप में अभूतपूर्व थी, शोधकर्ताओं ने पता लगाया कि कैसे एक ही मॉडल अन्य कार्यों को हल कर सकता है।
उदाहरण के लिए, वही GPT-3 मॉडल जिसका उपयोग आप एक ट्वीट उत्पन्न करने के लिए कर सकते हैं, पाठ को सारांशित करने, पैराग्राफ को फिर से लिखने और कहानी को समाप्त करने में भी आपकी मदद कर सकता है। भाषा मॉडल इतने शक्तिशाली हो गए हैं कि अब वे अनिवार्य रूप से सामान्य-उद्देश्य वाले उपकरण हैं जो किसी भी प्रकार के आदेश का पालन करते हैं।
GPT-3 के सामान्य प्रयोजन प्रकृति ने ऐसे अनुप्रयोगों के लिए अनुमति दी है गिटहब कोपिलॉट, जो प्रोग्रामर को सादे अंग्रेजी से कार्य कोड उत्पन्न करने की अनुमति देता है।
डिफ्यूजन मॉडल: टेक्स्ट से इमेज तक
ट्रांसफार्मर और एनएलपी के साथ हुई प्रगति ने अन्य क्षेत्रों में जनरेटिव एआई के लिए भी मार्ग प्रशस्त किया है।
कंप्यूटर दृष्टि के क्षेत्र में, हम पहले ही कवर कर चुके हैं कि कैसे गहन शिक्षण मशीनों को छवियों को समझने की अनुमति देता है। हालाँकि, हमें अभी भी एआई के लिए छवियों को वर्गीकृत करने के बजाय उन्हें स्वयं उत्पन्न करने का एक तरीका खोजने की आवश्यकता थी।
DALL-E 2, स्टेबल डिफ्यूजन और मिडजर्नी जैसे जनरेटिव इमेज मॉडल लोकप्रिय हो गए हैं क्योंकि वे टेक्स्ट इनपुट को छवियों में बदलने में सक्षम हैं।
ये छवि मॉडल दो प्रमुख पहलुओं पर निर्भर करते हैं: एक मॉडल जो छवियों और पाठ के बीच संबंध को समझता है और एक मॉडल जो वास्तव में इनपुट से मेल खाने वाली उच्च-परिभाषा छवि बना सकता है।
OpenAI के क्लिप (कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग) एक ओपन-सोर्स मॉडल है जिसका उद्देश्य पहले पहलू को हल करना है। एक छवि को देखते हुए, CLIP मॉडल उस विशेष छवि के लिए सबसे अधिक प्रासंगिक पाठ विवरण की भविष्यवाणी कर सकता है।
CLIP मॉडल यह सीखकर काम करता है कि महत्वपूर्ण छवि विशेषताओं को कैसे निकाला जाए और एक छवि का सरल प्रतिनिधित्व कैसे बनाया जाए।
जब उपयोगकर्ता DALL-E 2 को एक नमूना टेक्स्ट इनपुट प्रदान करते हैं, तो इनपुट को CLIP मॉडल का उपयोग करके "इमेज एम्बेडिंग" में बदल दिया जाता है। लक्ष्य अब एक छवि उत्पन्न करने का एक तरीका खोजना है जो उत्पन्न छवि एम्बेडिंग से मेल खाता हो।
नवीनतम जनरेटिव छवि एआई उपयोग करते हैं प्रसार मॉडल वास्तव में एक छवि बनाने के कार्य से निपटने के लिए। प्रसार मॉडल तंत्रिका नेटवर्क पर भरोसा करते हैं जो छवियों से अतिरिक्त शोर को दूर करने के बारे में जानने के लिए पूर्व-प्रशिक्षित थे।
प्रशिक्षण की इस प्रक्रिया के दौरान, तंत्रिका नेटवर्क अंततः सीख सकता है कि यादृच्छिक शोर छवि से उच्च-रिज़ॉल्यूशन छवि कैसे बनाई जाए। चूंकि हमारे पास पहले से ही CLIP द्वारा प्रदान किए गए पाठ और छवियों की मैपिंग है, हम कर सकते हैं एक प्रसार मॉडल को प्रशिक्षित करें किसी भी छवि को उत्पन्न करने के लिए एक प्रक्रिया बनाने के लिए CLIP छवि एम्बेडिंग पर।
जनरेटिव एआई क्रांति: आगे क्या आता है?
अब हम उस बिंदु पर हैं जहां हर दो दिनों में जनरेटिव एआई में सफलताएं हो रही हैं। एआई का उपयोग करके विभिन्न प्रकार के मीडिया को उत्पन्न करना आसान और आसान होने के साथ, क्या हमें इस बारे में चिंतित होना चाहिए कि यह हमारे समाज को कैसे प्रभावित कर सकता है?
जबकि भाप इंजन के आविष्कार के बाद से श्रमिकों की जगह मशीनों की चिंता हमेशा बातचीत में रही है, ऐसा लगता है कि यह इस बार थोड़ा अलग है।
जनरेटिव एआई एक बहुउद्देशीय उपकरण बनता जा रहा है जो उन उद्योगों को बाधित कर सकता है जिन्हें एआई अधिग्रहण से सुरक्षित माना जाता था।
क्या हमें प्रोग्रामर की आवश्यकता होगी यदि एआई कुछ बुनियादी निर्देशों से दोषरहित कोड लिखना शुरू कर सकता है? क्या लोग क्रिएटिव को किराए पर लेंगे यदि वे सस्ता उत्पादन करने के लिए केवल एक जनरेटिव मॉडल का उपयोग कर सकते हैं?
जनरेटिव एआई क्रांति के भविष्य की भविष्यवाणी करना मुश्किल है। लेकिन अब जबकि आलंकारिक भानुमती का पिटारा खुल गया है, मुझे उम्मीद है कि प्रौद्योगिकी अधिक रोमांचक नवाचारों की अनुमति देगी जो दुनिया पर सकारात्मक प्रभाव छोड़ सकते हैं।
एक जवाब लिखें