आम्ही कदाचित नवीन जनरेटिव्ह एआय क्रांतीच्या सुरूवातीस आहोत.
जनरेटिव्ह आर्टिफिशियल इंटेलिजन्स अल्गोरिदम आणि मॉडेल्सचा संदर्भ देते जे सामग्री तयार करण्यास सक्षम आहेत. अशा मॉडेल्सच्या आउटपुटमध्ये मजकूर, ऑडिओ आणि प्रतिमा समाविष्ट असतात ज्यांना वास्तविक मानवी आउटपुट म्हणून चुकीचे मानले जाऊ शकते.
अनुप्रयोग जसे चॅटजीपीटी जनरेटिव्ह एआय ही केवळ नवीनता नाही हे दाखवून दिले आहे. एआय आता तपशीलवार सूचनांचे पालन करण्यास सक्षम आहे आणि जग कसे कार्य करते याची सखोल माहिती आहे असे दिसते.
पण आपण या टप्प्यावर कसे पोहोचलो? या मार्गदर्शिकेत, आम्ही AI संशोधनातील काही महत्त्वाच्या प्रगतींमधून जाणार आहोत ज्यांनी या नवीन आणि रोमांचक जनरेटिव्ह AI क्रांतीचा मार्ग मोकळा केला आहे.
न्यूरल नेटवर्क्सचा उदय
तुम्ही आधुनिक AI ची उत्पत्ती शोधून काढू शकता खोल शिक्षण आणि मज्जासंस्था नेटवर्क 2012 आहे.
त्या वर्षी, अॅलेक्स क्रिझेव्स्की आणि टोरंटो विद्यापीठातील त्यांची टीम एक अत्यंत अचूक अल्गोरिदम प्राप्त करण्यात सक्षम होते जे वस्तूंचे वर्गीकरण करू शकते.
अगोदर निर्देश केलेल्या बाबीसंबंधी बोलताना अत्याधुनिक न्यूरल नेटवर्क, आता अॅलेक्सनेट म्हणून ओळखले जाते, इमेजनेट व्हिज्युअल डेटाबेसमध्ये रनर-अपपेक्षा खूपच कमी त्रुटी दरासह ऑब्जेक्ट्सचे वर्गीकरण करण्यास सक्षम होते.
न्युरल नेटवर्क हे अल्गोरिदम आहेत जे काही प्रशिक्षण डेटावर आधारित विशिष्ट वर्तन शिकण्यासाठी गणितीय कार्यांचे नेटवर्क वापरतात. उदाहरणार्थ, कर्करोगासारख्या आजाराचे निदान करण्यासाठी मॉडेलला प्रशिक्षण देण्यासाठी तुम्ही न्यूरल नेटवर्क वैद्यकीय डेटा फीड करू शकता.
आशा आहे की न्यूरल नेटवर्क हळूहळू डेटामध्ये नमुने शोधते आणि जेव्हा नवीन डेटा दिला जातो तेव्हा ते अधिक अचूक होते.
अॅलेक्सनेट हा एक यशस्वी अॅप्लिकेशन होता कन्व्होल्यूशनल न्यूरल नेटवर्क किंवा CNNs. "कन्व्होल्युशनल" कीवर्डचा संदर्भ कंव्होल्युशनल लेयर्सच्या जोडणीचा आहे जो एकमेकांच्या जवळ असलेल्या डेटावर अधिक जोर देतो.
1980 च्या दशकात CNN ही कल्पना आधीपासूनच होती, परंतु 2010 च्या दशकाच्या सुरुवातीस जेव्हा नवीनतम GPU तंत्रज्ञानाने तंत्रज्ञानाला नवीन उंचीवर नेले तेव्हाच त्यांना लोकप्रियता मिळू लागली.
च्या क्षेत्रात CNN चे यश संगणक दृष्टी न्यूरल नेटवर्कच्या संशोधनात अधिक रस निर्माण झाला.
Google आणि Facebook सारख्या टेक दिग्गजांनी त्यांचे स्वतःचे AI फ्रेमवर्क लोकांसाठी रिलीझ करण्याचा निर्णय घेतला. उच्च-स्तरीय API जसे की केरास डीप न्यूरल नेटवर्कसह प्रयोग करण्यासाठी वापरकर्त्यांना एक वापरकर्ता अनुकूल इंटरफेस दिला.
CNN प्रतिमा ओळख आणि व्हिडिओ विश्लेषणामध्ये उत्कृष्ट होते परंतु भाषा-आधारित समस्या सोडवताना त्यांना समस्या येत होत्या. नैसर्गिक भाषा प्रक्रियेतील ही मर्यादा अस्तित्वात असू शकते कारण प्रतिमा आणि मजकूर या मूलभूतपणे वेगळ्या समस्या कशा आहेत.
उदाहरणार्थ, इमेजमध्ये ट्रॅफिक लाइट आहे की नाही हे वर्गीकरण करणारे मॉडेल तुमच्याकडे असल्यास, प्रश्नातील ट्रॅफिक लाइट इमेजमध्ये कुठेही दिसू शकतो. तथापि, या प्रकारची उदारता भाषेत चांगली चालत नाही. "बॉब एट फिश" आणि "फिश एट बॉब" या वाक्यांचे समान शब्द वापरूनही बरेच वेगळे अर्थ आहेत.
हे स्पष्ट झाले आहे की संशोधकांना मानवी भाषेतील समस्या सोडवण्यासाठी नवीन दृष्टीकोन शोधण्याची आवश्यकता आहे.
ट्रान्सफॉर्मर सर्वकाही बदलतात
2017 मध्ये, ए शोध निबंध "लक्ष इज ऑल यू नीड" शीर्षकाने नवीन प्रकारचे नेटवर्क प्रस्तावित केले: ट्रान्सफॉर्मर.
CNNs प्रतिमेचे लहान भाग वारंवार फिल्टर करून कार्य करत असताना, ट्रान्सफॉर्मर डेटामधील प्रत्येक घटक इतर घटकांशी जोडतात. संशोधक या प्रक्रियेला "स्व-लक्ष" म्हणतात.
वाक्यांचे विश्लेषण करण्याचा प्रयत्न करताना, CNN आणि ट्रान्सफॉर्मर खूप वेगळ्या पद्धतीने कार्य करतात. CNN एकमेकांच्या जवळ असलेल्या शब्दांसह कनेक्शन तयार करण्यावर लक्ष केंद्रित करेल, तर ट्रान्सफॉर्मर वाक्यातील प्रत्येक शब्दामध्ये कनेक्शन तयार करेल.
स्वत: ची लक्ष देण्याची प्रक्रिया मानवी भाषा समजून घेण्याचा अविभाज्य भाग आहे. झूम आउट करून आणि संपूर्ण वाक्य एकत्र कसे बसते ते पाहून, मशीन्सना वाक्याची रचना स्पष्टपणे समजू शकते.
एकदा पहिले ट्रान्सफॉर्मर मॉडेल रिलीझ झाल्यानंतर, संशोधकांनी लवकरच नवीन आर्किटेक्चरचा वापर करून इंटरनेटवर सापडलेल्या अविश्वसनीय मजकूर डेटाचा फायदा घेतला.
GPT-3 आणि इंटरनेट
2020 मध्ये, OpenAI चे जीपीटी-3 मॉडेलने दाखवले की ट्रान्सफॉर्मर किती प्रभावी असू शकतात. GPT-3 हा मजकूर आउटपुट करण्यात सक्षम होता जो मनुष्यापासून जवळजवळ अभेद्य वाटतो. ज्याने GPT-3 इतके शक्तिशाली बनवले त्याचा एक भाग म्हणजे वापरलेले प्रशिक्षण डेटा. मॉडेलचा बहुतेक प्री-ट्रेनिंग डेटासेट कॉमन क्रॉल म्हणून ओळखल्या जाणार्या डेटासेटमधून येतो जो 400 अब्ज टोकन्ससह येतो.
वास्तविक मानवी मजकूर तयार करण्याची GPT-3 ची क्षमता स्वतःच ग्राउंडब्रेकिंग होती, तेव्हा संशोधकांनी शोधून काढले की समान मॉडेल इतर कार्ये कशी सोडवू शकते.
उदाहरणार्थ, तेच GPT-3 मॉडेल जे तुम्ही ट्विट व्युत्पन्न करण्यासाठी वापरू शकता ते तुम्हाला मजकूर सारांशित करण्यात, परिच्छेद पुन्हा लिहिण्यात आणि कथा पूर्ण करण्यात मदत करू शकते. भाषा मॉडेल ते इतके शक्तिशाली झाले आहेत की ते आता मूलत: सामान्य-उद्देश साधने आहेत जी कोणत्याही प्रकारच्या आदेशाचे पालन करतात.
GPT-3 च्या सामान्य-उद्देशाच्या स्वरूपाने अशा अनुप्रयोगांना परवानगी दिली आहे GitHub सहपायलट, जे प्रोग्रामरना साध्या इंग्रजीतून वर्किंग कोड तयार करण्यास अनुमती देते.
प्रसार मॉडेल: मजकूर ते प्रतिमा
ट्रान्सफॉर्मर आणि NLP सोबत केलेल्या प्रगतीमुळे इतर क्षेत्रातही जनरेटिव्ह एआयचा मार्ग मोकळा झाला आहे.
कॉम्प्युटर व्हिजनच्या क्षेत्रात, सखोल शिक्षणामुळे मशीन्सना प्रतिमा कशा समजू शकतात हे आम्ही आधीच सांगितले आहे. तथापि, आम्हाला अद्याप एआयसाठी प्रतिमा वर्गीकृत करण्याऐवजी स्वतः तयार करण्यासाठी मार्ग शोधण्याची आवश्यकता आहे.
DALL-E 2, स्टेबल डिफ्यूजन आणि मिडजॉर्नी सारखी जनरेटिव्ह इमेज मॉडेल्स लोकप्रिय झाली आहेत कारण ते मजकूर इनपुट प्रतिमांमध्ये कसे रूपांतरित करू शकतात.
हे प्रतिमा मॉडेल दोन प्रमुख पैलूंवर अवलंबून असतात: एक मॉडेल जे प्रतिमा आणि मजकूर यांच्यातील संबंध समजते आणि एक मॉडेल जे इनपुटशी जुळणारी उच्च-डेफिनिशन प्रतिमा तयार करू शकते.
OpenAI च्या क्लिप (कॉन्ट्रास्टिव्ह लँग्वेज–इमेज प्री-ट्रेनिंग) हे एक मुक्त-स्रोत मॉडेल आहे ज्याचा उद्देश पहिला पैलू सोडवणे आहे. प्रतिमा दिल्यास, CLIP मॉडेल त्या विशिष्ट प्रतिमेसाठी सर्वात संबंधित मजकूर वर्णनाचा अंदाज लावू शकतो.
CLIP मॉडेल महत्वाची प्रतिमा वैशिष्ट्ये कशी काढायची आणि प्रतिमेचे सोपे प्रतिनिधित्व कसे तयार करायचे हे शिकून कार्य करते.
जेव्हा वापरकर्ते DALL-E 2 ला नमुना मजकूर इनपुट प्रदान करतात, तेव्हा इनपुट CLIP मॉडेल वापरून "इमेज एम्बेडिंग" मध्ये रूपांतरित केले जाते. व्युत्पन्न प्रतिमा एम्बेडिंगशी जुळणारी प्रतिमा निर्माण करण्याचा मार्ग शोधणे हे आता ध्येय आहे.
नवीनतम जनरेटिव्ह इमेज एआय वापरतात प्रसार मॉडेल प्रत्यक्षात प्रतिमा तयार करण्याचे कार्य हाताळण्यासाठी. डिफ्यूजन मॉडेल्स न्यूरल नेटवर्कवर अवलंबून असतात ज्यांना प्रतिमांमधून जोडलेला आवाज कसा काढायचा हे जाणून घेण्यासाठी पूर्व-प्रशिक्षित होते.
प्रशिक्षणाच्या या प्रक्रियेदरम्यान, न्यूरल नेटवर्क अखेरीस यादृच्छिक आवाजाच्या प्रतिमेतून उच्च-रिझोल्यूशन प्रतिमा कशी तयार करावी हे शिकू शकते. आमच्याकडे आधीपासूनच CLIP द्वारे प्रदान केलेल्या मजकूर आणि प्रतिमांचे मॅपिंग असल्याने, आम्ही करू शकतो प्रसार मॉडेल प्रशिक्षित करा CLIP प्रतिमा एम्बेडिंगवर कोणतीही प्रतिमा निर्माण करण्यासाठी प्रक्रिया तयार करण्यासाठी.
जनरेटिव्ह एआय क्रांती: पुढे काय होते?
आम्ही आता अशा टप्प्यावर आहोत जिथे जनरेटिव्ह AI मध्ये दर दोन दिवसांनी प्रगती होत आहे. एआय वापरून विविध प्रकारचे माध्यमे निर्माण करणे सोपे आणि सोपे होत असताना, याचा आपल्या समाजावर कसा परिणाम होऊ शकतो याची आपल्याला काळजी वाटली पाहिजे का?
स्टीम इंजिनचा शोध लागल्यापासून कामगारांची जागा घेणार्या यंत्रांची चिंता नेहमीच चर्चेत राहिली असली तरी यावेळेस ते थोडे वेगळे असल्याचे दिसते.
जनरेटिव्ह एआय एक बहुउद्देशीय साधन बनत आहे जे एआय टेकओव्हरपासून सुरक्षित समजल्या जाणार्या उद्योगांमध्ये व्यत्यय आणू शकते.
एआय काही मूलभूत सूचनांमधून निर्दोष कोड लिहिण्यास प्रारंभ करू शकत असल्यास आम्हाला प्रोग्रामरची आवश्यकता आहे का? जर लोक त्यांना स्वस्तात हवे असलेले आउटपुट तयार करण्यासाठी जनरेटिव्ह मॉडेल वापरू शकत असतील तर ते क्रिएटिव्ह्स ठेवतील का?
जनरेटिव्ह एआय क्रांतीचे भविष्य सांगणे कठीण आहे. परंतु आता अलंकारिक Pandora's बॉक्स उघडला गेला आहे, मला आशा आहे की तंत्रज्ञान अधिक रोमांचक नवकल्पनांना अनुमती देईल ज्यामुळे जगावर सकारात्मक प्रभाव पडू शकेल.
प्रत्युत्तर द्या