जनरेटिव्ह एआय क्रांती कशामुळे झाली?

अनुक्रमणिका[लपवा][दाखवा]

न्यूरल नेटवर्क्सचा उदय
ट्रान्सफॉर्मर सर्वकाही बदलतात
GPT-3 आणि इंटरनेट
प्रसार मॉडेल: मजकूर ते प्रतिमा
जनरेटिव्ह एआय क्रांती: पुढे काय होते?

आम्ही कदाचित नवीन जनरेटिव्ह एआय क्रांतीच्या सुरूवातीस आहोत.

जनरेटिव्ह आर्टिफिशियल इंटेलिजन्स अल्गोरिदम आणि मॉडेल्सचा संदर्भ देते जे सामग्री तयार करण्यास सक्षम आहेत. अशा मॉडेल्सच्या आउटपुटमध्ये मजकूर, ऑडिओ आणि प्रतिमा समाविष्ट असतात ज्यांना वास्तविक मानवी आउटपुट म्हणून चुकीचे मानले जाऊ शकते.

अनुप्रयोग जसे चॅटजीपीटी जनरेटिव्ह एआय ही केवळ नवीनता नाही हे दाखवून दिले आहे. एआय आता तपशीलवार सूचनांचे पालन करण्यास सक्षम आहे आणि जग कसे कार्य करते याची सखोल माहिती आहे असे दिसते.

पण आपण या टप्प्यावर कसे पोहोचलो? या मार्गदर्शिकेत, आम्ही AI संशोधनातील काही महत्त्वाच्या प्रगतींमधून जाणार आहोत ज्यांनी या नवीन आणि रोमांचक जनरेटिव्ह AI क्रांतीचा मार्ग मोकळा केला आहे.

न्यूरल नेटवर्क्सचा उदय

तुम्ही आधुनिक AI ची उत्पत्ती शोधून काढू शकता खोल शिक्षण आणि मज्जासंस्था नेटवर्क 2012 आहे.

त्या वर्षी, अॅलेक्स क्रिझेव्स्की आणि टोरंटो विद्यापीठातील त्यांची टीम एक अत्यंत अचूक अल्गोरिदम प्राप्त करण्यात सक्षम होते जे वस्तूंचे वर्गीकरण करू शकते.

अगोदर निर्देश केलेल्या बाबीसंबंधी बोलताना अत्याधुनिक न्यूरल नेटवर्क, आता अॅलेक्सनेट म्हणून ओळखले जाते, इमेजनेट व्हिज्युअल डेटाबेसमध्ये रनर-अपपेक्षा खूपच कमी त्रुटी दरासह ऑब्जेक्ट्सचे वर्गीकरण करण्यास सक्षम होते.

alexnet आकृती

न्युरल नेटवर्क हे अल्गोरिदम आहेत जे काही प्रशिक्षण डेटावर आधारित विशिष्ट वर्तन शिकण्यासाठी गणितीय कार्यांचे नेटवर्क वापरतात. उदाहरणार्थ, कर्करोगासारख्या आजाराचे निदान करण्यासाठी मॉडेलला प्रशिक्षण देण्यासाठी तुम्ही न्यूरल नेटवर्क वैद्यकीय डेटा फीड करू शकता.

आशा आहे की न्यूरल नेटवर्क हळूहळू डेटामध्ये नमुने शोधते आणि जेव्हा नवीन डेटा दिला जातो तेव्हा ते अधिक अचूक होते.

अॅलेक्सनेट हा एक यशस्वी अॅप्लिकेशन होता कन्व्होल्यूशनल न्यूरल नेटवर्क किंवा CNNs. "कन्व्होल्युशनल" कीवर्डचा संदर्भ कंव्होल्युशनल लेयर्सच्या जोडणीचा आहे जो एकमेकांच्या जवळ असलेल्या डेटावर अधिक जोर देतो.

1980 च्या दशकात CNN ही कल्पना आधीपासूनच होती, परंतु 2010 च्या दशकाच्या सुरुवातीस जेव्हा नवीनतम GPU तंत्रज्ञानाने तंत्रज्ञानाला नवीन उंचीवर नेले तेव्हाच त्यांना लोकप्रियता मिळू लागली.

च्या क्षेत्रात CNN चे यश संगणक दृष्टी न्यूरल नेटवर्कच्या संशोधनात अधिक रस निर्माण झाला.

Google आणि Facebook सारख्या टेक दिग्गजांनी त्यांचे स्वतःचे AI फ्रेमवर्क लोकांसाठी रिलीझ करण्याचा निर्णय घेतला. उच्च-स्तरीय API जसे की केरास डीप न्यूरल नेटवर्कसह प्रयोग करण्यासाठी वापरकर्त्यांना एक वापरकर्ता अनुकूल इंटरफेस दिला.

केराने डीप लर्निंग मॉडेल्ससह प्रयोग करण्यासाठी वापरकर्ता-अनुकूल मार्ग प्रदान केला

CNN प्रतिमा ओळख आणि व्हिडिओ विश्लेषणामध्ये उत्कृष्ट होते परंतु भाषा-आधारित समस्या सोडवताना त्यांना समस्या येत होत्या. नैसर्गिक भाषा प्रक्रियेतील ही मर्यादा अस्तित्वात असू शकते कारण प्रतिमा आणि मजकूर या मूलभूतपणे वेगळ्या समस्या कशा आहेत.

उदाहरणार्थ, इमेजमध्ये ट्रॅफिक लाइट आहे की नाही हे वर्गीकरण करणारे मॉडेल तुमच्याकडे असल्यास, प्रश्नातील ट्रॅफिक लाइट इमेजमध्ये कुठेही दिसू शकतो. तथापि, या प्रकारची उदारता भाषेत चांगली चालत नाही. "बॉब एट फिश" आणि "फिश एट बॉब" या वाक्यांचे समान शब्द वापरूनही बरेच वेगळे अर्थ आहेत.

हे स्पष्ट झाले आहे की संशोधकांना मानवी भाषेतील समस्या सोडवण्यासाठी नवीन दृष्टीकोन शोधण्याची आवश्यकता आहे.

ट्रान्सफॉर्मर सर्वकाही बदलतात

2017 मध्ये, ए शोध निबंध "लक्ष इज ऑल यू नीड" शीर्षकाने नवीन प्रकारचे नेटवर्क प्रस्तावित केले: ट्रान्सफॉर्मर.

CNNs प्रतिमेचे लहान भाग वारंवार फिल्टर करून कार्य करत असताना, ट्रान्सफॉर्मर डेटामधील प्रत्येक घटक इतर घटकांशी जोडतात. संशोधक या प्रक्रियेला "स्व-लक्ष" म्हणतात.

सीएनएन आर्किटेक्चरचे स्केच डायग्राम

वाक्यांचे विश्लेषण करण्याचा प्रयत्न करताना, CNN आणि ट्रान्सफॉर्मर खूप वेगळ्या पद्धतीने कार्य करतात. CNN एकमेकांच्या जवळ असलेल्या शब्दांसह कनेक्शन तयार करण्यावर लक्ष केंद्रित करेल, तर ट्रान्सफॉर्मर वाक्यातील प्रत्येक शब्दामध्ये कनेक्शन तयार करेल.

ट्रान्सफॉर्मर आर्किटेक्चरचे स्केच डायग्राम

स्वत: ची लक्ष देण्याची प्रक्रिया मानवी भाषा समजून घेण्याचा अविभाज्य भाग आहे. झूम आउट करून आणि संपूर्ण वाक्य एकत्र कसे बसते ते पाहून, मशीन्सना वाक्याची रचना स्पष्टपणे समजू शकते.

एकदा पहिले ट्रान्सफॉर्मर मॉडेल रिलीझ झाल्यानंतर, संशोधकांनी लवकरच नवीन आर्किटेक्चरचा वापर करून इंटरनेटवर सापडलेल्या अविश्वसनीय मजकूर डेटाचा फायदा घेतला.

GPT-3 आणि इंटरनेट

2020 मध्ये, OpenAI चे जीपीटी-3 मॉडेलने दाखवले की ट्रान्सफॉर्मर किती प्रभावी असू शकतात. GPT-3 हा मजकूर आउटपुट करण्यात सक्षम होता जो मनुष्यापासून जवळजवळ अभेद्य वाटतो. ज्याने GPT-3 इतके शक्तिशाली बनवले त्याचा एक भाग म्हणजे वापरलेले प्रशिक्षण डेटा. मॉडेलचा बहुतेक प्री-ट्रेनिंग डेटासेट कॉमन क्रॉल म्हणून ओळखल्या जाणार्‍या डेटासेटमधून येतो जो 400 अब्ज टोकन्ससह येतो.

वास्तविक मानवी मजकूर तयार करण्याची GPT-3 ची क्षमता स्वतःच ग्राउंडब्रेकिंग होती, तेव्हा संशोधकांनी शोधून काढले की समान मॉडेल इतर कार्ये कशी सोडवू शकते.

उदाहरणार्थ, तेच GPT-3 मॉडेल जे तुम्ही ट्विट व्युत्पन्न करण्यासाठी वापरू शकता ते तुम्हाला मजकूर सारांशित करण्यात, परिच्छेद पुन्हा लिहिण्यात आणि कथा पूर्ण करण्यात मदत करू शकते. भाषा मॉडेल ते इतके शक्तिशाली झाले आहेत की ते आता मूलत: सामान्य-उद्देश साधने आहेत जी कोणत्याही प्रकारच्या आदेशाचे पालन करतात.

जनरेटिव्ह एआय क्रांती जीपीटी -3 सारख्या मोठ्या भाषेच्या मॉडेल्सद्वारे वेगवान झाली

GPT-3 च्या सामान्य-उद्देशाच्या स्वरूपाने अशा अनुप्रयोगांना परवानगी दिली आहे GitHub सहपायलट, जे प्रोग्रामरना साध्या इंग्रजीतून वर्किंग कोड तयार करण्यास अनुमती देते.

Google copilot चा डेमो. जनरेटिव्ह एआय क्रांतीचा एआय बनवणाऱ्या प्रोग्रामरवरही परिणाम होऊ शकतो

प्रसार मॉडेल: मजकूर ते प्रतिमा

ट्रान्सफॉर्मर आणि NLP सोबत केलेल्या प्रगतीमुळे इतर क्षेत्रातही जनरेटिव्ह एआयचा मार्ग मोकळा झाला आहे.

कॉम्प्युटर व्हिजनच्या क्षेत्रात, सखोल शिक्षणामुळे मशीन्सना प्रतिमा कशा समजू शकतात हे आम्ही आधीच सांगितले आहे. तथापि, आम्हाला अद्याप एआयसाठी प्रतिमा वर्गीकृत करण्याऐवजी स्वतः तयार करण्यासाठी मार्ग शोधण्याची आवश्यकता आहे.

DALL-E 2, स्टेबल डिफ्यूजन आणि मिडजॉर्नी सारखी जनरेटिव्ह इमेज मॉडेल्स लोकप्रिय झाली आहेत कारण ते मजकूर इनपुट प्रतिमांमध्ये कसे रूपांतरित करू शकतात.

dall-e 2 चे नमुना आउटपुट

हे प्रतिमा मॉडेल दोन प्रमुख पैलूंवर अवलंबून असतात: एक मॉडेल जे प्रतिमा आणि मजकूर यांच्यातील संबंध समजते आणि एक मॉडेल जे इनपुटशी जुळणारी उच्च-डेफिनिशन प्रतिमा तयार करू शकते.

OpenAI च्या क्लिप (कॉन्ट्रास्टिव्ह लँग्वेज–इमेज प्री-ट्रेनिंग) हे एक मुक्त-स्रोत मॉडेल आहे ज्याचा उद्देश पहिला पैलू सोडवणे आहे. प्रतिमा दिल्यास, CLIP मॉडेल त्या विशिष्ट प्रतिमेसाठी सर्वात संबंधित मजकूर वर्णनाचा अंदाज लावू शकतो.

CLIP मॉडेल महत्वाची प्रतिमा वैशिष्ट्ये कशी काढायची आणि प्रतिमेचे सोपे प्रतिनिधित्व कसे तयार करायचे हे शिकून कार्य करते.

CLIP प्रतिमा आणि मजकूर यांच्यातील पूल म्हणून काम करते आणि जनरेटिव्ह एआय क्रांती व्हिज्युअल क्षेत्रात हलविण्यात मदत करते

जेव्हा वापरकर्ते DALL-E 2 ला नमुना मजकूर इनपुट प्रदान करतात, तेव्हा इनपुट CLIP मॉडेल वापरून "इमेज एम्बेडिंग" मध्ये रूपांतरित केले जाते. व्युत्पन्न प्रतिमा एम्बेडिंगशी जुळणारी प्रतिमा निर्माण करण्याचा मार्ग शोधणे हे आता ध्येय आहे.

नवीनतम जनरेटिव्ह इमेज एआय वापरतात प्रसार मॉडेल प्रत्यक्षात प्रतिमा तयार करण्याचे कार्य हाताळण्यासाठी. डिफ्यूजन मॉडेल्स न्यूरल नेटवर्कवर अवलंबून असतात ज्यांना प्रतिमांमधून जोडलेला आवाज कसा काढायचा हे जाणून घेण्यासाठी पूर्व-प्रशिक्षित होते.

प्रशिक्षणाच्या या प्रक्रियेदरम्यान, न्यूरल नेटवर्क अखेरीस यादृच्छिक आवाजाच्या प्रतिमेतून उच्च-रिझोल्यूशन प्रतिमा कशी तयार करावी हे शिकू शकते. आमच्याकडे आधीपासूनच CLIP द्वारे प्रदान केलेल्या मजकूर आणि प्रतिमांचे मॅपिंग असल्याने, आम्ही करू शकतो प्रसार मॉडेल प्रशिक्षित करा CLIP प्रतिमा एम्बेडिंगवर कोणतीही प्रतिमा निर्माण करण्यासाठी प्रक्रिया तयार करण्यासाठी.

जनरेटिव्ह एआय क्रांती: पुढे काय होते?

आम्ही आता अशा टप्प्यावर आहोत जिथे जनरेटिव्ह AI मध्ये दर दोन दिवसांनी प्रगती होत आहे. एआय वापरून विविध प्रकारचे माध्यमे निर्माण करणे सोपे आणि सोपे होत असताना, याचा आपल्या समाजावर कसा परिणाम होऊ शकतो याची आपल्याला काळजी वाटली पाहिजे का?

स्टीम इंजिनचा शोध लागल्यापासून कामगारांची जागा घेणार्‍या यंत्रांची चिंता नेहमीच चर्चेत राहिली असली तरी यावेळेस ते थोडे वेगळे असल्याचे दिसते.

जनरेटिव्ह एआय एक बहुउद्देशीय साधन बनत आहे जे एआय टेकओव्हरपासून सुरक्षित समजल्या जाणार्‍या उद्योगांमध्ये व्यत्यय आणू शकते.

एआय काही मूलभूत सूचनांमधून निर्दोष कोड लिहिण्यास प्रारंभ करू शकत असल्यास आम्हाला प्रोग्रामरची आवश्यकता आहे का? जर लोक त्यांना स्वस्तात हवे असलेले आउटपुट तयार करण्यासाठी जनरेटिव्ह मॉडेल वापरू शकत असतील तर ते क्रिएटिव्ह्स ठेवतील का?

जनरेटिव्ह एआय क्रांतीचे भविष्य सांगणे कठीण आहे. परंतु आता अलंकारिक Pandora's बॉक्स उघडला गेला आहे, मला आशा आहे की तंत्रज्ञान अधिक रोमांचक नवकल्पनांना अनुमती देईल ज्यामुळे जगावर सकारात्मक प्रभाव पडू शकेल.

जनरेटिव्ह एआय क्रांती कशामुळे झाली?

न्यूरल नेटवर्क्सचा उदय

ट्रान्सफॉर्मर सर्वकाही बदलतात

GPT-3 आणि इंटरनेट

प्रसार मॉडेल: मजकूर ते प्रतिमा

जनरेटिव्ह एआय क्रांती: पुढे काय होते?

आमच्याबद्दल Deion Menor

HashDork वर अधिक लेख:

तुमच्या AI मध्ये मतिभ्रम कसे कमी करावे

कोलोसियन वि हेजेन

हे भविष्यातील तंत्रज्ञान वृत्तपत्र शोषक नाही

जनरेटिव्ह एआय क्रांती कशामुळे झाली?

न्यूरल नेटवर्क्सचा उदय

ट्रान्सफॉर्मर सर्वकाही बदलतात

GPT-3 आणि इंटरनेट

प्रसार मॉडेल: मजकूर ते प्रतिमा

जनरेटिव्ह एआय क्रांती: पुढे काय होते?

आमच्याबद्दल Deion Menor

HashDork वर अधिक लेख:

तुमच्या AI मध्ये मतिभ्रम कसे कमी करावे

सोशल मीडियासाठी 10 सर्वोत्कृष्ट AI साधने

कोलोसियन वि हेजेन

10 सर्वोत्कृष्ट AI अॅनिमेटेड व्हिडिओ मेकर टूल्स

वाचक संवाद

प्रत्युत्तर द्या उत्तर रद्द

हे भविष्यातील तंत्रज्ञान वृत्तपत्र शोषक नाही