ज्यूकबॉक्स एआय - न्यूरल नेटवर्क वापरून संगीत निर्माण करणे

अनुक्रमणिका[लपवा][दाखवा]

ज्यूकबॉक्स एआय म्हणजे काय?
ज्यूकबॉक्स कसे कार्य करते?+-
ज्यूकबॉक्स मॉडेलच्या मर्यादा
निष्कर्ष

तुमच्या आवडत्या कलाकाराकडून नवीन रेकॉर्ड तयार करण्यासाठी तुम्ही AI वापरू शकता का?

मशिन लर्निंगमधील अलीकडील प्रगतीने हे दाखवून दिले आहे की मॉडेल आता मजकूर आणि प्रतिमांसारखा जटिल डेटा समजण्यास सक्षम आहेत. ओपनएआयचे ज्यूकबॉक्स हे सिद्ध करते की न्यूरल नेटवर्कद्वारे संगीत देखील अचूकपणे तयार केले जाऊ शकते.

मॉडेलसाठी संगीत एक जटिल वस्तू आहे. तुम्हाला टेम्पो, लाऊडनेस आणि पिच या दोन्ही सोप्या वैशिष्ट्यांचा विचार करावा लागेल आणि अधिक जटिल वैशिष्ट्ये जसे की गीत, वाद्ये आणि संगीत रचना.

प्रगत वापरणे मशीन शिक्षण तंत्र, ओपनएआयने इतर मॉडेल वापरू शकतील अशा प्रतिनिधित्वामध्ये कच्चा ऑडिओ रूपांतरित करण्याचा मार्ग शोधला आहे.

हा लेख ज्यूकबॉक्स काय करू शकतो, ते कसे कार्य करते आणि तंत्रज्ञानाच्या सध्याच्या मर्यादा स्पष्ट करेल.

ज्यूकबॉक्स एआय म्हणजे काय?

ज्यूकबॉक्स ओपनएआयचे न्यूरल नेट मॉडेल आहे जे गायनासह संगीत तयार करू शकते. मॉडेल विविध शैली आणि कलाकारांच्या शैलींमध्ये संगीत तयार करू शकते.

ज्यूकबॉक्स एआय प्रसिद्ध कलाकारांची गाणी व्युत्पन्न करते

उदाहरणार्थ, ज्यूकबॉक्स एल्विस प्रेस्लीच्या शैलीत रॉक गाणे किंवा कान्ये वेस्टच्या शैलीत हिप हॉप ट्यून तयार करू शकते. तुम्ही याला भेट देऊ शकता वेबसाइट तुमच्या आवडत्या संगीत कलाकार आणि शैलींचा आवाज कॅप्चर करण्यासाठी मॉडेल किती प्रभावी आहे हे एक्सप्लोर करण्यासाठी.

मॉडेलला इनपुट म्हणून शैली, कलाकार आणि गीत आवश्यक आहेत. हे इनपुट लाखो कलाकार आणि गीताच्या डेटावर प्रशिक्षित मॉडेलचे मार्गदर्शन करते.

ज्यूकबॉक्स कसे कार्य करते?

लाखो गाण्यांवर प्रशिक्षण घेतलेल्या मॉडेलमधून ज्यूकबॉक्स नवीन रॉ ऑडिओ कसा तयार करतो ते पाहू या.

एन्कोडिंग प्रक्रिया

काही म्युझिक जनरेशन मॉडेल्स MIDI प्रशिक्षण डेटा वापरत असताना, ज्यूकबॉक्सला वास्तविक रॉ ऑडिओ फाइलवर प्रशिक्षण दिले जाते. ऑडिओला वेगळ्या जागेत संकुचित करण्यासाठी, ज्यूकबॉक्स VQ-VAE म्हणून ओळखल्या जाणार्‍या स्वयं-एनकोडर पद्धतीचा वापर करतो.

VQ-VAE म्हणजे व्हेक्टर क्वांटाइज्ड व्हेरिएशनल ऑटोएनकोडर, जे थोडे क्लिष्ट वाटू शकते, तर चला ते खंडित करूया.

प्रथम, आपल्याला येथे काय करायचे आहे हे समजून घेण्याचा प्रयत्न करूया. गीत किंवा शीट म्युझिकच्या तुलनेत, एक कच्ची ऑडिओ फाइल खूपच क्लिष्ट आहे. जर आम्हाला आमच्या मॉडेलने गाण्यांमधून "शिकायला" हवे असेल, तर आम्हाला ते अधिक संकुचित आणि सरलीकृत प्रस्तुतीकरणात रूपांतरित करावे लागेल. मध्ये मशीन शिक्षण, आम्ही याला अंतर्निहित प्रतिनिधित्व म्हणतो सुप्त जागा.

सुप्त जागा ही नमुना इनपुटची संकुचित आवृत्ती आहे

An ऑटोएनकोड एक पर्यवेक्षित शिक्षण तंत्र आहे जे a वापरते मज्जासंस्थेसंबंधीचा नेटवर्क दिलेल्या डेटा वितरणासाठी गैर-रेखीय अव्यक्त प्रतिनिधित्व शोधण्यासाठी. ऑटोएनकोडरमध्ये दोन भाग असतात: एन्कोडर आणि डीकोडर.

अगोदर निर्देश केलेल्या बाबीसंबंधी बोलताना एन्कोडर कच्च्या डेटाच्या संचामधून सुप्त जागा शोधण्याचा प्रयत्न करते, तर डीकोडर त्‍याच्‍या मूळ स्‍वरूपमध्‍ये पुन्‍हा संरचित करण्‍याचा प्रयत्‍न करण्‍यासाठी सुप्त प्रेझेंटेशन वापरते. ऑटोएनकोडर मूलत: कच्चा डेटा अशा प्रकारे संकुचित कसा करायचा हे शिकतो ज्यामुळे पुनर्रचना त्रुटी कमी होते.

ऑटोएनकोडर काय करतो हे आता आपल्याला माहित आहे, चला “व्हेरिएशनल” ऑटोएनकोडर म्हणजे काय हे समजून घेण्याचा प्रयत्न करूया. ठराविक ऑटोएनकोडर्सच्या तुलनेत, व्हेरिएशनल ऑटोएनकोडर अव्यक्त जागेच्या अगोदर जोडतात.

गणितात डुबकी न मारता, संभाव्य अगोदर जोडल्याने सुप्त वितरण जवळून कॉम्पॅक्ट केले जाते. VAE आणि VQ-VAE मधील मुख्य फरक हा आहे की नंतरचे एक सतत नसून एक स्वतंत्र अव्यक्त प्रतिनिधित्व वापरते. एन्कोडिंग आणि डीकोडिंगसाठी ज्यूकबॉक्स एआयच्या आर्किटेक्चरचा आकृती

प्रत्येक VQ-VAE स्तर स्वतंत्रपणे इनपुट एन्कोड करतो. तळ पातळी एन्कोडिंग उच्च-गुणवत्तेची पुनर्रचना तयार करते. उच्च-स्तरीय एन्कोडिंग आवश्यक संगीत माहिती राखून ठेवते.

ट्रान्सफॉर्मर वापरणे

ज्यूकबॉक्स AI ट्रॅकमध्ये पुढील ऑडिओ क्लिप तयार करण्यासाठी ट्रान्सफॉर्मर वापरते

आता आमच्याकडे VQ-VAE द्वारे एन्कोड केलेले संगीत कोड आहेत, आम्ही प्रयत्न करू शकतो संगीत निर्माण करा या संकुचित स्वतंत्र जागेत.

ज्यूकबॉक्स वापरतो ऑटोरेग्रेसिव्ह ट्रान्सफॉर्मर्स आउटपुट ऑडिओ तयार करण्यासाठी. ट्रान्सफॉर्मर हे न्यूरल नेटवर्कचे एक प्रकार आहेत जे अनुक्रमित डेटासह उत्कृष्ट कार्य करतात. टोकनचा क्रम दिल्यास, ट्रान्सफॉर्मर मॉडेल पुढील टोकनचा अंदाज लावण्याचा प्रयत्न करेल.

ज्यूकबॉक्स स्पार्स ट्रान्सफॉर्मर्सचे सरलीकृत प्रकार वापरते. एकदा सर्व आधीचे मॉडेल प्रशिक्षित झाल्यावर, ट्रान्सफॉर्मर कॉम्प्रेस केलेले कोड तयार करतो जे नंतर व्हीक्यू-व्हीएई डीकोडर वापरून पुन्हा रॉ ऑडिओमध्ये डीकोड केले जातात.

ज्यूकबॉक्समध्ये कलाकार आणि शैली कंडिशनिंग

प्रारंभिक ज्यूकबॉक्स एआय मॉडेल गाणे एखाद्या विशिष्ट शैली किंवा कलाकारासारखे कसे वाटते हे समजून घेण्याचा प्रयत्न करते

ज्यूकबॉक्सचे जनरेटिव्ह मॉडेल प्रशिक्षण चरणादरम्यान अतिरिक्त सशर्त सिग्नल प्रदान करून अधिक नियंत्रण करण्यायोग्य बनविले आहे.

प्रथम मॉडेल प्रत्येक गाण्यासाठी कलाकार आणि शैली लेबल्सद्वारे प्रदान केले जातात. हे ऑडिओ प्रेडिक्शनची एन्ट्रॉपी कमी करते आणि मॉडेलला चांगली गुणवत्ता प्राप्त करण्यास अनुमती देते. लेबले आम्हाला एका विशिष्ट शैलीमध्ये मॉडेल चालविण्यास सक्षम करतात.

कलाकार आणि शैली व्यतिरिक्त, प्रशिक्षण काळात वेळेचे संकेत जोडले जातात. या संकेतांमध्ये गाण्याची लांबी, विशिष्ट नमुन्याची सुरुवातीची वेळ आणि संपलेल्या गाण्याचा अंश यांचा समावेश होतो. ही अतिरिक्त माहिती मॉडेलला एकंदर संरचनेवर अवलंबून असणारे ऑडिओ पॅटर्न समजून घेण्यात मदत करते.

उदाहरणार्थ, गाण्याच्या शेवटी लाइव्ह म्युझिकसाठी टाळ्या वाजतात हे मॉडेल शिकू शकते. मॉडेल हे देखील शिकू शकते, उदाहरणार्थ, काही शैलींमध्ये इतरांपेक्षा मोठे वाद्य विभाग असतात.

गीत

मागील विभागात नमूद केलेले कंडिशन मॉडेल विविध प्रकारचे गायन आवाज निर्माण करण्यास सक्षम आहेत. तथापि, हे आवाज विसंगत आणि ओळखण्यायोग्य नसतात.

जेव्हा गीत निर्मितीचा प्रश्न येतो तेव्हा जनरेटिव्ह मॉडेल नियंत्रित करण्यासाठी, संशोधक प्रशिक्षणाच्या वेळी अधिक संदर्भ प्रदान करतात. वास्तविक ऑडिओवरील वेळेनुसार लिरिक डेटा मॅप करण्यात मदत करण्यासाठी, संशोधकांनी वापरले स्लीटर स्वर काढण्यासाठी आणि NUS AutoLyricsAlign गीतांचे शब्द-स्तरीय संरेखन प्राप्त करण्यासाठी.

ज्यूकबॉक्स मॉडेलच्या मर्यादा

ज्यूकबॉक्सच्या मुख्य मर्यादांपैकी एक म्हणजे मोठ्या संगीत रचनांची समज. उदाहरणार्थ, आउटपुटची एक लहान 20-सेकंद क्लिप प्रभावी वाटू शकते, परंतु श्रोत्यांच्या लक्षात येईल की पुनरावृत्ती केलेल्या कोरस आणि श्लोकांची विशिष्ट संगीत रचना अंतिम आउटपुटमध्ये अनुपस्थित आहे.

मॉडेल रेंडर करण्यासाठी देखील मंद आहे. एका मिनिटाचा ऑडिओ पूर्णपणे रेंडर होण्यासाठी अंदाजे 9 तास लागतात. हे व्युत्पन्न होऊ शकणार्‍या गाण्यांची संख्या मर्यादित करते आणि मॉडेलला परस्परसंवादी अनुप्रयोगांमध्ये वापरण्यापासून प्रतिबंधित करते.

शेवटी, संशोधकांनी नमूद केले आहे की नमुना डेटासेट प्रामुख्याने इंग्रजीमध्ये आहे आणि प्रामुख्याने पाश्चात्य संगीत संमेलने प्रदर्शित करतो. AI संशोधक भविष्यातील संशोधनावर इतर भाषांमध्ये आणि गैर-पाश्चात्य संगीत शैलींमध्ये संगीत निर्माण करण्यावर लक्ष केंद्रित करू शकतात.

निष्कर्ष

ज्यूकबॉक्स प्रकल्प रॉ ऑडिओसारख्या जटिल डेटाचे अचूक अव्यक्त प्रतिनिधित्व तयार करण्यासाठी मशीन लर्निंग मॉडेलच्या वाढत्या क्षमतेवर प्रकाश टाकतो. सारख्या प्रकल्पांमध्ये पाहिल्याप्रमाणे, मजकुरात तत्सम प्रगती होत आहेत जीपीटी-3, आणि प्रतिमा, OpenAI मध्ये पाहिल्याप्रमाणे DALL-E2.

या जागेतील संशोधन प्रभावी असले तरी, बौद्धिक संपदा हक्कांबद्दल आणि या मॉडेल्सचा संपूर्ण सर्जनशील उद्योगांवर होणार्‍या प्रभावाबाबत अजूनही चिंता आहेत. संशोधक आणि क्रिएटिव्ह यांनी हे मॉडेल सुधारत राहतील याची खात्री करण्यासाठी जवळून सहकार्य करणे सुरू ठेवावे.

भविष्यातील जनरेटिव्ह म्युझिक मॉडेल्स लवकरच संगीतकारांसाठी एक साधन म्हणून किंवा प्रकल्पांसाठी सानुकूल संगीताची आवश्यकता असलेल्या क्रिएटिव्हसाठी अनुप्रयोग म्हणून कार्य करू शकतील.

ज्यूकबॉक्स एआय - न्यूरल नेटवर्क वापरून संगीत निर्माण करणे

ज्यूकबॉक्स एआय म्हणजे काय?

ज्यूकबॉक्स कसे कार्य करते?

एन्कोडिंग प्रक्रिया

ट्रान्सफॉर्मर वापरणे

ज्यूकबॉक्समध्ये कलाकार आणि शैली कंडिशनिंग

गीत

ज्यूकबॉक्स मॉडेलच्या मर्यादा

निष्कर्ष

आमच्याबद्दल Deion Menor

HashDork वर अधिक लेख:

तुमच्या AI मध्ये मतिभ्रम कसे कमी करावे

कोलोसियन वि हेजेन

हे भविष्यातील तंत्रज्ञान वृत्तपत्र शोषक नाही

ज्यूकबॉक्स एआय - न्यूरल नेटवर्क वापरून संगीत निर्माण करणे

ज्यूकबॉक्स एआय म्हणजे काय?

ज्यूकबॉक्स कसे कार्य करते?

एन्कोडिंग प्रक्रिया

ट्रान्सफॉर्मर वापरणे

ज्यूकबॉक्समध्ये कलाकार आणि शैली कंडिशनिंग

गीत

ज्यूकबॉक्स मॉडेलच्या मर्यादा

निष्कर्ष

आमच्याबद्दल Deion Menor

HashDork वर अधिक लेख:

तुमच्या AI मध्ये मतिभ्रम कसे कमी करावे

सोशल मीडियासाठी 10 सर्वोत्कृष्ट AI साधने

कोलोसियन वि हेजेन

10 सर्वोत्कृष्ट AI अॅनिमेटेड व्हिडिओ मेकर टूल्स

वाचक संवाद

प्रत्युत्तर द्या उत्तर रद्द

हे भविष्यातील तंत्रज्ञान वृत्तपत्र शोषक नाही