तुमच्या आवडत्या कलाकाराकडून नवीन रेकॉर्ड तयार करण्यासाठी तुम्ही AI वापरू शकता का?
मशिन लर्निंगमधील अलीकडील प्रगतीने हे दाखवून दिले आहे की मॉडेल आता मजकूर आणि प्रतिमांसारखा जटिल डेटा समजण्यास सक्षम आहेत. ओपनएआयचे ज्यूकबॉक्स हे सिद्ध करते की न्यूरल नेटवर्कद्वारे संगीत देखील अचूकपणे तयार केले जाऊ शकते.
मॉडेलसाठी संगीत एक जटिल वस्तू आहे. तुम्हाला टेम्पो, लाऊडनेस आणि पिच या दोन्ही सोप्या वैशिष्ट्यांचा विचार करावा लागेल आणि अधिक जटिल वैशिष्ट्ये जसे की गीत, वाद्ये आणि संगीत रचना.
प्रगत वापरणे मशीन शिक्षण तंत्र, ओपनएआयने इतर मॉडेल वापरू शकतील अशा प्रतिनिधित्वामध्ये कच्चा ऑडिओ रूपांतरित करण्याचा मार्ग शोधला आहे.
हा लेख ज्यूकबॉक्स काय करू शकतो, ते कसे कार्य करते आणि तंत्रज्ञानाच्या सध्याच्या मर्यादा स्पष्ट करेल.
ज्यूकबॉक्स एआय म्हणजे काय?
ज्यूकबॉक्स ओपनएआयचे न्यूरल नेट मॉडेल आहे जे गायनासह संगीत तयार करू शकते. मॉडेल विविध शैली आणि कलाकारांच्या शैलींमध्ये संगीत तयार करू शकते.
उदाहरणार्थ, ज्यूकबॉक्स एल्विस प्रेस्लीच्या शैलीत रॉक गाणे किंवा कान्ये वेस्टच्या शैलीत हिप हॉप ट्यून तयार करू शकते. तुम्ही याला भेट देऊ शकता वेबसाइट तुमच्या आवडत्या संगीत कलाकार आणि शैलींचा आवाज कॅप्चर करण्यासाठी मॉडेल किती प्रभावी आहे हे एक्सप्लोर करण्यासाठी.
मॉडेलला इनपुट म्हणून शैली, कलाकार आणि गीत आवश्यक आहेत. हे इनपुट लाखो कलाकार आणि गीताच्या डेटावर प्रशिक्षित मॉडेलचे मार्गदर्शन करते.
ज्यूकबॉक्स कसे कार्य करते?
लाखो गाण्यांवर प्रशिक्षण घेतलेल्या मॉडेलमधून ज्यूकबॉक्स नवीन रॉ ऑडिओ कसा तयार करतो ते पाहू या.
एन्कोडिंग प्रक्रिया
काही म्युझिक जनरेशन मॉडेल्स MIDI प्रशिक्षण डेटा वापरत असताना, ज्यूकबॉक्सला वास्तविक रॉ ऑडिओ फाइलवर प्रशिक्षण दिले जाते. ऑडिओला वेगळ्या जागेत संकुचित करण्यासाठी, ज्यूकबॉक्स VQ-VAE म्हणून ओळखल्या जाणार्या स्वयं-एनकोडर पद्धतीचा वापर करतो.
VQ-VAE म्हणजे व्हेक्टर क्वांटाइज्ड व्हेरिएशनल ऑटोएनकोडर, जे थोडे क्लिष्ट वाटू शकते, तर चला ते खंडित करूया.
प्रथम, आपल्याला येथे काय करायचे आहे हे समजून घेण्याचा प्रयत्न करूया. गीत किंवा शीट म्युझिकच्या तुलनेत, एक कच्ची ऑडिओ फाइल खूपच क्लिष्ट आहे. जर आम्हाला आमच्या मॉडेलने गाण्यांमधून "शिकायला" हवे असेल, तर आम्हाला ते अधिक संकुचित आणि सरलीकृत प्रस्तुतीकरणात रूपांतरित करावे लागेल. मध्ये मशीन शिक्षण, आम्ही याला अंतर्निहित प्रतिनिधित्व म्हणतो सुप्त जागा.
An ऑटोएनकोड एक पर्यवेक्षित शिक्षण तंत्र आहे जे a वापरते मज्जासंस्थेसंबंधीचा नेटवर्क दिलेल्या डेटा वितरणासाठी गैर-रेखीय अव्यक्त प्रतिनिधित्व शोधण्यासाठी. ऑटोएनकोडरमध्ये दोन भाग असतात: एन्कोडर आणि डीकोडर.
अगोदर निर्देश केलेल्या बाबीसंबंधी बोलताना एन्कोडर कच्च्या डेटाच्या संचामधून सुप्त जागा शोधण्याचा प्रयत्न करते, तर डीकोडर त्याच्या मूळ स्वरूपमध्ये पुन्हा संरचित करण्याचा प्रयत्न करण्यासाठी सुप्त प्रेझेंटेशन वापरते. ऑटोएनकोडर मूलत: कच्चा डेटा अशा प्रकारे संकुचित कसा करायचा हे शिकतो ज्यामुळे पुनर्रचना त्रुटी कमी होते.
ऑटोएनकोडर काय करतो हे आता आपल्याला माहित आहे, चला “व्हेरिएशनल” ऑटोएनकोडर म्हणजे काय हे समजून घेण्याचा प्रयत्न करूया. ठराविक ऑटोएनकोडर्सच्या तुलनेत, व्हेरिएशनल ऑटोएनकोडर अव्यक्त जागेच्या अगोदर जोडतात.
गणितात डुबकी न मारता, संभाव्य अगोदर जोडल्याने सुप्त वितरण जवळून कॉम्पॅक्ट केले जाते. VAE आणि VQ-VAE मधील मुख्य फरक हा आहे की नंतरचे एक सतत नसून एक स्वतंत्र अव्यक्त प्रतिनिधित्व वापरते.
प्रत्येक VQ-VAE स्तर स्वतंत्रपणे इनपुट एन्कोड करतो. तळ पातळी एन्कोडिंग उच्च-गुणवत्तेची पुनर्रचना तयार करते. उच्च-स्तरीय एन्कोडिंग आवश्यक संगीत माहिती राखून ठेवते.
ट्रान्सफॉर्मर वापरणे
आता आमच्याकडे VQ-VAE द्वारे एन्कोड केलेले संगीत कोड आहेत, आम्ही प्रयत्न करू शकतो संगीत निर्माण करा या संकुचित स्वतंत्र जागेत.
ज्यूकबॉक्स वापरतो ऑटोरेग्रेसिव्ह ट्रान्सफॉर्मर्स आउटपुट ऑडिओ तयार करण्यासाठी. ट्रान्सफॉर्मर हे न्यूरल नेटवर्कचे एक प्रकार आहेत जे अनुक्रमित डेटासह उत्कृष्ट कार्य करतात. टोकनचा क्रम दिल्यास, ट्रान्सफॉर्मर मॉडेल पुढील टोकनचा अंदाज लावण्याचा प्रयत्न करेल.
ज्यूकबॉक्स स्पार्स ट्रान्सफॉर्मर्सचे सरलीकृत प्रकार वापरते. एकदा सर्व आधीचे मॉडेल प्रशिक्षित झाल्यावर, ट्रान्सफॉर्मर कॉम्प्रेस केलेले कोड तयार करतो जे नंतर व्हीक्यू-व्हीएई डीकोडर वापरून पुन्हा रॉ ऑडिओमध्ये डीकोड केले जातात.
ज्यूकबॉक्समध्ये कलाकार आणि शैली कंडिशनिंग
ज्यूकबॉक्सचे जनरेटिव्ह मॉडेल प्रशिक्षण चरणादरम्यान अतिरिक्त सशर्त सिग्नल प्रदान करून अधिक नियंत्रण करण्यायोग्य बनविले आहे.
प्रथम मॉडेल प्रत्येक गाण्यासाठी कलाकार आणि शैली लेबल्सद्वारे प्रदान केले जातात. हे ऑडिओ प्रेडिक्शनची एन्ट्रॉपी कमी करते आणि मॉडेलला चांगली गुणवत्ता प्राप्त करण्यास अनुमती देते. लेबले आम्हाला एका विशिष्ट शैलीमध्ये मॉडेल चालविण्यास सक्षम करतात.
कलाकार आणि शैली व्यतिरिक्त, प्रशिक्षण काळात वेळेचे संकेत जोडले जातात. या संकेतांमध्ये गाण्याची लांबी, विशिष्ट नमुन्याची सुरुवातीची वेळ आणि संपलेल्या गाण्याचा अंश यांचा समावेश होतो. ही अतिरिक्त माहिती मॉडेलला एकंदर संरचनेवर अवलंबून असणारे ऑडिओ पॅटर्न समजून घेण्यात मदत करते.
उदाहरणार्थ, गाण्याच्या शेवटी लाइव्ह म्युझिकसाठी टाळ्या वाजतात हे मॉडेल शिकू शकते. मॉडेल हे देखील शिकू शकते, उदाहरणार्थ, काही शैलींमध्ये इतरांपेक्षा मोठे वाद्य विभाग असतात.
गीत
मागील विभागात नमूद केलेले कंडिशन मॉडेल विविध प्रकारचे गायन आवाज निर्माण करण्यास सक्षम आहेत. तथापि, हे आवाज विसंगत आणि ओळखण्यायोग्य नसतात.
जेव्हा गीत निर्मितीचा प्रश्न येतो तेव्हा जनरेटिव्ह मॉडेल नियंत्रित करण्यासाठी, संशोधक प्रशिक्षणाच्या वेळी अधिक संदर्भ प्रदान करतात. वास्तविक ऑडिओवरील वेळेनुसार लिरिक डेटा मॅप करण्यात मदत करण्यासाठी, संशोधकांनी वापरले स्लीटर स्वर काढण्यासाठी आणि NUS AutoLyricsAlign गीतांचे शब्द-स्तरीय संरेखन प्राप्त करण्यासाठी.
ज्यूकबॉक्स मॉडेलच्या मर्यादा
ज्यूकबॉक्सच्या मुख्य मर्यादांपैकी एक म्हणजे मोठ्या संगीत रचनांची समज. उदाहरणार्थ, आउटपुटची एक लहान 20-सेकंद क्लिप प्रभावी वाटू शकते, परंतु श्रोत्यांच्या लक्षात येईल की पुनरावृत्ती केलेल्या कोरस आणि श्लोकांची विशिष्ट संगीत रचना अंतिम आउटपुटमध्ये अनुपस्थित आहे.
मॉडेल रेंडर करण्यासाठी देखील मंद आहे. एका मिनिटाचा ऑडिओ पूर्णपणे रेंडर होण्यासाठी अंदाजे 9 तास लागतात. हे व्युत्पन्न होऊ शकणार्या गाण्यांची संख्या मर्यादित करते आणि मॉडेलला परस्परसंवादी अनुप्रयोगांमध्ये वापरण्यापासून प्रतिबंधित करते.
शेवटी, संशोधकांनी नमूद केले आहे की नमुना डेटासेट प्रामुख्याने इंग्रजीमध्ये आहे आणि प्रामुख्याने पाश्चात्य संगीत संमेलने प्रदर्शित करतो. AI संशोधक भविष्यातील संशोधनावर इतर भाषांमध्ये आणि गैर-पाश्चात्य संगीत शैलींमध्ये संगीत निर्माण करण्यावर लक्ष केंद्रित करू शकतात.
निष्कर्ष
ज्यूकबॉक्स प्रकल्प रॉ ऑडिओसारख्या जटिल डेटाचे अचूक अव्यक्त प्रतिनिधित्व तयार करण्यासाठी मशीन लर्निंग मॉडेलच्या वाढत्या क्षमतेवर प्रकाश टाकतो. सारख्या प्रकल्पांमध्ये पाहिल्याप्रमाणे, मजकुरात तत्सम प्रगती होत आहेत जीपीटी-3, आणि प्रतिमा, OpenAI मध्ये पाहिल्याप्रमाणे DALL-E2.
या जागेतील संशोधन प्रभावी असले तरी, बौद्धिक संपदा हक्कांबद्दल आणि या मॉडेल्सचा संपूर्ण सर्जनशील उद्योगांवर होणार्या प्रभावाबाबत अजूनही चिंता आहेत. संशोधक आणि क्रिएटिव्ह यांनी हे मॉडेल सुधारत राहतील याची खात्री करण्यासाठी जवळून सहकार्य करणे सुरू ठेवावे.
भविष्यातील जनरेटिव्ह म्युझिक मॉडेल्स लवकरच संगीतकारांसाठी एक साधन म्हणून किंवा प्रकल्पांसाठी सानुकूल संगीताची आवश्यकता असलेल्या क्रिएटिव्हसाठी अनुप्रयोग म्हणून कार्य करू शकतील.
प्रत्युत्तर द्या