ज्यूकबॉक्स एआई - तंत्रिका नेटवर्क का उपयोग करके संगीत उत्पन्न करना

विषय - सूची[छिपाना][प्रदर्शन]

ज्यूकबॉक्स एआई क्या है?
ज्यूकबॉक्स कैसे काम करता है?+-
ज्यूकबॉक्स मॉडल की सीमाएं
निष्कर्ष

क्या आप अपने पसंदीदा कलाकार से नया रिकॉर्ड बनाने के लिए AI का उपयोग कर सकते हैं?

मशीन लर्निंग में हालिया सफलताओं से पता चला है कि मॉडल अब टेक्स्ट और इमेज जैसे जटिल डेटा को समझने में सक्षम हैं। ओपनएआई का ज्यूकबॉक्स साबित करता है कि संगीत भी एक तंत्रिका नेटवर्क द्वारा सटीक रूप से तैयार किया जा सकता है।

संगीत मॉडल के लिए एक जटिल वस्तु है। आपको टेम्पो, लाउडनेस और पिच जैसी सरल विशेषताओं और गीत, वाद्ययंत्र और संगीत संरचना जैसी अधिक जटिल विशेषताओं दोनों को ध्यान में रखना होगा।

उन्नत का उपयोग करना यंत्र अधिगम तकनीक, OpenAI ने कच्चे ऑडियो को एक ऐसे प्रतिनिधित्व में बदलने का एक तरीका खोजा है जिसका अन्य मॉडल उपयोग कर सकते हैं।

यह लेख बताएगा कि ज्यूकबॉक्स क्या कर सकता है, यह कैसे काम करता है, और प्रौद्योगिकी की वर्तमान सीमाएं।

ज्यूकबॉक्स एआई क्या है?

ज्यूकबॉक्स OpenAI द्वारा एक न्यूरल नेट मॉडल है जो गायन के साथ संगीत उत्पन्न कर सकता है। मॉडल विभिन्न शैलियों और कलाकारों की शैलियों में संगीत का निर्माण कर सकता है।

ज्यूकबॉक्स एआई जाने-माने कलाकारों के गाने तैयार करता है

उदाहरण के लिए, ज्यूकबॉक्स एल्विस प्रेस्ली की शैली में एक रॉक गीत या कान्ये वेस्ट की शैली में एक हिप हॉप धुन का निर्माण कर सकता है। आप इस पर जा सकते हैं वेबसाइट यह पता लगाने के लिए कि आपके पसंदीदा संगीत कलाकारों और शैलियों की आवाज़ को कैप्चर करने में मॉडल कितना प्रभावी है।

मॉडल को इनपुट के रूप में एक शैली, कलाकार और गीत की आवश्यकता होती है। यह इनपुट लाखों कलाकारों और गीत डेटा पर प्रशिक्षित मॉडल का मार्गदर्शन करता है।

ज्यूकबॉक्स कैसे काम करता है?

आइए देखें कि कैसे ज्यूकबॉक्स लाखों गानों पर प्रशिक्षित मॉडल से नया कच्चा ऑडियो उत्पन्न करने का प्रबंधन करता है।

एन्कोडिंग प्रक्रिया

जबकि कुछ संगीत निर्माण मॉडल मिडी प्रशिक्षण डेटा का उपयोग करते हैं, ज्यूकबॉक्स को वास्तविक कच्ची ऑडियो फ़ाइल पर प्रशिक्षित किया जाता है। ऑडियो को असतत स्थान में संपीड़ित करने के लिए, ज्यूकबॉक्स एक ऑटो-एनकोडर दृष्टिकोण का उपयोग करता है जिसे VQ-VAE के रूप में जाना जाता है।

वीक्यू-वीएई वेक्टर क्वांटाइज्ड वेरिएशनल ऑटोएन्कोडर के लिए खड़ा है, जो थोड़ा जटिल लग सकता है, तो चलिए इसे तोड़ते हैं।

सबसे पहले, आइए समझने की कोशिश करें कि हम यहां क्या करना चाहते हैं। गीत या शीट संगीत की तुलना में, एक कच्ची ऑडियो फ़ाइल बहुत अधिक जटिल होती है। यदि हम चाहते हैं कि हमारा मॉडल गानों से "सीख" जाए, तो हमें इसे अधिक संकुचित और सरलीकृत प्रतिनिधित्व में बदलना होगा। में यंत्र अधिगम, हम इस अंतर्निहित प्रतिनिधित्व को कहते हैं a गुप्त स्थान.

गुप्त स्थान नमूना इनपुट का एक संकुचित संस्करण है

An ऑटोएन्कोडर एक पर्यवेक्षित शिक्षण तकनीक है जो a . का उपयोग करती है तंत्रिका नेटवर्क किसी दिए गए डेटा वितरण के लिए गैर-रैखिक गुप्त प्रतिनिधित्व खोजने के लिए। ऑटोएन्कोडर में दो भाग होते हैं: एक एनकोडर और डिकोडर।

RSI एनकोडर कच्चे डेटा के एक सेट से गुप्त स्थान खोजने की कोशिश करता है, जबकि विकोडक अव्यक्त प्रतिनिधित्व का उपयोग इसे अपने मूल स्वरूप में वापस लाने का प्रयास करने के लिए करता है। ऑटोएन्कोडर अनिवार्य रूप से कच्चे डेटा को इस तरह से संपीड़ित करना सीखता है जो पुनर्निर्माण त्रुटि को कम करता है।

अब जब हम जानते हैं कि एक ऑटोएन्कोडर क्या करता है, तो आइए यह समझने की कोशिश करें कि "वैरिएबल" ऑटोएन्कोडर से हमारा क्या मतलब है। विशिष्ट ऑटोएन्कोडर की तुलना में, विभिन्न ऑटोएन्कोडर अव्यक्त स्थान से पहले जोड़ते हैं।

गणित में गोता लगाए बिना, एक संभाव्य पूर्व जोड़ने से अव्यक्त वितरण को बारीकी से संकुचित किया जाता है। वीएई और वीक्यू-वीएई के बीच मुख्य अंतर यह है कि बाद वाला निरंतर एक के बजाय एक असतत अव्यक्त प्रतिनिधित्व का उपयोग करता है। एन्कोडिंग और डिकोडिंग के लिए ज्यूकबॉक्स एआई की वास्तुकला का आरेख

प्रत्येक VQ-VAE स्तर स्वतंत्र रूप से इनपुट को एन्कोड करता है। निचला स्तर एन्कोडिंग उच्चतम गुणवत्ता वाले पुनर्निर्माण का उत्पादन करता है। शीर्ष-स्तरीय एन्कोडिंग आवश्यक संगीत जानकारी को बरकरार रखती है।

ट्रांसफॉर्मर का उपयोग करना

ज्यूकबॉक्स एआई ट्रैक में अगली ऑडियो क्लिप उत्पन्न करने के लिए ट्रांसफॉर्मर का उपयोग करता है

अब जब हमारे पास VQ-VAE द्वारा एन्कोड किए गए संगीत कोड हैं, तो हम कोशिश कर सकते हैं संगीत उत्पन्न करें इस संपीड़ित असतत स्थान में।

ज्यूकबॉक्स का उपयोग करता है ऑटोरेग्रेसिव ट्रांसफॉर्मर आउटपुट ऑडियो बनाने के लिए। ट्रांसफॉर्मर एक प्रकार का तंत्रिका नेटवर्क है जो अनुक्रमित डेटा के साथ सबसे अच्छा काम करता है। टोकन के अनुक्रम को देखते हुए, एक ट्रांसफॉर्मर मॉडल अगले टोकन की भविष्यवाणी करने का प्रयास करेगा।

ज्यूकबॉक्स विरल ट्रांसफॉर्मर के सरलीकृत संस्करण का उपयोग करता है। एक बार सभी पूर्व मॉडलों को प्रशिक्षित करने के बाद, ट्रांसफॉर्मर संपीड़ित कोड उत्पन्न करता है जिसे वीक्यू-वीएई डिकोडर का उपयोग करके कच्चे ऑडियो में वापस डीकोड किया जाता है।

ज्यूकबॉक्स में कलाकार और शैली की कंडीशनिंग

प्रारंभिक ज्यूकबॉक्स एआई मॉडल यह समझने की कोशिश करता है कि एक गीत एक विशिष्ट शैली या कलाकार की तरह कैसा लगता है

प्रशिक्षण चरण के दौरान अतिरिक्त सशर्त संकेत प्रदान करके ज्यूकबॉक्स के जनरेटिव मॉडल को अधिक नियंत्रित किया जाता है।

पहले मॉडल प्रत्येक गीत के लिए कलाकारों और शैली लेबल द्वारा प्रदान किए जाते हैं। यह ऑडियो भविष्यवाणी की एन्ट्रापी को कम करता है और मॉडल को बेहतर गुणवत्ता प्राप्त करने की अनुमति देता है। लेबल हमें एक विशेष शैली में मॉडल को चलाने में भी सक्षम बनाते हैं।

कलाकार और शैली के अलावा, प्रशिक्षण समय के दौरान समय के संकेत जोड़े जाते हैं। इन संकेतों में गीत की लंबाई, किसी विशेष नमूने का प्रारंभ समय और बीत चुके गीत का अंश शामिल होता है। यह अतिरिक्त जानकारी मॉडल को उन ऑडियो पैटर्न को समझने में मदद करती है जो समग्र संरचना पर निर्भर करते हैं।

उदाहरण के लिए, मॉडल सीख सकता है कि लाइव संगीत के लिए तालियां किसी गीत के अंत में होती हैं। उदाहरण के लिए, मॉडल यह भी सीख सकता है कि कुछ शैलियों में दूसरों की तुलना में लंबे वाद्य खंड होते हैं।

गीत

पिछले खंड में उल्लिखित वातानुकूलित मॉडल विभिन्न प्रकार की गायन आवाजों को उत्पन्न करने में सक्षम हैं। हालाँकि, ये आवाज़ें असंगत और पहचानने योग्य नहीं होती हैं।

जब गीत निर्माण की बात आती है तो जनरेटिव मॉडल को नियंत्रित करने के लिए, शोधकर्ता प्रशिक्षण के समय अधिक संदर्भ प्रदान करते हैं। वास्तविक ऑडियो पर गीत डेटा को समय के साथ मैप करने में मदद करने के लिए, शोधकर्ताओं ने इस्तेमाल किया स्पलेटर स्वर निकालने के लिए और एनयूएस ऑटोलिरिक्सएलाइन गीत के शब्द-स्तरीय संरेखण प्राप्त करने के लिए।

ज्यूकबॉक्स मॉडल की सीमाएं

ज्यूकबॉक्स की मुख्य सीमाओं में से एक इसकी बड़ी संगीत संरचनाओं की समझ है। उदाहरण के लिए, आउटपुट की एक छोटी 20-सेकंड की क्लिप प्रभावशाली लग सकती है, लेकिन श्रोता यह देखेंगे कि अंतिम आउटपुट में दोहराए जाने वाले कोरस और छंदों की विशिष्ट संगीत संरचना अनुपस्थित है।

मॉडल रेंडर करने में भी धीमा है। एक मिनट के ऑडियो को पूरी तरह से रेंडर करने में लगभग 9 घंटे का समय लगता है। यह उन गानों की संख्या को सीमित करता है जिन्हें उत्पन्न किया जा सकता है और मॉडल को इंटरैक्टिव अनुप्रयोगों में उपयोग करने से रोकता है।

अंत में, शोधकर्ताओं ने नोट किया है कि नमूना डेटासेट मुख्य रूप से अंग्रेजी में है और मुख्य रूप से पश्चिमी संगीत सम्मेलनों को प्रदर्शित करता है। एआई शोधकर्ता अन्य भाषाओं और गैर-पश्चिमी संगीत शैलियों में संगीत उत्पन्न करने पर भविष्य के शोध पर ध्यान केंद्रित कर सकते हैं।

निष्कर्ष

ज्यूकबॉक्स परियोजना कच्चे ऑडियो जैसे जटिल डेटा का सटीक अव्यक्त प्रतिनिधित्व बनाने के लिए मशीन लर्निंग मॉडल की बढ़ती क्षमता पर प्रकाश डालती है। पाठ में इसी तरह की सफलताएँ हो रही हैं, जैसा कि परियोजनाओं में देखा गया है GPT-3, और छवियां, जैसा कि OpenAI's . में देखा गया है दाल-ई 2.

हालांकि इस क्षेत्र में अनुसंधान प्रभावशाली रहा है, बौद्धिक संपदा अधिकारों के बारे में अभी भी चिंताएं हैं और इन मॉडलों का समग्र रूप से रचनात्मक उद्योगों पर प्रभाव पड़ सकता है। शोधकर्ताओं और क्रिएटिव को यह सुनिश्चित करने के लिए निकट सहयोग जारी रखना चाहिए कि इन मॉडलों में सुधार जारी रह सके।

भविष्य के जनरेटिव संगीत मॉडल जल्द ही संगीतकारों के लिए एक उपकरण के रूप में या क्रिएटिव के लिए एक एप्लिकेशन के रूप में कार्य करने में सक्षम हो सकते हैं, जिन्हें परियोजनाओं के लिए कस्टम संगीत की आवश्यकता होती है।

ज्यूकबॉक्स एआई - तंत्रिका नेटवर्क का उपयोग करके संगीत उत्पन्न करना

ज्यूकबॉक्स एआई क्या है?

ज्यूकबॉक्स कैसे काम करता है?

एन्कोडिंग प्रक्रिया

ट्रांसफॉर्मर का उपयोग करना

ज्यूकबॉक्स में कलाकार और शैली की कंडीशनिंग

गीत

ज्यूकबॉक्स मॉडल की सीमाएं

निष्कर्ष

About डियोन मेनोर

हैशडॉर्क पर अधिक लेख:

अपने AI में मतिभ्रम कैसे कम करें

कोलोसियन बनाम हेजेन

यह फ्यूचर टेक न्यूज़लेटर बेकार नहीं है

ज्यूकबॉक्स एआई - तंत्रिका नेटवर्क का उपयोग करके संगीत उत्पन्न करना

ज्यूकबॉक्स एआई क्या है?

ज्यूकबॉक्स कैसे काम करता है?

एन्कोडिंग प्रक्रिया

ट्रांसफॉर्मर का उपयोग करना

ज्यूकबॉक्स में कलाकार और शैली की कंडीशनिंग

गीत

ज्यूकबॉक्स मॉडल की सीमाएं

निष्कर्ष

About डियोन मेनोर

हैशडॉर्क पर अधिक लेख:

अपने AI में मतिभ्रम कैसे कम करें

सोशल मीडिया के लिए 10 सर्वश्रेष्ठ एआई उपकरण

कोलोसियन बनाम हेजेन

10 सर्वश्रेष्ठ एआई एनिमेटेड वीडियो निर्माता उपकरण

रीडर सहभागिता

एक जवाब लिखें उत्तर रद्द करे

यह फ्यूचर टेक न्यूज़लेटर बेकार नहीं है