क्या आप अपने पसंदीदा कलाकार से नया रिकॉर्ड बनाने के लिए AI का उपयोग कर सकते हैं?
मशीन लर्निंग में हालिया सफलताओं से पता चला है कि मॉडल अब टेक्स्ट और इमेज जैसे जटिल डेटा को समझने में सक्षम हैं। ओपनएआई का ज्यूकबॉक्स साबित करता है कि संगीत भी एक तंत्रिका नेटवर्क द्वारा सटीक रूप से तैयार किया जा सकता है।
संगीत मॉडल के लिए एक जटिल वस्तु है। आपको टेम्पो, लाउडनेस और पिच जैसी सरल विशेषताओं और गीत, वाद्ययंत्र और संगीत संरचना जैसी अधिक जटिल विशेषताओं दोनों को ध्यान में रखना होगा।
उन्नत का उपयोग करना यंत्र अधिगम तकनीक, OpenAI ने कच्चे ऑडियो को एक ऐसे प्रतिनिधित्व में बदलने का एक तरीका खोजा है जिसका अन्य मॉडल उपयोग कर सकते हैं।
यह लेख बताएगा कि ज्यूकबॉक्स क्या कर सकता है, यह कैसे काम करता है, और प्रौद्योगिकी की वर्तमान सीमाएं।
ज्यूकबॉक्स एआई क्या है?
ज्यूकबॉक्स OpenAI द्वारा एक न्यूरल नेट मॉडल है जो गायन के साथ संगीत उत्पन्न कर सकता है। मॉडल विभिन्न शैलियों और कलाकारों की शैलियों में संगीत का निर्माण कर सकता है।
उदाहरण के लिए, ज्यूकबॉक्स एल्विस प्रेस्ली की शैली में एक रॉक गीत या कान्ये वेस्ट की शैली में एक हिप हॉप धुन का निर्माण कर सकता है। आप इस पर जा सकते हैं वेबसाइट यह पता लगाने के लिए कि आपके पसंदीदा संगीत कलाकारों और शैलियों की आवाज़ को कैप्चर करने में मॉडल कितना प्रभावी है।
मॉडल को इनपुट के रूप में एक शैली, कलाकार और गीत की आवश्यकता होती है। यह इनपुट लाखों कलाकारों और गीत डेटा पर प्रशिक्षित मॉडल का मार्गदर्शन करता है।
ज्यूकबॉक्स कैसे काम करता है?
आइए देखें कि कैसे ज्यूकबॉक्स लाखों गानों पर प्रशिक्षित मॉडल से नया कच्चा ऑडियो उत्पन्न करने का प्रबंधन करता है।
एन्कोडिंग प्रक्रिया
जबकि कुछ संगीत निर्माण मॉडल मिडी प्रशिक्षण डेटा का उपयोग करते हैं, ज्यूकबॉक्स को वास्तविक कच्ची ऑडियो फ़ाइल पर प्रशिक्षित किया जाता है। ऑडियो को असतत स्थान में संपीड़ित करने के लिए, ज्यूकबॉक्स एक ऑटो-एनकोडर दृष्टिकोण का उपयोग करता है जिसे VQ-VAE के रूप में जाना जाता है।
वीक्यू-वीएई वेक्टर क्वांटाइज्ड वेरिएशनल ऑटोएन्कोडर के लिए खड़ा है, जो थोड़ा जटिल लग सकता है, तो चलिए इसे तोड़ते हैं।
सबसे पहले, आइए समझने की कोशिश करें कि हम यहां क्या करना चाहते हैं। गीत या शीट संगीत की तुलना में, एक कच्ची ऑडियो फ़ाइल बहुत अधिक जटिल होती है। यदि हम चाहते हैं कि हमारा मॉडल गानों से "सीख" जाए, तो हमें इसे अधिक संकुचित और सरलीकृत प्रतिनिधित्व में बदलना होगा। में यंत्र अधिगम, हम इस अंतर्निहित प्रतिनिधित्व को कहते हैं a गुप्त स्थान.
An ऑटोएन्कोडर एक पर्यवेक्षित शिक्षण तकनीक है जो a . का उपयोग करती है तंत्रिका नेटवर्क किसी दिए गए डेटा वितरण के लिए गैर-रैखिक गुप्त प्रतिनिधित्व खोजने के लिए। ऑटोएन्कोडर में दो भाग होते हैं: एक एनकोडर और डिकोडर।
RSI एनकोडर कच्चे डेटा के एक सेट से गुप्त स्थान खोजने की कोशिश करता है, जबकि विकोडक अव्यक्त प्रतिनिधित्व का उपयोग इसे अपने मूल स्वरूप में वापस लाने का प्रयास करने के लिए करता है। ऑटोएन्कोडर अनिवार्य रूप से कच्चे डेटा को इस तरह से संपीड़ित करना सीखता है जो पुनर्निर्माण त्रुटि को कम करता है।
अब जब हम जानते हैं कि एक ऑटोएन्कोडर क्या करता है, तो आइए यह समझने की कोशिश करें कि "वैरिएबल" ऑटोएन्कोडर से हमारा क्या मतलब है। विशिष्ट ऑटोएन्कोडर की तुलना में, विभिन्न ऑटोएन्कोडर अव्यक्त स्थान से पहले जोड़ते हैं।
गणित में गोता लगाए बिना, एक संभाव्य पूर्व जोड़ने से अव्यक्त वितरण को बारीकी से संकुचित किया जाता है। वीएई और वीक्यू-वीएई के बीच मुख्य अंतर यह है कि बाद वाला निरंतर एक के बजाय एक असतत अव्यक्त प्रतिनिधित्व का उपयोग करता है।
प्रत्येक VQ-VAE स्तर स्वतंत्र रूप से इनपुट को एन्कोड करता है। निचला स्तर एन्कोडिंग उच्चतम गुणवत्ता वाले पुनर्निर्माण का उत्पादन करता है। शीर्ष-स्तरीय एन्कोडिंग आवश्यक संगीत जानकारी को बरकरार रखती है।
ट्रांसफॉर्मर का उपयोग करना
अब जब हमारे पास VQ-VAE द्वारा एन्कोड किए गए संगीत कोड हैं, तो हम कोशिश कर सकते हैं संगीत उत्पन्न करें इस संपीड़ित असतत स्थान में।
ज्यूकबॉक्स का उपयोग करता है ऑटोरेग्रेसिव ट्रांसफॉर्मर आउटपुट ऑडियो बनाने के लिए। ट्रांसफॉर्मर एक प्रकार का तंत्रिका नेटवर्क है जो अनुक्रमित डेटा के साथ सबसे अच्छा काम करता है। टोकन के अनुक्रम को देखते हुए, एक ट्रांसफॉर्मर मॉडल अगले टोकन की भविष्यवाणी करने का प्रयास करेगा।
ज्यूकबॉक्स विरल ट्रांसफॉर्मर के सरलीकृत संस्करण का उपयोग करता है। एक बार सभी पूर्व मॉडलों को प्रशिक्षित करने के बाद, ट्रांसफॉर्मर संपीड़ित कोड उत्पन्न करता है जिसे वीक्यू-वीएई डिकोडर का उपयोग करके कच्चे ऑडियो में वापस डीकोड किया जाता है।
ज्यूकबॉक्स में कलाकार और शैली की कंडीशनिंग
प्रशिक्षण चरण के दौरान अतिरिक्त सशर्त संकेत प्रदान करके ज्यूकबॉक्स के जनरेटिव मॉडल को अधिक नियंत्रित किया जाता है।
पहले मॉडल प्रत्येक गीत के लिए कलाकारों और शैली लेबल द्वारा प्रदान किए जाते हैं। यह ऑडियो भविष्यवाणी की एन्ट्रापी को कम करता है और मॉडल को बेहतर गुणवत्ता प्राप्त करने की अनुमति देता है। लेबल हमें एक विशेष शैली में मॉडल को चलाने में भी सक्षम बनाते हैं।
कलाकार और शैली के अलावा, प्रशिक्षण समय के दौरान समय के संकेत जोड़े जाते हैं। इन संकेतों में गीत की लंबाई, किसी विशेष नमूने का प्रारंभ समय और बीत चुके गीत का अंश शामिल होता है। यह अतिरिक्त जानकारी मॉडल को उन ऑडियो पैटर्न को समझने में मदद करती है जो समग्र संरचना पर निर्भर करते हैं।
उदाहरण के लिए, मॉडल सीख सकता है कि लाइव संगीत के लिए तालियां किसी गीत के अंत में होती हैं। उदाहरण के लिए, मॉडल यह भी सीख सकता है कि कुछ शैलियों में दूसरों की तुलना में लंबे वाद्य खंड होते हैं।
गीत
पिछले खंड में उल्लिखित वातानुकूलित मॉडल विभिन्न प्रकार की गायन आवाजों को उत्पन्न करने में सक्षम हैं। हालाँकि, ये आवाज़ें असंगत और पहचानने योग्य नहीं होती हैं।
जब गीत निर्माण की बात आती है तो जनरेटिव मॉडल को नियंत्रित करने के लिए, शोधकर्ता प्रशिक्षण के समय अधिक संदर्भ प्रदान करते हैं। वास्तविक ऑडियो पर गीत डेटा को समय के साथ मैप करने में मदद करने के लिए, शोधकर्ताओं ने इस्तेमाल किया स्पलेटर स्वर निकालने के लिए और एनयूएस ऑटोलिरिक्सएलाइन गीत के शब्द-स्तरीय संरेखण प्राप्त करने के लिए।
ज्यूकबॉक्स मॉडल की सीमाएं
ज्यूकबॉक्स की मुख्य सीमाओं में से एक इसकी बड़ी संगीत संरचनाओं की समझ है। उदाहरण के लिए, आउटपुट की एक छोटी 20-सेकंड की क्लिप प्रभावशाली लग सकती है, लेकिन श्रोता यह देखेंगे कि अंतिम आउटपुट में दोहराए जाने वाले कोरस और छंदों की विशिष्ट संगीत संरचना अनुपस्थित है।
मॉडल रेंडर करने में भी धीमा है। एक मिनट के ऑडियो को पूरी तरह से रेंडर करने में लगभग 9 घंटे का समय लगता है। यह उन गानों की संख्या को सीमित करता है जिन्हें उत्पन्न किया जा सकता है और मॉडल को इंटरैक्टिव अनुप्रयोगों में उपयोग करने से रोकता है।
अंत में, शोधकर्ताओं ने नोट किया है कि नमूना डेटासेट मुख्य रूप से अंग्रेजी में है और मुख्य रूप से पश्चिमी संगीत सम्मेलनों को प्रदर्शित करता है। एआई शोधकर्ता अन्य भाषाओं और गैर-पश्चिमी संगीत शैलियों में संगीत उत्पन्न करने पर भविष्य के शोध पर ध्यान केंद्रित कर सकते हैं।
निष्कर्ष
ज्यूकबॉक्स परियोजना कच्चे ऑडियो जैसे जटिल डेटा का सटीक अव्यक्त प्रतिनिधित्व बनाने के लिए मशीन लर्निंग मॉडल की बढ़ती क्षमता पर प्रकाश डालती है। पाठ में इसी तरह की सफलताएँ हो रही हैं, जैसा कि परियोजनाओं में देखा गया है GPT-3, और छवियां, जैसा कि OpenAI's . में देखा गया है दाल-ई 2.
हालांकि इस क्षेत्र में अनुसंधान प्रभावशाली रहा है, बौद्धिक संपदा अधिकारों के बारे में अभी भी चिंताएं हैं और इन मॉडलों का समग्र रूप से रचनात्मक उद्योगों पर प्रभाव पड़ सकता है। शोधकर्ताओं और क्रिएटिव को यह सुनिश्चित करने के लिए निकट सहयोग जारी रखना चाहिए कि इन मॉडलों में सुधार जारी रह सके।
भविष्य के जनरेटिव संगीत मॉडल जल्द ही संगीतकारों के लिए एक उपकरण के रूप में या क्रिएटिव के लिए एक एप्लिकेशन के रूप में कार्य करने में सक्षम हो सकते हैं, जिन्हें परियोजनाओं के लिए कस्टम संगीत की आवश्यकता होती है।
एक जवाब लिखें