के तपाईं आफ्नो मनपर्ने कलाकारबाट नयाँ रेकर्ड सिर्जना गर्न AI प्रयोग गर्न सक्नुहुन्छ?
मेसिन लर्निङमा हालैका सफलताहरूले देखाएको छ कि मोडेलहरू अब जटिल डेटा जस्तै पाठ र छविहरू बुझ्न सक्षम छन्। ओपनएआईको जुकबक्सले संगीतलाई पनि न्यूरल नेटवर्कद्वारा ठ्याक्कै मोडेल गर्न सकिन्छ भनेर प्रमाणित गर्छ।
संगीत मोडेलको लागि एक जटिल वस्तु हो। तपाईंले टेम्पो, लाउडनेस, र पिच जस्ता साधारण सुविधाहरू र गीत, वाद्ययन्त्र र संगीत संरचना जस्ता थप जटिल सुविधाहरू दुवैलाई ध्यानमा राख्नुपर्छ।
उन्नत प्रयोग गर्दै मेशिन सिकाइ प्रविधिहरू, OpenAI ले अन्य मोडेलहरू प्रयोग गर्न सक्ने प्रतिनिधित्वमा कच्चा अडियो रूपान्तरण गर्ने तरिका फेला पारेको छ।
यस लेखले Jukebox के गर्न सक्छ, यसले कसरी काम गर्छ, र प्रविधिको हालको सीमाहरू व्याख्या गर्नेछ।
Jukebox AI के हो?
जुकेबक्स OpenAI द्वारा एक न्यूरल नेट मोडेल हो जसले गायन संग संगीत उत्पन्न गर्न सक्छ। मोडेलले विभिन्न विधा र कलाकार शैलीहरूमा संगीत उत्पादन गर्न सक्छ।
उदाहरणका लागि, जुकबक्सले एल्विस प्रेस्लीको शैलीमा रक गीत वा कान्ये वेस्टको शैलीमा हिप हप धुन उत्पादन गर्न सक्छ। तपाईं यो भ्रमण गर्न सक्नुहुन्छ वेबसाइट तपाईंको मनपर्ने संगीत कलाकार र विधाहरूको आवाज क्याप्चर गर्न मोडेल कत्तिको प्रभावकारी छ भनेर पत्ता लगाउन।
मोडेललाई इनपुटको रूपमा विधा, कलाकार र गीत चाहिन्छ। यो इनपुटले लाखौं कलाकार र गीत डेटामा प्रशिक्षित मोडेललाई मार्गदर्शन गर्दछ।
Jukebox कसरी काम गर्छ?
जुकबक्सले कसरी लाखौं गीतहरूमा तालिम प्राप्त मोडेलबाट नयाँ कच्चा अडियो उत्पन्न गर्न व्यवस्थापन गर्छ हेरौं।
एन्कोडिङ प्रक्रिया
केही संगीत उत्पादन मोडेलहरूले MIDI प्रशिक्षण डेटा प्रयोग गर्दा, Jukebox लाई वास्तविक कच्चा अडियो फाइलमा तालिम दिइएको छ। अडियोलाई छुट्टै ठाउँमा कम्प्रेस गर्न, जुकबक्सले VQ-VAE भनेर चिनिने अटो-इन्कोडर दृष्टिकोण प्रयोग गर्दछ।
VQ-VAE भेक्टर क्वान्टाइज्ड भेरिएशनल अटोएनकोडरको लागि खडा छ, जुन अलि जटिल लाग्न सक्छ, त्यसैले यसलाई तोडौं।
पहिले, हामी यहाँ के गर्न चाहन्छौं भनेर बुझ्न प्रयास गरौं। गीत वा पाना संगीतको तुलनामा, एक कच्चा अडियो फाइल धेरै जटिल छ। यदि हामी हाम्रो मोडेललाई गीतहरूबाट "सिकाउन" चाहन्छौं भने, हामीले यसलाई थप संकुचित र सरलीकृत प्रतिनिधित्वमा रूपान्तरण गर्नुपर्छ। मा मेशिन सिकाइ, हामी यसलाई अन्तर्निहित प्रतिनिधित्व a भन्छौं सुप्त ठाउँ.
An autoencode एक असुरक्षित सिकाउने प्रविधि हो जुन प्रयोग गर्दछ तंत्रिका सञ्जाल दिइएको डाटा वितरणको लागि गैर-रैखिक अव्यक्त प्रतिनिधित्वहरू फेला पार्न। स्वत: एन्कोडरमा दुई भागहरू हुन्छन्: एन्कोडर र डिकोडर।
यो एन्कोडर कच्चा डाटाको सेटबाट अव्यक्त ठाउँ फेला पार्न प्रयास गर्दछ जबकि Decoder यसलाई यसको मूल ढाँचामा पुन: निर्माण गर्न प्रयास गर्न अव्यक्त प्रतिनिधित्व प्रयोग गर्दछ। अटोइन्कोडरले अनिवार्य रूपमा कच्चा डाटालाई कसरी कम्प्रेस गर्ने भनेर सिक्छ जसले पुनर्निर्माण त्रुटिलाई कम गर्छ।
अब जब हामीलाई थाहा छ कि एक autoencoder के गर्छ, हामी बुझ्न कोशिस गरौं कि हामीले "variational" autoencoder को अर्थ के हो। सामान्य अटोइन्कोडरहरूको तुलनामा, भिन्नतात्मक अटोइन्कोडरहरूले अव्यक्त ठाउँको अगाडि थप्छन्।
गणितमा डुबाइ नगरिकन, सम्भावित पूर्व थप्दा सुप्त वितरणलाई नजिकबाट संकुचित राख्छ। VAE र VQ-VAE बीचको मुख्य भिन्नता यो हो कि पछिल्लोले निरन्तरको सट्टा एक अलग अव्यक्त प्रतिनिधित्व प्रयोग गर्दछ।
प्रत्येक VQ-VAE स्तर स्वतन्त्र रूपमा इनपुट इन्कोड गर्दछ। तल्लो तहको इन्कोडिङले उच्च गुणस्तरको पुनर्निर्माण उत्पादन गर्छ। शीर्ष-स्तर एन्कोडिङले आवश्यक संगीत जानकारी राख्छ।
ट्रान्सफर्मर प्रयोग गर्दै
अब हामीसँग VQ-VAE द्वारा एन्कोड गरिएको संगीत कोडहरू छन्, हामी प्रयास गर्न सक्छौं संगीत उत्पन्न गर्नुहोस् यस संकुचित असतत ठाउँमा।
Jukebox प्रयोग गर्दछ autoregressive ट्रान्सफर्मर आउटपुट अडियो सिर्जना गर्न। ट्रान्सफर्मरहरू एक प्रकारको न्यूरल नेटवर्क हुन् जसले क्रमबद्ध डाटासँग राम्रोसँग काम गर्दछ। टोकनहरूको अनुक्रम दिईएको, एक ट्रान्सफर्मर मोडेलले अर्को टोकन भविष्यवाणी गर्ने प्रयास गर्नेछ।
जुकबक्सले स्पार्स ट्रान्सफर्मरको सरल संस्करण प्रयोग गर्दछ। एक पटक सबै अघिल्लो मोडेलहरू प्रशिक्षित भएपछि, ट्रान्सफर्मरले संकुचित कोडहरू उत्पन्न गर्दछ जुन त्यसपछि VQ-VAE डिकोडर प्रयोग गरेर कच्चा अडियोमा डिकोड गरिन्छ।
Jukebox मा कलाकार र विधा कन्डिसन
जुकबक्सको जेनेरेटिभ मोडेललाई प्रशिक्षण चरणमा अतिरिक्त सशर्त संकेतहरू प्रदान गरेर थप नियन्त्रणयोग्य बनाइएको छ।
पहिलो मोडेलहरू प्रत्येक गीतका लागि कलाकारहरू र विधाका लेबलहरूद्वारा प्रदान गरिन्छ। यसले अडियो भविष्यवाणीको एन्ट्रोपी कम गर्छ र मोडेललाई राम्रो गुणस्तर प्राप्त गर्न अनुमति दिन्छ। लेबलहरूले हामीलाई एक विशेष शैलीमा मोडेल स्टेयर गर्न सक्षम बनाउँछ।
कलाकार र विधा बाहेक, प्रशिक्षण समयमा समय संकेतहरू थपिन्छन्। यी सङ्केतहरूमा गीतको लम्बाइ, एउटा विशेष नमूनाको सुरु हुने समय, र बितिसकेको गीतको अंश समावेश हुन्छ। यो अतिरिक्त जानकारीले मोडेललाई समग्र संरचनामा भर पर्ने अडियो ढाँचाहरू बुझ्न मद्दत गर्छ।
उदाहरणका लागि, मोडेलले गीतको अन्त्यमा लाइभ सङ्गीतको लागि ताली बज्ने कुरा सिक्न सक्छ। मोडेलले पनि सिक्न सक्छ, उदाहरणका लागि, केही विधाहरूमा अन्य भन्दा लामो वाद्य खण्डहरू छन्।
गीत
अघिल्लो खण्डमा उल्लेख गरिएका सर्त मोडेलहरू विभिन्न प्रकारका गाउने आवाजहरू उत्पन्न गर्न सक्षम छन्। यद्यपि, यी आवाजहरू असंगत र अपरिचित हुन्छन्।
उत्पादन मोडेललाई नियन्त्रण गर्न जब यो गीतको पुस्ताको कुरा आउँछ, अनुसन्धानकर्ताहरूले प्रशिक्षण समयमा थप सन्दर्भ प्रदान गर्छन्। वास्तविक अडियोमा लिरिक डेटा नक्सा गर्न मद्दत गर्न, अनुसन्धानकर्ताहरूले प्रयोग गरे स्प्लिटर स्वर निकाल्न र NUS AutoLyricsAlign गीतको शब्द-स्तर पङ्क्तिबद्धता प्राप्त गर्न।
Jukebox मोडेल को सीमाहरु
Jukebox को मुख्य सीमितता मध्ये एक ठूलो संगीत संरचना को समझ हो। उदाहरणको लागि, आउटपुटको छोटो 20-सेकेन्ड क्लिप प्रभावशाली लाग्न सक्छ, तर श्रोताहरूले याद गर्नेछन् कि दोहोर्याउने कोरस र पदहरूको विशिष्ट संगीत संरचना अन्तिम आउटपुटमा अनुपस्थित छ।
मोडेल पनि रेन्डर गर्न ढिलो छ। एक मिनेटको अडियो पूर्ण रूपमा प्रस्तुत गर्न लगभग ९ घण्टा लाग्छ। यसले उत्पन्न गर्न सकिने गीतहरूको संख्यालाई सीमित गर्दछ र मोडेललाई अन्तरक्रियात्मक अनुप्रयोगहरूमा प्रयोग हुनबाट रोक्छ।
अन्तमा, शोधकर्ताहरूले उल्लेख गरेका छन् कि नमूना डेटासेट मुख्य रूपमा अंग्रेजीमा छ र मुख्य रूपमा पश्चिमी संगीत सम्मेलनहरू प्रदर्शन गर्दछ। एआई अनुसन्धानकर्ताहरूले अन्य भाषाहरूमा र गैर-पश्चिमी संगीत शैलीहरूमा सङ्गीत सिर्जना गर्न भविष्यको अनुसन्धानलाई केन्द्रित गर्न सक्छन्।
निष्कर्ष
जुकबक्स परियोजनाले कच्चा अडियो जस्ता जटिल डाटाको सही अव्यक्त प्रतिनिधित्व सिर्जना गर्न मेसिन लर्निङ मोडेलहरूको बढ्दो क्षमतालाई हाइलाइट गर्दछ। यस्तै सफलताहरू पाठमा भइरहेका छन्, जस्तै परियोजनाहरूमा देखिएका छन् GPT-3, र तस्बिरहरू, जस्तै OpenAI मा देखाइएको छ DALL-E2.
यस ठाउँमा भएको अनुसन्धान प्रभावशाली भएतापनि बौद्धिक सम्पत्ति अधिकार र यी मोडेलहरूले समग्र रूपमा सिर्जनात्मक उद्योगहरूमा पार्न सक्ने प्रभावबारे अझै चिन्ताहरू छन्। शोधकर्ताहरू र रचनात्मकहरूले यी मोडेलहरू सुधार गर्न जारी राख्न सक्छन् भन्ने कुरा सुनिश्चित गर्न नजिकबाट सहकार्य गर्न जारी राख्नुपर्छ।
भविष्यका जेनेरेटिभ सङ्गीत मोडेलहरूले चाँडै नै संगीतकारहरूका लागि वा परियोजनाहरूका लागि अनुकूलन सङ्गीत चाहिने रचनात्मकहरूका लागि एउटा अनुप्रयोगको रूपमा कार्य गर्न सक्नेछन्।
जवाफ छाड्नुस्