Jukebox AI - न्यूरल नेटवर्कहरू प्रयोग गरेर संगीत उत्पन्न गर्दै

विषयसूची[लुकाउनुहोस्][देखाउनु]

Jukebox AI के हो?
Jukebox कसरी काम गर्छ?+-
Jukebox मोडेल को सीमाहरु
निष्कर्ष

के तपाईं आफ्नो मनपर्ने कलाकारबाट नयाँ रेकर्ड सिर्जना गर्न AI प्रयोग गर्न सक्नुहुन्छ?

मेसिन लर्निङमा हालैका सफलताहरूले देखाएको छ कि मोडेलहरू अब जटिल डेटा जस्तै पाठ र छविहरू बुझ्न सक्षम छन्। ओपनएआईको जुकबक्सले संगीतलाई पनि न्यूरल नेटवर्कद्वारा ठ्याक्कै मोडेल गर्न सकिन्छ भनेर प्रमाणित गर्छ।

संगीत मोडेलको लागि एक जटिल वस्तु हो। तपाईंले टेम्पो, लाउडनेस, र पिच जस्ता साधारण सुविधाहरू र गीत, वाद्ययन्त्र र संगीत संरचना जस्ता थप जटिल सुविधाहरू दुवैलाई ध्यानमा राख्नुपर्छ।

उन्नत प्रयोग गर्दै मेशिन सिकाइ प्रविधिहरू, OpenAI ले अन्य मोडेलहरू प्रयोग गर्न सक्ने प्रतिनिधित्वमा कच्चा अडियो रूपान्तरण गर्ने तरिका फेला पारेको छ।

यस लेखले Jukebox के गर्न सक्छ, यसले कसरी काम गर्छ, र प्रविधिको हालको सीमाहरू व्याख्या गर्नेछ।

Jukebox AI के हो?

जुकेबक्स OpenAI द्वारा एक न्यूरल नेट मोडेल हो जसले गायन संग संगीत उत्पन्न गर्न सक्छ। मोडेलले विभिन्न विधा र कलाकार शैलीहरूमा संगीत उत्पादन गर्न सक्छ।

Jukebox AI ले ज्ञात कलाकारहरूबाट गीतहरू उत्पन्न गर्दछ

उदाहरणका लागि, जुकबक्सले एल्विस प्रेस्लीको शैलीमा रक गीत वा कान्ये वेस्टको शैलीमा हिप हप धुन उत्पादन गर्न सक्छ। तपाईं यो भ्रमण गर्न सक्नुहुन्छ वेबसाइट तपाईंको मनपर्ने संगीत कलाकार र विधाहरूको आवाज क्याप्चर गर्न मोडेल कत्तिको प्रभावकारी छ भनेर पत्ता लगाउन।

मोडेललाई इनपुटको रूपमा विधा, कलाकार र गीत चाहिन्छ। यो इनपुटले लाखौं कलाकार र गीत डेटामा प्रशिक्षित मोडेललाई मार्गदर्शन गर्दछ।

Jukebox कसरी काम गर्छ?

जुकबक्सले कसरी लाखौं गीतहरूमा तालिम प्राप्त मोडेलबाट नयाँ कच्चा अडियो उत्पन्न गर्न व्यवस्थापन गर्छ हेरौं।

एन्कोडिङ प्रक्रिया

केही संगीत उत्पादन मोडेलहरूले MIDI प्रशिक्षण डेटा प्रयोग गर्दा, Jukebox लाई वास्तविक कच्चा अडियो फाइलमा तालिम दिइएको छ। अडियोलाई छुट्टै ठाउँमा कम्प्रेस गर्न, जुकबक्सले VQ-VAE भनेर चिनिने अटो-इन्कोडर दृष्टिकोण प्रयोग गर्दछ।

VQ-VAE भेक्टर क्वान्टाइज्ड भेरिएशनल अटोएनकोडरको लागि खडा छ, जुन अलि जटिल लाग्न सक्छ, त्यसैले यसलाई तोडौं।

पहिले, हामी यहाँ के गर्न चाहन्छौं भनेर बुझ्न प्रयास गरौं। गीत वा पाना संगीतको तुलनामा, एक कच्चा अडियो फाइल धेरै जटिल छ। यदि हामी हाम्रो मोडेललाई गीतहरूबाट "सिकाउन" चाहन्छौं भने, हामीले यसलाई थप संकुचित र सरलीकृत प्रतिनिधित्वमा रूपान्तरण गर्नुपर्छ। मा मेशिन सिकाइ, हामी यसलाई अन्तर्निहित प्रतिनिधित्व a भन्छौं सुप्त ठाउँ.

लेटेन्ट स्पेस नमूना इनपुटको संकुचित संस्करण हो

An autoencode एक असुरक्षित सिकाउने प्रविधि हो जुन प्रयोग गर्दछ तंत्रिका सञ्जाल दिइएको डाटा वितरणको लागि गैर-रैखिक अव्यक्त प्रतिनिधित्वहरू फेला पार्न। स्वत: एन्कोडरमा दुई भागहरू हुन्छन्: एन्कोडर र डिकोडर।

यो एन्कोडर कच्चा डाटाको सेटबाट अव्यक्त ठाउँ फेला पार्न प्रयास गर्दछ जबकि Decoder यसलाई यसको मूल ढाँचामा पुन: निर्माण गर्न प्रयास गर्न अव्यक्त प्रतिनिधित्व प्रयोग गर्दछ। अटोइन्कोडरले अनिवार्य रूपमा कच्चा डाटालाई कसरी कम्प्रेस गर्ने भनेर सिक्छ जसले पुनर्निर्माण त्रुटिलाई कम गर्छ।

अब जब हामीलाई थाहा छ कि एक autoencoder के गर्छ, हामी बुझ्न कोशिस गरौं कि हामीले "variational" autoencoder को अर्थ के हो। सामान्य अटोइन्कोडरहरूको तुलनामा, भिन्नतात्मक अटोइन्कोडरहरूले अव्यक्त ठाउँको अगाडि थप्छन्।

गणितमा डुबाइ नगरिकन, सम्भावित पूर्व थप्दा सुप्त वितरणलाई नजिकबाट संकुचित राख्छ। VAE र VQ-VAE बीचको मुख्य भिन्नता यो हो कि पछिल्लोले निरन्तरको सट्टा एक अलग अव्यक्त प्रतिनिधित्व प्रयोग गर्दछ। एन्कोडिङ र डिकोडिङका लागि ज्यूकबक्स एआईको वास्तुकलाको रेखाचित्र

प्रत्येक VQ-VAE स्तर स्वतन्त्र रूपमा इनपुट इन्कोड गर्दछ। तल्लो तहको इन्कोडिङले उच्च गुणस्तरको पुनर्निर्माण उत्पादन गर्छ। शीर्ष-स्तर एन्कोडिङले आवश्यक संगीत जानकारी राख्छ।

ट्रान्सफर्मर प्रयोग गर्दै

Jukebox AI ले ट्र्याकमा अर्को अडियो क्लिप उत्पन्न गर्न ट्रान्सफर्मरहरू प्रयोग गर्दछ

अब हामीसँग VQ-VAE द्वारा एन्कोड गरिएको संगीत कोडहरू छन्, हामी प्रयास गर्न सक्छौं संगीत उत्पन्न गर्नुहोस् यस संकुचित असतत ठाउँमा।

Jukebox प्रयोग गर्दछ autoregressive ट्रान्सफर्मर आउटपुट अडियो सिर्जना गर्न। ट्रान्सफर्मरहरू एक प्रकारको न्यूरल नेटवर्क हुन् जसले क्रमबद्ध डाटासँग राम्रोसँग काम गर्दछ। टोकनहरूको अनुक्रम दिईएको, एक ट्रान्सफर्मर मोडेलले अर्को टोकन भविष्यवाणी गर्ने प्रयास गर्नेछ।

जुकबक्सले स्पार्स ट्रान्सफर्मरको सरल संस्करण प्रयोग गर्दछ। एक पटक सबै अघिल्लो मोडेलहरू प्रशिक्षित भएपछि, ट्रान्सफर्मरले संकुचित कोडहरू उत्पन्न गर्दछ जुन त्यसपछि VQ-VAE डिकोडर प्रयोग गरेर कच्चा अडियोमा डिकोड गरिन्छ।

Jukebox मा कलाकार र विधा कन्डिसन

प्रारम्भिक ज्यूकबक्स एआई मोडेलले गीत कसरी एक विशिष्ट विधा वा कलाकार जस्तो सुनिन्छ भनेर बुझ्न प्रयास गर्दछ

जुकबक्सको जेनेरेटिभ मोडेललाई प्रशिक्षण चरणमा अतिरिक्त सशर्त संकेतहरू प्रदान गरेर थप नियन्त्रणयोग्य बनाइएको छ।

पहिलो मोडेलहरू प्रत्येक गीतका लागि कलाकारहरू र विधाका लेबलहरूद्वारा प्रदान गरिन्छ। यसले अडियो भविष्यवाणीको एन्ट्रोपी कम गर्छ र मोडेललाई राम्रो गुणस्तर प्राप्त गर्न अनुमति दिन्छ। लेबलहरूले हामीलाई एक विशेष शैलीमा मोडेल स्टेयर गर्न सक्षम बनाउँछ।

कलाकार र विधा बाहेक, प्रशिक्षण समयमा समय संकेतहरू थपिन्छन्। यी सङ्केतहरूमा गीतको लम्बाइ, एउटा विशेष नमूनाको सुरु हुने समय, र बितिसकेको गीतको अंश समावेश हुन्छ। यो अतिरिक्त जानकारीले मोडेललाई समग्र संरचनामा भर पर्ने अडियो ढाँचाहरू बुझ्न मद्दत गर्छ।

उदाहरणका लागि, मोडेलले गीतको अन्त्यमा लाइभ सङ्गीतको लागि ताली बज्ने कुरा सिक्न सक्छ। मोडेलले पनि सिक्न सक्छ, उदाहरणका लागि, केही विधाहरूमा अन्य भन्दा लामो वाद्य खण्डहरू छन्।

गीत

अघिल्लो खण्डमा उल्लेख गरिएका सर्त मोडेलहरू विभिन्न प्रकारका गाउने आवाजहरू उत्पन्न गर्न सक्षम छन्। यद्यपि, यी आवाजहरू असंगत र अपरिचित हुन्छन्।

उत्पादन मोडेललाई नियन्त्रण गर्न जब यो गीतको पुस्ताको कुरा आउँछ, अनुसन्धानकर्ताहरूले प्रशिक्षण समयमा थप सन्दर्भ प्रदान गर्छन्। वास्तविक अडियोमा लिरिक डेटा नक्सा गर्न मद्दत गर्न, अनुसन्धानकर्ताहरूले प्रयोग गरे स्प्लिटर स्वर निकाल्न र NUS AutoLyricsAlign गीतको शब्द-स्तर पङ्क्तिबद्धता प्राप्त गर्न।

Jukebox मोडेल को सीमाहरु

Jukebox को मुख्य सीमितता मध्ये एक ठूलो संगीत संरचना को समझ हो। उदाहरणको लागि, आउटपुटको छोटो 20-सेकेन्ड क्लिप प्रभावशाली लाग्न सक्छ, तर श्रोताहरूले याद गर्नेछन् कि दोहोर्याउने कोरस र पदहरूको विशिष्ट संगीत संरचना अन्तिम आउटपुटमा अनुपस्थित छ।

मोडेल पनि रेन्डर गर्न ढिलो छ। एक मिनेटको अडियो पूर्ण रूपमा प्रस्तुत गर्न लगभग ९ घण्टा लाग्छ। यसले उत्पन्न गर्न सकिने गीतहरूको संख्यालाई सीमित गर्दछ र मोडेललाई अन्तरक्रियात्मक अनुप्रयोगहरूमा प्रयोग हुनबाट रोक्छ।

अन्तमा, शोधकर्ताहरूले उल्लेख गरेका छन् कि नमूना डेटासेट मुख्य रूपमा अंग्रेजीमा छ र मुख्य रूपमा पश्चिमी संगीत सम्मेलनहरू प्रदर्शन गर्दछ। एआई अनुसन्धानकर्ताहरूले अन्य भाषाहरूमा र गैर-पश्चिमी संगीत शैलीहरूमा सङ्गीत सिर्जना गर्न भविष्यको अनुसन्धानलाई केन्द्रित गर्न सक्छन्।

निष्कर्ष

जुकबक्स परियोजनाले कच्चा अडियो जस्ता जटिल डाटाको सही अव्यक्त प्रतिनिधित्व सिर्जना गर्न मेसिन लर्निङ मोडेलहरूको बढ्दो क्षमतालाई हाइलाइट गर्दछ। यस्तै सफलताहरू पाठमा भइरहेका छन्, जस्तै परियोजनाहरूमा देखिएका छन् GPT-3, र तस्बिरहरू, जस्तै OpenAI मा देखाइएको छ DALL-E2.

यस ठाउँमा भएको अनुसन्धान प्रभावशाली भएतापनि बौद्धिक सम्पत्ति अधिकार र यी मोडेलहरूले समग्र रूपमा सिर्जनात्मक उद्योगहरूमा पार्न सक्ने प्रभावबारे अझै चिन्ताहरू छन्। शोधकर्ताहरू र रचनात्मकहरूले यी मोडेलहरू सुधार गर्न जारी राख्न सक्छन् भन्ने कुरा सुनिश्चित गर्न नजिकबाट सहकार्य गर्न जारी राख्नुपर्छ।

भविष्यका जेनेरेटिभ सङ्गीत मोडेलहरूले चाँडै नै संगीतकारहरूका लागि वा परियोजनाहरूका लागि अनुकूलन सङ्गीत चाहिने रचनात्मकहरूका लागि एउटा अनुप्रयोगको रूपमा कार्य गर्न सक्नेछन्।

Jukebox AI - न्यूरल नेटवर्कहरू प्रयोग गरेर संगीत उत्पन्न गर्दै

Jukebox AI के हो?