هل يمكنك استخدام الذكاء الاصطناعي لإنشاء رقم قياسي جديد لفنانك المفضل؟
أظهرت الإنجازات الأخيرة في التعلم الآلي أن النماذج قادرة الآن على فهم البيانات المعقدة مثل النصوص والصور. يثبت Jukebox من OpenAI أنه حتى الموسيقى يمكن تصميمها بدقة بواسطة شبكة عصبية.
الموسيقى هي كائن معقد للنمذجة. يجب أن تأخذ في الاعتبار كل من الميزات البسيطة مثل الإيقاع والجهارة والنبرة والميزات الأكثر تعقيدًا مثل الكلمات والآلات والبنية الموسيقية.
باستخدام Advanced آلة التعلم التقنيات ، وجدت OpenAI طريقة لتحويل الصوت الخام إلى تمثيل يمكن أن تستخدمه النماذج الأخرى.
تشرح هذه المقالة ما يمكن أن يفعله Jukebox ، وكيف يعمل ، والقيود الحالية للتكنولوجيا.
ما هو Jukebox AI؟
الموسيقي هو نموذج للشبكة العصبية بواسطة OpenAI يمكنه إنشاء موسيقى بالغناء. يمكن للنموذج إنتاج الموسيقى في مجموعة متنوعة من الأنواع وأنماط الفنانين.
على سبيل المثال ، يمكن لـ Jukebox إنتاج أغنية روك بأسلوب Elvis Presley أو لحن هيب هوب بأسلوب Kanye West. يمكنك زيارة هذا موقع الكتروني لاستكشاف مدى فعالية النموذج في التقاط صوت الفنانين والأنواع الموسيقية المفضلة لديك.
يتطلب النموذج نوعًا وفنانًا وكلمات كمدخلات. يوجه هذا الإدخال نموذجًا تم تدريبه على ملايين الفنانين والبيانات الغنائية.
كيف يعمل Jukebox؟
دعونا نلقي نظرة على كيفية إدارة Jukebox لتوليد صوت خام جديد من نموذج تم تدريبه على ملايين الأغاني.
عملية الترميز
بينما تستخدم بعض نماذج إنشاء الموسيقى بيانات تدريب MIDI ، يتم تدريب Jukebox على ملف الصوت الخام الفعلي. لضغط الصوت في مساحة منفصلة ، يستخدم Jukebox أسلوب تشفير تلقائي يُعرف باسم VQ-VAE.
VQ-VAE يرمز إلى Vector Quantized Variational Autoencoder ، والذي قد يبدو معقدًا بعض الشيء ، لذلك دعونا نقسمه.
أولاً ، دعنا نحاول فهم ما نريد القيام به هنا. بالمقارنة مع كلمات الأغاني أو ورقة الموسيقى ، فإن ملف الصوت الخام أكثر تعقيدًا إلى حد كبير. إذا أردنا أن "يتعلم" نموذجنا من الأغاني ، فسيتعين علينا تحويله إلى تمثيل أكثر ضغطًا وبساطة. في آلة التعلم، نسمي هذا التمثيل الأساسي أ مساحة كامنة.
An المشفر التلقائي هو أسلوب تعليمي غير خاضع للإشراف يستخدم أ الشبكة العصبية للعثور على تمثيلات كامنة غير خطية لتوزيع بيانات معين. يتكون جهاز التشفير التلقائي من جزأين: جهاز التشفير ووحدة فك التشفير.
• التشفير يحاول العثور على المساحة الكامنة من مجموعة من البيانات الأولية أثناء ملف فك يستخدم التمثيل الكامن لمحاولة إعادة بنائه إلى تنسيقه الأصلي. يتعلم المشفر التلقائي بشكل أساسي كيفية ضغط البيانات الأولية بطريقة تقلل من خطأ إعادة الإعمار.
الآن بعد أن عرفنا ما يفعله المشفر التلقائي ، دعنا نحاول فهم ما نعنيه برمز تلقائي "متنوع". مقارنةً بأجهزة التشفير التلقائية النموذجية ، تضيف أجهزة التشفير التلقائية المتغيرة قبل المساحة الكامنة.
بدون الخوض في الرياضيات ، فإن إضافة احتمالية مسبقة تجعل التوزيع الكامن مضغوطًا بشكل وثيق. يتمثل الاختلاف الرئيسي بين VAE و VQ-VAE في أن الأخير يستخدم تمثيلًا كامنًا منفصلاً بدلاً من تمثيل مستمر.
يقوم كل مستوى VQ-VAE بترميز الإدخال بشكل مستقل. ينتج ترميز المستوى السفلي إعادة بناء عالية الجودة. يحتفظ ترميز المستوى الأعلى بالمعلومات الموسيقية الأساسية.
باستخدام المحولات
الآن بعد أن أصبح لدينا رموز الموسيقى المشفرة بواسطة VQ-VAE ، يمكننا محاولة ذلك توليد الموسيقى في هذا الفضاء المنفصل المضغوط.
يستخدم Jukebox محولات الانحدار الذاتي لإنشاء إخراج الصوت. المحولات هي نوع من الشبكات العصبية التي تعمل بشكل أفضل مع البيانات المتسلسلة. بالنظر إلى سلسلة من الرموز المميزة ، سيحاول نموذج المحول التنبؤ بالرمز المميز التالي.
يستخدم Jukebox نوعًا مبسطًا من المحولات المتفرقة. بمجرد تدريب جميع الطرز السابقة ، يولد المحول رموزًا مضغوطة يتم فك تشفيرها بعد ذلك إلى صوت خام باستخدام وحدة فك التشفير VQ-VAE.
فنان وتكييف النوع في Jukebox
أصبح نموذج Jukebox التوليدي أكثر قابلية للتحكم من خلال توفير إشارات شرطية إضافية أثناء خطوة التدريب.
يتم توفير النماذج الأولى من قبل الفنانين وتسميات الأنواع لكل أغنية. هذا يقلل من إنتروبيا التنبؤ الصوتي ويسمح للنموذج بتحقيق جودة أفضل. تمكننا الملصقات أيضًا من توجيه النموذج بأسلوب معين.
إلى جانب الفنان والنوع ، يتم إضافة إشارات التوقيت أثناء وقت التدريب. تتضمن هذه الإشارات طول الأغنية ووقت بدء عينة معينة وجزء الأغنية المنقضي. تساعد هذه المعلومات الإضافية النموذج في فهم أنماط الصوت التي تعتمد على الهيكل العام.
على سبيل المثال ، قد يتعلم النموذج أن التصفيق للموسيقى الحية يحدث في نهاية الأغنية. يمكن للنموذج أيضًا أن يتعلم ، على سبيل المثال ، أن بعض الأنواع تحتوي على أقسام آلية أطول من غيرها.
كلمات
النماذج المكيفة المذكورة في القسم السابق قادرة على توليد أصوات غنائية متنوعة. ومع ذلك ، تميل هذه الأصوات إلى أن تكون غير متماسكة ولا يمكن التعرف عليها.
للتحكم في النموذج التوليدي عندما يتعلق الأمر بتوليد كلمات الأغاني ، يوفر الباحثون سياقًا أكثر في وقت التدريب. استخدم الباحثون للمساعدة في تعيين بيانات كلمات الأغاني لتوقيت الصوت الفعلي مقياس لاستخراج غناء و محاذاة NUS التلقائية للحصول على محاذاة كلمات الأغاني.
حدود نموذج Jukebox
أحد القيود الرئيسية على Jukebox هو فهمه للتركيبات الموسيقية الأكبر. على سبيل المثال ، قد يبدو مقطع قصير مدته 20 ثانية من الإخراج مثيرًا للإعجاب ، لكن المستمعين سيلاحظون أن التركيب الموسيقي النموذجي لتكرار الجوقات والآيات غائب في الإخراج النهائي.
النموذج أيضًا بطيء في العرض. يستغرق عرض الصوت دقيقة واحدة تقريبًا 9 ساعات. هذا يحد من عدد الأغاني التي يمكن إنشاؤها ويمنع استخدام النموذج في التطبيقات التفاعلية.
أخيرًا ، لاحظ الباحثون أن عينة مجموعة البيانات مكتوبة بشكل أساسي باللغة الإنجليزية وتعرض في المقام الأول اصطلاحات الموسيقى الغربية. يمكن للباحثين في مجال الذكاء الاصطناعي تركيز البحث المستقبلي على إنتاج الموسيقى بلغات أخرى وأنماط الموسيقى غير الغربية.
وفي الختام
يسلط مشروع Jukebox الضوء على القدرة المتزايدة لنماذج التعلم الآلي لإنشاء تمثيلات كامنة دقيقة للبيانات المعقدة مثل الصوت الخام. تحدث اختراقات مماثلة في النص ، كما رأينا في مشاريع مثل GPT-3، والصور ، كما هو موضح في ملفات OpenAI DALL-E2.
بينما كان البحث في هذا المجال مثيرًا للإعجاب ، لا تزال هناك مخاوف بشأن حقوق الملكية الفكرية وتأثير هذه النماذج على الصناعات الإبداعية ككل. يجب على الباحثين والمبدعين أن يواصلوا التعاون الوثيق لضمان استمرار هذه النماذج في التحسن.
قد تتمكن نماذج الموسيقى التوليدية المستقبلية قريبًا من العمل كأداة للموسيقيين أو كتطبيق للمبدعين الذين يحتاجون إلى موسيقى مخصصة للمشاريع.
اترك تعليق