آیا می توانید از هوش مصنوعی برای ایجاد یک رکورد جدید از هنرمند مورد علاقه خود استفاده کنید؟
پیشرفت های اخیر در یادگیری ماشین نشان داده است که مدل ها اکنون قادر به درک داده های پیچیده مانند متن و تصاویر هستند. جوک باکس OpenAI ثابت می کند که حتی موسیقی را می توان دقیقاً توسط یک شبکه عصبی مدل سازی کرد.
موسیقی یک شی پیچیده برای الگوسازی است. شما باید هم ویژگی های ساده ای مانند سرعت، بلندی صدا و زیر و بم و هم ویژگی های پیچیده تر مانند اشعار، سازها و ساختار موسیقی را در نظر بگیرید.
با استفاده از پیشرفته فراگیری ماشین OpenAI روشی را برای تبدیل صدای خام به نمایشی که سایر مدل ها می توانند از آن استفاده کنند، پیدا کرده است.
این مقاله توضیح میدهد که Jukebox چه کاری میتواند انجام دهد، چگونه کار میکند و محدودیتهای فعلی این فناوری.
Jukebox AI چیست؟
جعبه موسیقی یک مدل شبکه عصبی توسط OpenAI است که می تواند موسیقی را با آواز تولید کند. این مدل می تواند در انواع ژانرها و سبک های هنرمندان موسیقی تولید کند.
به عنوان مثال، جوک باکس می تواند یک آهنگ راک به سبک الویس پریسلی یا یک آهنگ هیپ هاپ به سبک کانیه وست تولید کند. می توانید از این بازدید کنید سایت اینترنتی بررسی کنید که این مدل چقدر در ضبط صدای هنرمندان و ژانرهای موسیقی مورد علاقه شما موثر است.
این مدل به یک ژانر، هنرمند و اشعار به عنوان ورودی نیاز دارد. این ورودی مدلی را راهنمایی میکند که روی میلیونها هنرمند و دادههای غزلی آموزش دیده است.
جوک باکس چگونه کار می کند؟
بیایید ببینیم جوک باکس چگونه میتواند صدای خام جدید را از مدلی که روی میلیونها آهنگ آموزش دیده است تولید کند.
فرآیند رمزگذاری
در حالی که برخی از مدلهای تولید موسیقی از دادههای آموزشی MIDI استفاده میکنند، Jukebox بر روی فایل صوتی خام واقعی آموزش داده شده است. برای فشردهسازی صدا در یک فضای مجزا، Jukebox از یک رویکرد رمزگذار خودکار به نام VQ-VAE استفاده میکند.
VQ-VAE مخفف Vector Quantized Variational Autoencoder است که ممکن است کمی پیچیده به نظر برسد، بنابراین اجازه دهید آن را تجزیه کنیم.
ابتدا بیایید سعی کنیم بفهمیم که در اینجا چه کاری می خواهیم انجام دهیم. در مقایسه با اشعار یا نت موسیقی، یک فایل صوتی خام بسیار پیچیده تر است. اگر میخواهیم مدل ما از آهنگها «یاد بگیرد»، باید آن را به یک نمایش فشردهتر و سادهتر تبدیل کنیم. که در فراگیری ماشین، ما این نمایندگی زیربنایی را a می نامیم فضای نهفته.
An رمزگذار خودکار یک تکنیک یادگیری بدون نظارت است که از a شبکه های عصبی برای یافتن نمایش های نهفته غیرخطی برای یک توزیع داده معین. رمزگذار خودکار از دو بخش تشکیل شده است: رمزگذار و رمزگشا.
La رمز گذار سعی می کند فضای پنهان را از مجموعه ای از داده های خام بیابد در حالی که رمز گشا از نمایش نهفته برای بازسازی آن به قالب اصلی خود استفاده می کند. رمزگذار خودکار اساساً یاد می گیرد که چگونه داده های خام را به گونه ای فشرده کند که خطای بازسازی را به حداقل برساند.
اکنون که می دانیم رمزگذار خودکار چه کاری انجام می دهد، بیایید سعی کنیم منظورمان از رمزگذار خودکار «متغییر» را بفهمیم. در مقایسه با رمزگذارهای خودکار معمولی، رمزگذارهای خودکار متغیر، قبل از فضای پنهان را اضافه میکنند.
بدون غوطه ور شدن در ریاضیات، افزودن یک پیشین احتمالی، توزیع نهفته را کاملا فشرده نگه می دارد. تفاوت اصلی بین یک VAE و یک VQ-VAE این است که دومی از یک نمایش نهفته گسسته به جای پیوسته استفاده می کند.
هر سطح VQ-VAE به طور مستقل ورودی را رمزگذاری می کند. رمزگذاری سطح پایین، بازسازی با بالاترین کیفیت را ایجاد می کند. رمزگذاری سطح بالا اطلاعات ضروری موسیقی را حفظ می کند.
استفاده از ترانسفورماتورها
اکنون که کدهای موسیقی کدگذاری شده توسط VQ-VAE را داریم، می توانیم تلاش کنیم تولید موسیقی در این فضای گسسته فشرده
جوک باکس استفاده می کند ترانسفورماتورهای اتورگرسیو برای ایجاد صدای خروجی ترانسفورماتورها نوعی شبکه عصبی هستند که بهترین عملکرد را با داده های توالی دارند. با توجه به دنباله ای از توکن ها، یک مدل ترانسفورماتور سعی خواهد کرد تا توکن بعدی را پیش بینی کند.
Jukebox از یک نوع ساده ترانسفورماتور Sparse استفاده می کند. هنگامی که تمام مدلهای قبلی آموزش داده شدند، ترانسفورماتور کدهای فشردهسازی را تولید میکند که سپس با استفاده از رمزگشا VQ-VAE به صدای خام رمزگشایی میشوند.
هنرمند و ژانر تهویه در جوک باکس
مدل تولیدی جوک باکس با ارائه سیگنالهای شرطی اضافی در طول مرحله آموزش قابل کنترلتر میشود.
اولین مدل ها توسط هنرمندان و برچسب های سبک برای هر آهنگ ارائه می شود. این آنتروپی پیشبینی صدا را کاهش میدهد و به مدل اجازه میدهد به کیفیت بهتری دست یابد. برچسب ها همچنین به ما امکان می دهند مدل را به سبک خاصی هدایت کنیم.
علاوه بر هنرمند و ژانر، سیگنال های زمان بندی در طول زمان آموزش اضافه می شوند. این سیگنال ها شامل طول آهنگ، زمان شروع یک نمونه خاص و کسری از آهنگی است که سپری شده است. این اطلاعات اضافی به مدل کمک می کند تا الگوهای صوتی را که بر ساختار کلی تکیه دارند را درک کند.
برای مثال، مدل ممکن است یاد بگیرد که تشویق برای موسیقی زنده در پایان یک آهنگ اتفاق می افتد. این مدل همچنین میتواند یاد بگیرد، برای مثال، که برخی از ژانرها بخشهای ابزاری طولانیتری نسبت به بقیه دارند.
متن ترانه
مدل های شرطی ذکر شده در قسمت قبل قادر به تولید صدای آواز متنوع هستند. با این حال، این صداها تمایل به نامنسجم و غیرقابل تشخیص دارند.
برای کنترل مدل مولد در زمان تولید غزل، محققان زمینه بیشتری را در زمان آموزش فراهم می کنند. برای کمک به نگاشت دادههای غزل به زمانبندی صدای واقعی، محققان از آن استفاده کردند اسلتر برای استخراج آواز و NUS AutoLyrics Align برای به دست آوردن ترازهای سطح کلمه اشعار.
محدودیت های مدل جوک باکس
یکی از محدودیت های اصلی جوک باکس درک آن از ساختارهای موسیقی بزرگتر است. به عنوان مثال، یک کلیپ کوتاه 20 ثانیه ای از خروجی ممکن است چشمگیر به نظر برسد، اما شنوندگان متوجه خواهند شد که ساختار موسیقی معمولی تکرار آهنگ ها و آیات در خروجی نهایی وجود ندارد.
رندر مدل نیز کند است. تقریباً 9 ساعت طول می کشد تا یک دقیقه صدا به طور کامل ارائه شود. این تعداد آهنگ هایی را که می توان تولید کرد محدود می کند و از استفاده از مدل در برنامه های تعاملی جلوگیری می کند.
در نهایت، محققان خاطرنشان کردهاند که مجموعه دادههای نمونه عمدتاً به زبان انگلیسی است و اصولاً قراردادهای موسیقی غربی را نمایش میدهد. محققان هوش مصنوعی می توانند تحقیقات آینده را بر روی تولید موسیقی به زبان های دیگر و سبک های موسیقی غیر غربی متمرکز کنند.
نتیجه
پروژه Jukebox توانایی رو به رشد مدلهای یادگیری ماشین را برای ایجاد نمایشهای پنهان دقیق از دادههای پیچیده مانند صدای خام برجسته میکند. پیشرفت های مشابهی در متن اتفاق می افتد، همانطور که در پروژه هایی مانند دیده می شود GPT-3و تصاویر، همانطور که در OpenAI دیده می شود DALL-E2.
در حالی که تحقیقات در این فضا چشمگیر بوده است، هنوز نگرانی هایی در مورد حقوق مالکیت معنوی و تأثیری که این مدل ها ممکن است بر صنایع خلاق به طور کلی داشته باشند وجود دارد. محققان و خلاقان باید به همکاری نزدیک خود ادامه دهند تا اطمینان حاصل شود که این مدل ها می توانند به بهبود ادامه دهند.
مدل های موسیقی مولد آینده ممکن است به زودی بتوانند به عنوان ابزاری برای نوازندگان یا به عنوان یک برنامه کاربردی برای خلاقانی که به یک موسیقی سفارشی برای پروژه ها نیاز دارند، عمل کنند.
پاسخ دهید