Jukebox AI - تولید موسیقی با استفاده از شبکه های عصبی

فهرست مندرجات[پنهان شدن][نمایش]

Jukebox AI چیست؟
جوک باکس چگونه کار می کند؟+-
محدودیت های مدل جوک باکس
نتیجه

آیا می توانید از هوش مصنوعی برای ایجاد یک رکورد جدید از هنرمند مورد علاقه خود استفاده کنید؟

پیشرفت های اخیر در یادگیری ماشین نشان داده است که مدل ها اکنون قادر به درک داده های پیچیده مانند متن و تصاویر هستند. جوک باکس OpenAI ثابت می کند که حتی موسیقی را می توان دقیقاً توسط یک شبکه عصبی مدل سازی کرد.

موسیقی یک شی پیچیده برای الگوسازی است. شما باید هم ویژگی های ساده ای مانند سرعت، بلندی صدا و زیر و بم و هم ویژگی های پیچیده تر مانند اشعار، سازها و ساختار موسیقی را در نظر بگیرید.

با استفاده از پیشرفته فراگیری ماشین OpenAI روشی را برای تبدیل صدای خام به نمایشی که سایر مدل ها می توانند از آن استفاده کنند، پیدا کرده است.

این مقاله توضیح می‌دهد که Jukebox چه کاری می‌تواند انجام دهد، چگونه کار می‌کند و محدودیت‌های فعلی این فناوری.

Jukebox AI چیست؟

جعبه موسیقی یک مدل شبکه عصبی توسط OpenAI است که می تواند موسیقی را با آواز تولید کند. این مدل می تواند در انواع ژانرها و سبک های هنرمندان موسیقی تولید کند.

Jukebox AI آهنگ هایی از هنرمندان شناخته شده تولید می کند

به عنوان مثال، جوک باکس می تواند یک آهنگ راک به سبک الویس پریسلی یا یک آهنگ هیپ هاپ به سبک کانیه وست تولید کند. می توانید از این بازدید کنید سایت اینترنتی بررسی کنید که این مدل چقدر در ضبط صدای هنرمندان و ژانرهای موسیقی مورد علاقه شما موثر است.

این مدل به یک ژانر، هنرمند و اشعار به عنوان ورودی نیاز دارد. این ورودی مدلی را راهنمایی می‌کند که روی میلیون‌ها هنرمند و داده‌های غزلی آموزش دیده است.

جوک باکس چگونه کار می کند؟

بیایید ببینیم جوک باکس چگونه می‌تواند صدای خام جدید را از مدلی که روی میلیون‌ها آهنگ آموزش دیده است تولید کند.

فرآیند رمزگذاری

در حالی که برخی از مدل‌های تولید موسیقی از داده‌های آموزشی MIDI استفاده می‌کنند، Jukebox بر روی فایل صوتی خام واقعی آموزش داده شده است. برای فشرده‌سازی صدا در یک فضای مجزا، Jukebox از یک رویکرد رمزگذار خودکار به نام VQ-VAE استفاده می‌کند.

VQ-VAE مخفف Vector Quantized Variational Autoencoder است که ممکن است کمی پیچیده به نظر برسد، بنابراین اجازه دهید آن را تجزیه کنیم.

ابتدا بیایید سعی کنیم بفهمیم که در اینجا چه کاری می خواهیم انجام دهیم. در مقایسه با اشعار یا نت موسیقی، یک فایل صوتی خام بسیار پیچیده تر است. اگر می‌خواهیم مدل ما از آهنگ‌ها «یاد بگیرد»، باید آن را به یک نمایش فشرده‌تر و ساده‌تر تبدیل کنیم. که در فراگیری ماشین، ما این نمایندگی زیربنایی را a می نامیم فضای نهفته.

فضای پنهان یک نسخه فشرده از یک ورودی نمونه است

An رمزگذار خودکار یک تکنیک یادگیری بدون نظارت است که از a شبکه های عصبی برای یافتن نمایش های نهفته غیرخطی برای یک توزیع داده معین. رمزگذار خودکار از دو بخش تشکیل شده است: رمزگذار و رمزگشا.

La رمز گذار سعی می کند فضای پنهان را از مجموعه ای از داده های خام بیابد در حالی که رمز گشا از نمایش نهفته برای بازسازی آن به قالب اصلی خود استفاده می کند. رمزگذار خودکار اساساً یاد می گیرد که چگونه داده های خام را به گونه ای فشرده کند که خطای بازسازی را به حداقل برساند.

اکنون که می دانیم رمزگذار خودکار چه کاری انجام می دهد، بیایید سعی کنیم منظورمان از رمزگذار خودکار «متغییر» را بفهمیم. در مقایسه با رمزگذارهای خودکار معمولی، رمزگذارهای خودکار متغیر، قبل از فضای پنهان را اضافه می‌کنند.

بدون غوطه ور شدن در ریاضیات، افزودن یک پیشین احتمالی، توزیع نهفته را کاملا فشرده نگه می دارد. تفاوت اصلی بین یک VAE و یک VQ-VAE این است که دومی از یک نمایش نهفته گسسته به جای پیوسته استفاده می کند. نمودار معماری جوک باکس هوش مصنوعی برای رمزگذاری و رمزگشایی

هر سطح VQ-VAE به طور مستقل ورودی را رمزگذاری می کند. رمزگذاری سطح پایین، بازسازی با بالاترین کیفیت را ایجاد می کند. رمزگذاری سطح بالا اطلاعات ضروری موسیقی را حفظ می کند.

استفاده از ترانسفورماتورها

Jukebox AI از ترانسفورماتورها برای تولید کلیپ صوتی بعدی در آهنگ استفاده می کند

اکنون که کدهای موسیقی کدگذاری شده توسط VQ-VAE را داریم، می توانیم تلاش کنیم تولید موسیقی در این فضای گسسته فشرده

جوک باکس استفاده می کند ترانسفورماتورهای اتورگرسیو برای ایجاد صدای خروجی ترانسفورماتورها نوعی شبکه عصبی هستند که بهترین عملکرد را با داده های توالی دارند. با توجه به دنباله ای از توکن ها، یک مدل ترانسفورماتور سعی خواهد کرد تا توکن بعدی را پیش بینی کند.

Jukebox از یک نوع ساده ترانسفورماتور Sparse استفاده می کند. هنگامی که تمام مدل‌های قبلی آموزش داده شدند، ترانسفورماتور کدهای فشرده‌سازی را تولید می‌کند که سپس با استفاده از رمزگشا VQ-VAE به صدای خام رمزگشایی می‌شوند.

هنرمند و ژانر تهویه در جوک باکس

مدل اولیه هوش مصنوعی جوک باکس سعی می کند بفهمد که چگونه یک آهنگ شبیه یک ژانر یا هنرمند خاص است

مدل تولیدی جوک باکس با ارائه سیگنال‌های شرطی اضافی در طول مرحله آموزش قابل کنترل‌تر می‌شود.

اولین مدل ها توسط هنرمندان و برچسب های سبک برای هر آهنگ ارائه می شود. این آنتروپی پیش‌بینی صدا را کاهش می‌دهد و به مدل اجازه می‌دهد به کیفیت بهتری دست یابد. برچسب ها همچنین به ما امکان می دهند مدل را به سبک خاصی هدایت کنیم.

علاوه بر هنرمند و ژانر، سیگنال های زمان بندی در طول زمان آموزش اضافه می شوند. این سیگنال ها شامل طول آهنگ، زمان شروع یک نمونه خاص و کسری از آهنگی است که سپری شده است. این اطلاعات اضافی به مدل کمک می کند تا الگوهای صوتی را که بر ساختار کلی تکیه دارند را درک کند.

برای مثال، مدل ممکن است یاد بگیرد که تشویق برای موسیقی زنده در پایان یک آهنگ اتفاق می افتد. این مدل همچنین می‌تواند یاد بگیرد، برای مثال، که برخی از ژانرها بخش‌های ابزاری طولانی‌تری نسبت به بقیه دارند.

متن ترانه

مدل های شرطی ذکر شده در قسمت قبل قادر به تولید صدای آواز متنوع هستند. با این حال، این صداها تمایل به نامنسجم و غیرقابل تشخیص دارند.

برای کنترل مدل مولد در زمان تولید غزل، محققان زمینه بیشتری را در زمان آموزش فراهم می کنند. برای کمک به نگاشت داده‌های غزل به زمان‌بندی صدای واقعی، محققان از آن استفاده کردند اسلتر برای استخراج آواز و NUS AutoLyrics Align برای به دست آوردن ترازهای سطح کلمه اشعار.

محدودیت های مدل جوک باکس

یکی از محدودیت های اصلی جوک باکس درک آن از ساختارهای موسیقی بزرگتر است. به عنوان مثال، یک کلیپ کوتاه 20 ثانیه ای از خروجی ممکن است چشمگیر به نظر برسد، اما شنوندگان متوجه خواهند شد که ساختار موسیقی معمولی تکرار آهنگ ها و آیات در خروجی نهایی وجود ندارد.

رندر مدل نیز کند است. تقریباً 9 ساعت طول می کشد تا یک دقیقه صدا به طور کامل ارائه شود. این تعداد آهنگ هایی را که می توان تولید کرد محدود می کند و از استفاده از مدل در برنامه های تعاملی جلوگیری می کند.

در نهایت، محققان خاطرنشان کرده‌اند که مجموعه داده‌های نمونه عمدتاً به زبان انگلیسی است و اصولاً قراردادهای موسیقی غربی را نمایش می‌دهد. محققان هوش مصنوعی می توانند تحقیقات آینده را بر روی تولید موسیقی به زبان های دیگر و سبک های موسیقی غیر غربی متمرکز کنند.

نتیجه

پروژه Jukebox توانایی رو به رشد مدل‌های یادگیری ماشین را برای ایجاد نمایش‌های پنهان دقیق از داده‌های پیچیده مانند صدای خام برجسته می‌کند. پیشرفت های مشابهی در متن اتفاق می افتد، همانطور که در پروژه هایی مانند دیده می شود GPT-3و تصاویر، همانطور که در OpenAI دیده می شود DALL-E2.

در حالی که تحقیقات در این فضا چشمگیر بوده است، هنوز نگرانی هایی در مورد حقوق مالکیت معنوی و تأثیری که این مدل ها ممکن است بر صنایع خلاق به طور کلی داشته باشند وجود دارد. محققان و خلاقان باید به همکاری نزدیک خود ادامه دهند تا اطمینان حاصل شود که این مدل ها می توانند به بهبود ادامه دهند.

مدل های موسیقی مولد آینده ممکن است به زودی بتوانند به عنوان ابزاری برای نوازندگان یا به عنوان یک برنامه کاربردی برای خلاقانی که به یک موسیقی سفارشی برای پروژه ها نیاز دارند، عمل کنند.

Jukebox AI – تولید موسیقی با استفاده از شبکه های عصبی

Jukebox AI چیست؟