Sevimli rassomingizdan yangi rekord yaratish uchun AIdan foydalana olasizmi?
Mashinani o'rganishdagi so'nggi yutuqlar shuni ko'rsatdiki, modellar endi matn va tasvirlar kabi murakkab ma'lumotlarni tushunishga qodir. OpenAI ning Jukebox hatto musiqani ham neyron tarmoq yordamida aniq modellashtirish mumkinligini isbotlaydi.
Musiqa modellash uchun murakkab ob'ektdir. Siz temp, ovoz balandligi va balandligi kabi oddiy xususiyatlarni ham, matn, asboblar va musiqiy tuzilma kabi murakkabroq xususiyatlarni ham hisobga olishingiz kerak.
Kengaytirilgan foydalanish kompyuterni o'rganish texnikasidan foydalangan holda, OpenAI xom audioni boshqa modellar foydalanishi mumkin bo'lgan tasvirga aylantirish yo'lini topdi.
Ushbu maqolada Jukebox nima qilishi mumkinligi, u qanday ishlashi va texnologiyaning joriy cheklovlari tushuntiriladi.
Jukebox AI nima?
Jukebox OpenAI tomonidan yaratilgan neyron tarmoq modeli boʻlib, u qoʻshiq kuylash bilan musiqa yaratishi mumkin. Model turli janrlarda va rassomlarning uslublarida musiqa ishlab chiqishi mumkin.
Misol uchun, Jukebox Elvis Presli uslubida rok qo'shiq yoki Kanye West uslubida hip-hop kuyini ishlab chiqishi mumkin. Bu erga tashrif buyurishingiz mumkin Veb-sayt sevimli musiqa san'atkorlari va janrlarining ovozini olishda model qanchalik samarali ekanligini o'rganish.
Modelga kirish sifatida janr, rassom va qoʻshiq soʻzlari kerak boʻladi. Ushbu ma'lumot millionlab san'atkorlar va lirik ma'lumotlar asosida tayyorlangan modelni boshqaradi.
Jukebox qanday ishlaydi?
Keling, Jukebox millionlab qo'shiqlarda o'qitilgan modeldan yangi xom audioni qanday yaratishini ko'rib chiqaylik.
Kodlash jarayoni
Ba'zi musiqa yaratish modellari MIDI trening ma'lumotlaridan foydalansa-da, Jukebox haqiqiy xom audio faylida o'qitiladi. Ovozni diskret joyga siqish uchun Jukebox VQ-VAE deb nomlanuvchi avtomatik kodlovchi yondashuvdan foydalanadi.
VQ-VAE Vektorli kvantlashtirilgan variatsion avtokodlovchini anglatadi, bu biroz murakkab tuyulishi mumkin, shuning uchun uni parchalab olaylik.
Birinchidan, bu erda nima qilishni xohlayotganimizni tushunishga harakat qilaylik. Qo'shiq matni yoki nota bilan solishtirganda, xom audio fayl ancha murakkabroq. Agar biz o'z modelimizni qo'shiqlardan "o'rganishni" istasak, uni yanada siqilgan va soddalashtirilgan tasvirga aylantirishimiz kerak bo'ladi. In kompyuterni o'rganish, biz bu asosiy vakillikni a deb ataymiz yashirin bo'shliq.
An avtokodlash a dan foydalanadigan nazoratsiz ta'lim texnikasi neyron tarmoq berilgan ma'lumotlarni taqsimlash uchun chiziqli bo'lmagan yashirin ko'rinishlarni topish. Avtokoder ikki qismdan iborat: kodlovchi va dekoder.
The kodlovchi vaqtida xom ma'lumotlar to'plamidan yashirin bo'shliqni topishga harakat qiladi Dekoder uni asl formatiga qaytarish uchun yashirin tasvirdan foydalanadi. Avtokoder asosan qayta qurish xatosini minimallashtiradigan tarzda xom ma'lumotlarni qanday siqishni o'rganadi.
Endi biz avtokodlovchi nima qilishini bilganimizdan so'ng, keling, "variatsion" avtokoder deganda nimani nazarda tutayotganimizni tushunishga harakat qilaylik. Oddiy avtokoderlar bilan solishtirganda, variatsion avtokoderlar yashirin bo'shliqqa old qo'shadi.
Matematikaga sho'ng'imasdan, ehtimollik oldingisini qo'shish yashirin taqsimotni yaqindan siqilgan holda saqlaydi. VAE va VQ-VAE o'rtasidagi asosiy farq shundaki, ikkinchisi doimiy emas, balki diskret yashirin vakillikdan foydalanadi.
Har bir VQ-VAE darajasi kirishni mustaqil ravishda kodlaydi. Pastki darajadagi kodlash eng yuqori sifatli rekonstruksiyani ishlab chiqaradi. Yuqori darajadagi kodlash muhim musiqiy ma'lumotlarni saqlaydi.
Transformatorlardan foydalanish
Endi bizda VQ-VAE tomonidan kodlangan musiqa kodlari bor, biz sinab ko'rishimiz mumkin musiqa yaratish bu siqilgan diskret fazoda.
Jukebox foydalanadi avtoregressiv transformatorlar chiqish audiosini yaratish uchun. Transformatorlar ketma-ket ma'lumotlar bilan eng yaxshi ishlaydigan neyron tarmoq turidir. Tokenlar ketma-ketligini hisobga olgan holda, transformator modeli keyingi tokenni bashorat qilishga harakat qiladi.
Jukebox Sparse Transformers-ning soddalashtirilgan variantidan foydalanadi. Oldingi barcha modellar o'qitilgandan so'ng, transformator siqilgan kodlarni ishlab chiqaradi, ular VQ-VAE dekoderi yordamida qaytadan xom audioga dekodlanadi.
Jukeboxda rassom va janrni sozlash
Jukebox-ning generativ modeli mashg'ulot bosqichida qo'shimcha shartli signallarni taqdim etish orqali yanada boshqariladigan holga keltiriladi.
Birinchi modellar har bir qo'shiq uchun san'atkorlar va janr belgilari tomonidan taqdim etiladi. Bu audio bashoratning entropiyasini pasaytiradi va modelga yanada yaxshi sifatga erishish imkonini beradi. Yorliqlar, shuningdek, modelni ma'lum bir uslubda boshqarishga imkon beradi.
Rassom va janrdan tashqari, mashg'ulot vaqtida vaqt signallari qo'shiladi. Ushbu signallarga qo'shiqning uzunligi, ma'lum bir namunaning boshlanish vaqti va o'tgan qo'shiqning ulushi kiradi. Ushbu qo'shimcha ma'lumot modelga umumiy tuzilishga tayanadigan audio naqshlarni tushunishga yordam beradi.
Misol uchun, model jonli musiqa uchun qarsaklar qo'shiq oxirida sodir bo'lishini bilishi mumkin. Model shuningdek, masalan, ba'zi janrlarda boshqalarga qaraganda uzunroq instrumental bo'limlarga ega ekanligini bilib olishi mumkin.
Lyrics
Oldingi bo'limda aytib o'tilgan shartli modellar turli xil qo'shiq ovozlarini yaratishga qodir. Biroq, bu ovozlar odatda nomuvofiq va tanib bo'lmaydigan bo'ladi.
Lirik avlod haqida gap ketganda, generativ modelni boshqarish uchun tadqiqotchilar mashg'ulot vaqtida ko'proq kontekstni taqdim etadilar. Tadqiqotchilar lirik ma'lumotlarni haqiqiy audiodagi vaqtga moslashtirishga yordam berish uchun foydalandilar Yupqa vokal chiqarish va NUS AutoLyricsAlign qo'shiq matnining so'z darajasidagi tekislashlarini olish.
Jukebox modelining cheklovlari
Jukebox-ning asosiy cheklovlaridan biri uning kattaroq musiqiy tuzilmalarni tushunishidir. Masalan, 20 soniyalik qisqa klip ta'sirli bo'lishi mumkin, ammo tinglovchilar takroriy xor va misralarning odatiy musiqiy tuzilishi yakuniy chiqishda yo'qligini payqashadi.
Modelni renderlash ham sekin. Bir daqiqalik audioni toʻliq koʻrsatish uchun taxminan 9 soat vaqt ketadi. Bu yaratilishi mumkin bo'lgan qo'shiqlar sonini cheklaydi va modelni interaktiv ilovalarda qo'llashni oldini oladi.
Va nihoyat, tadqiqotchilar namunaviy ma'lumotlar to'plami asosan ingliz tilida ekanligini va birinchi navbatda G'arb musiqa konventsiyalarini aks ettirishini ta'kidladilar. AI tadqiqotchilari kelajakdagi tadqiqotlarni boshqa tillarda va g'arbiy bo'lmagan musiqa uslublarida musiqa yaratishga yo'naltirishlari mumkin.
Xulosa
Jukebox loyihasi xom audio kabi murakkab ma'lumotlarning aniq yashirin tasvirlarini yaratish uchun mashinani o'rganish modellarining o'sib borayotgan qobiliyatini ta'kidlaydi. kabi loyihalarda ko'rinib turganidek, matnda shunga o'xshash yutuqlar sodir bo'lmoqda Xetafe-3, va tasvirlar, OpenAI'da ko'rsatilganidek DALL-E2.
Ushbu sohadagi tadqiqotlar ta'sirchan bo'lsa-da, intellektual mulk huquqlari va bu modellarning umuman ijodiy sohalarga ta'siri haqida xavotirlar mavjud. Tadqiqotchilar va ijodkorlar ushbu modellar takomillashib borishini ta'minlash uchun yaqindan hamkorlik qilishda davom etishlari kerak.
Kelajakdagi generativ musiqa modellari tez orada musiqachilar uchun vosita yoki loyihalar uchun maxsus musiqaga muhtoj bo'lgan ijodkorlar uchun dastur sifatida harakat qilishi mumkin.
Leave a Reply