Bisakah Anda menggunakan AI untuk membuat rekor baru dari artis favorit Anda?
Terobosan terbaru dalam pembelajaran mesin telah menunjukkan bahwa model sekarang mampu memahami data yang kompleks seperti teks dan gambar. Jukebox OpenAI membuktikan bahwa bahkan musik dapat dimodelkan secara tepat oleh jaringan saraf.
Musik adalah objek yang kompleks untuk dimodelkan. Anda harus mempertimbangkan fitur sederhana seperti tempo, kenyaringan, dan nada dan fitur yang lebih kompleks seperti lirik, instrumen, dan struktur musik.
Menggunakan lanjutan Mesin belajar teknik, OpenAI telah menemukan cara untuk mengubah audio mentah menjadi representasi yang dapat digunakan model lain.
Artikel ini akan menjelaskan apa yang dapat dilakukan Jukebox, cara kerjanya, dan keterbatasan teknologi saat ini.
Apa itu Jukebox AI?
Jukebox adalah model jaring saraf oleh OpenAI yang dapat menghasilkan musik dengan nyanyian. Model dapat menghasilkan musik dalam berbagai genre dan gaya artis.
Misalnya, Jukebox dapat menghasilkan lagu rock ala Elvis Presley atau lagu hip hop ala Kanye West. Anda dapat mengunjungi ini situs web untuk mengeksplorasi seberapa efektif model dalam menangkap suara artis dan genre musik favorit Anda.
Model membutuhkan genre, artis, dan lirik sebagai input. Masukan ini memandu model yang dilatih tentang jutaan artis dan data lirik.
Bagaimana Jukebox bekerja?
Mari kita lihat bagaimana Jukebox berhasil menghasilkan audio mentah baru dari model yang dilatih pada jutaan lagu.
Proses pengkodean
Sementara beberapa model pembuatan musik menggunakan data pelatihan MIDI, Jukebox dilatih pada file audio mentah yang sebenarnya. Untuk mengompresi audio ke dalam ruang diskrit, Jukebox menggunakan pendekatan auto-encoder yang dikenal sebagai VQ-VAE.
VQ-VAE singkatan dari Vector Quantized Variational Autoencoder, yang mungkin terdengar agak rumit, jadi mari kita uraikan.
Pertama, mari kita coba memahami apa yang ingin kita lakukan di sini. Dibandingkan dengan lirik atau lembaran musik, file audio mentah jauh lebih kompleks. Jika kita ingin model kita "belajar" dari lagu, kita harus mengubahnya menjadi representasi yang lebih padat dan disederhanakan. Di Mesin belajar, kami menyebut representasi dasar ini sebagai ruang laten.
An penyandi otomatis adalah teknik pembelajaran tanpa pengawasan yang menggunakan saraf jaringan untuk menemukan representasi laten non-linier untuk distribusi data tertentu. Autoencoder terdiri dari dua bagian: encoder dan decoder.
Grafik encoder mencoba menemukan ruang laten dari sekumpulan data mentah sementara decoder menggunakan representasi laten untuk mencoba merekonstruksi kembali ke format aslinya. Autoencoder pada dasarnya mempelajari cara mengompresi data mentah sedemikian rupa sehingga meminimalkan kesalahan rekonstruksi.
Sekarang setelah kita mengetahui apa yang dilakukan autoencoder, mari kita coba memahami apa yang dimaksud dengan autoencoder “variasi”. Dibandingkan dengan autoencoder biasa, autoencoder variasi menambahkan a sebelum ke ruang laten.
Tanpa menyelami matematika, menambahkan prior probabilistik membuat distribusi laten tetap padat. Perbedaan utama antara VAE dan VQ-VAE adalah bahwa yang terakhir menggunakan representasi laten diskrit daripada yang kontinu.
Setiap level VQ-VAE secara independen mengkodekan input. Pengkodean tingkat bawah menghasilkan rekonstruksi kualitas tertinggi. Encoding tingkat atas menyimpan informasi musik penting.
Menggunakan Transformer
Sekarang kami memiliki kode musik yang disandikan oleh VQ-VAE, kami dapat mencobanya menghasilkan musik dalam ruang diskrit terkompresi ini.
Jukebox menggunakan transformator autoregresif untuk membuat audio keluaran. Transformer adalah jenis jaringan saraf yang bekerja paling baik dengan data yang diurutkan. Diberikan urutan token, model transformator akan mencoba memprediksi token berikutnya.
Jukebox menggunakan varian yang disederhanakan dari Sparse Transformers. Setelah semua model sebelumnya dilatih, transformator menghasilkan kode terkompresi yang kemudian diterjemahkan kembali menjadi audio mentah menggunakan dekoder VQ-VAE.
Artis dan Genre Conditioning di Jukebox
Model generatif Jukebox dibuat lebih terkontrol dengan memberikan sinyal kondisional tambahan selama langkah pelatihan.
Model pertama disediakan oleh artis dan label genre untuk setiap lagu. Ini mengurangi entropi prediksi audio dan memungkinkan model mencapai kualitas yang lebih baik. Label juga memungkinkan kita untuk mengarahkan model dengan gaya tertentu.
Selain artis dan genre, sinyal waktu ditambahkan selama waktu pelatihan. Sinyal-sinyal ini termasuk panjang lagu, waktu mulai dari sampel tertentu, dan bagian dari lagu yang telah berlalu. Informasi tambahan ini membantu model memahami pola audio yang bergantung pada struktur keseluruhan.
Misalnya, model dapat belajar bahwa tepuk tangan untuk musik live terjadi di akhir lagu. Model juga dapat belajar, misalnya, bahwa beberapa genre memiliki bagian instrumental yang lebih panjang daripada yang lain.
lirik
Model terkondisi yang disebutkan di bagian sebelumnya mampu menghasilkan berbagai suara nyanyian. Namun, suara-suara ini cenderung tidak koheren dan tidak dapat dikenali.
Untuk mengontrol model generatif dalam hal pembuatan lirik, para peneliti memberikan lebih banyak konteks pada waktu pelatihan. Untuk membantu memetakan data lirik ke waktu pada audio yang sebenarnya, para peneliti menggunakan Spleter untuk mengekstrak vokal dan NUS AutoLyricsSejajarkan untuk mendapatkan keberpihakan tingkat kata dari lirik.
Keterbatasan Model Jukebox
Salah satu keterbatasan utama Jukebox adalah pemahamannya tentang struktur musik yang lebih besar. Misalnya, klip pendek 20 detik dari output mungkin terdengar mengesankan, tetapi pendengar akan memperhatikan bahwa struktur musik khas dari chorus dan verse yang berulang tidak ada dalam output akhir.
Modelnya juga lambat untuk dirender. Dibutuhkan sekitar 9 jam untuk sepenuhnya membuat satu menit audio. Ini membatasi jumlah lagu yang dapat dihasilkan dan mencegah model digunakan dalam aplikasi interaktif.
Terakhir, para peneliti telah mencatat bahwa kumpulan data sampel terutama dalam bahasa Inggris dan terutama menampilkan konvensi musik Barat. Peneliti AI dapat memfokuskan penelitian masa depan untuk menghasilkan musik dalam bahasa lain dan gaya musik non-Barat.
Kesimpulan
Proyek Jukebox menyoroti kemampuan model pembelajaran mesin yang berkembang untuk membuat representasi laten yang akurat dari data kompleks seperti audio mentah. Terobosan serupa terjadi dalam teks, seperti yang terlihat dalam proyek seperti GPT-3, dan gambar, seperti yang terlihat di OpenAI DALL-E2.
Sementara penelitian di bidang ini sangat mengesankan, masih ada kekhawatiran tentang hak kekayaan intelektual dan dampak model ini terhadap industri kreatif secara keseluruhan. Peneliti dan materi iklan harus terus berkolaborasi secara erat untuk memastikan bahwa model ini dapat terus berkembang.
Model musik generatif masa depan mungkin segera dapat bertindak sebagai alat untuk musisi atau sebagai aplikasi untuk kreatif yang membutuhkan musik khusus untuk proyek.
Tinggalkan Balasan