En sevdiğiniz sanatçıdan yeni bir kayıt oluşturmak için yapay zekayı kullanabilir misiniz?
Makine öğrenimindeki son gelişmeler, modellerin artık metin ve resimler gibi karmaşık verileri anlayabildiğini göstermiştir. OpenAI'nin Jukebox'ı, müziğin bile bir sinir ağı tarafından tam olarak modellenebileceğini kanıtlıyor.
Müzik, modellenmesi gereken karmaşık bir nesnedir. Tempo, gürlük, perde gibi basit özelliklerin yanı sıra şarkı sözleri, enstrümanlar ve müzik yapısı gibi daha karmaşık özellikleri de göz önünde bulundurmalısınız.
Gelişmiş kullanma makine öğrenme OpenAI, ham sesi diğer modellerin kullanabileceği bir temsile dönüştürmenin bir yolunu buldu.
Bu makale Jukebox'ın neler yapabileceğini, nasıl çalıştığını ve teknolojinin mevcut sınırlamalarını açıklayacaktır.
Jukebox AI nedir?
müzik kutusu OpenAI tarafından şarkı söyleyerek müzik üretebilen bir sinir ağı modelidir. Model, çeşitli türlerde ve sanatçı tarzlarında müzik üretebilir.
Örneğin Jukebox, Elvis Presley tarzında bir rock şarkısı veya Kanye West tarzında bir hip hop melodisi üretebilir. Bunu ziyaret edebilirsiniz Web sitesi Modelin en sevdiğiniz müzik sanatçılarının ve türlerinin sesini yakalamada ne kadar etkili olduğunu keşfetmek için.
Model, girdi olarak bir tür, sanatçı ve şarkı sözleri gerektirir. Bu girdi, milyonlarca sanatçı ve şarkı sözü verileri üzerinde eğitilmiş bir modele rehberlik eder.
Jukebox nasıl çalışır?
Jukebox'ın milyonlarca şarkı üzerinde eğitilmiş bir modelden yeni ham ses üretmeyi nasıl başardığına bakalım.
Kodlama Süreci
Bazı müzik oluşturma modelleri MIDI eğitim verilerini kullanırken, Jukebox gerçek ham ses dosyası üzerinde eğitilir. Sesi ayrı bir alana sıkıştırmak için Jukebox, VQ-VAE olarak bilinen bir otomatik kodlayıcı yaklaşımı kullanır.
VQ-VAE biraz karmaşık gibi görünen Vector Quantized Variational Autoencoder'ın kısaltmasıdır, bu yüzden onu parçalayalım.
Öncelikle, burada ne yapmak istediğimizi anlamaya çalışalım. Şarkı sözleri veya notalarla karşılaştırıldığında, ham bir ses dosyası çok daha karmaşıktır. Modelimizin şarkılardan “öğrenmesini” istiyorsak, onu daha sıkıştırılmış ve basitleştirilmiş bir temsile dönüştürmemiz gerekecek. İçinde makine öğrenme, biz bu temel temsili bir gizli alan.
An otomatik kodlayıcı kullanan bir denetimsiz öğrenme tekniğidir. sinir ağı belirli bir veri dağılımı için doğrusal olmayan gizli temsilleri bulmak için. Otomatik kodlayıcı iki bölümden oluşur: bir kodlayıcı ve kod çözücü.
The kodlayıcı bir dizi ham veriden gizli alanı bulmaya çalışırken, şifre çözücü orijinal biçimine geri döndürmeye çalışmak için gizli temsili kullanır. Otomatik kodlayıcı, temel olarak ham verilerin yeniden oluşturma hatasını en aza indirecek şekilde nasıl sıkıştırılacağını öğrenir.
Artık bir otomatik kodlayıcının ne yaptığını bildiğimize göre, "varyasyonlu" bir otomatik kodlayıcı ile ne demek istediğimizi anlamaya çalışalım. Tipik otomatik kodlayıcılarla karşılaştırıldığında, varyasyonel otomatik kodlayıcılar, gizli alana bir önce ekler.
Matematiğe dalmadan, olasılıksal bir öncelik eklemek, gizli dağılımı sıkı bir şekilde sıkıştırır. Bir VAE ve bir VQ-VAE arasındaki temel fark, ikincisinin sürekli yerine ayrı bir gizli gösterim kullanmasıdır.
Her VQ-VAE seviyesi, girişi bağımsız olarak kodlar. Alt düzey kodlama, en yüksek kalitede yeniden yapılandırmayı üretir. En üst düzey kodlama, temel müzik bilgilerini korur.
Transformatörleri Kullanma
Artık VQ-VAE tarafından kodlanan müzik kodlarına sahip olduğumuza göre, müzik üret bu sıkıştırılmış ayrık uzayda.
müzik kutusu kullanır otoregresif transformatörler çıkış sesini oluşturmak için Transformatörler, sıralı verilerle en iyi şekilde çalışan bir tür sinir ağıdır. Belirteç dizisi verildiğinde, bir transformatör modeli bir sonraki belirteci tahmin etmeye çalışacaktır.
Jukebox, Sparse Transformers'ın basitleştirilmiş bir çeşidini kullanır. Önceki tüm modeller eğitildikten sonra, transformatör sıkıştırılmış kodlar üretir ve bunlar daha sonra VQ-VAE kod çözücü kullanılarak ham sese kod çözülür.
Jukebox'ta Sanatçı ve Tür Koşullandırması
Jukebox'ın üretici modeli, eğitim adımı sırasında ek koşullu sinyaller sağlayarak daha kontrol edilebilir hale getirildi.
İlk modeller, her şarkı için sanatçılar ve tür etiketleri tarafından sağlanmaktadır. Bu, ses tahmininin entropisini azaltır ve modelin daha iyi kalite elde etmesini sağlar. Etiketler ayrıca modeli belirli bir tarzda yönlendirmemizi sağlar.
Sanatçı ve türün yanı sıra, eğitim süresi boyunca zamanlama sinyalleri eklenir. Bu sinyaller şarkının uzunluğunu, belirli bir örneğin başlangıç zamanını ve şarkının geçen kısmını içerir. Bu ek bilgi, modelin genel yapıya dayanan ses modellerini anlamasına yardımcı olur.
Örneğin, model canlı müzik için alkışın bir şarkının sonunda olduğunu öğrenebilir. Model, örneğin bazı türlerin diğerlerinden daha uzun enstrümantal bölümlere sahip olduğunu da öğrenebilir.
şarkı sözleri
Önceki bölümde bahsedilen koşullu modeller, çeşitli şarkı söyleme sesleri üretme yeteneğine sahiptir. Ancak, bu sesler tutarsız ve tanınmaz olma eğilimindedir.
Şarkı sözü üretimi söz konusu olduğunda üretici modeli kontrol etmek için araştırmacılar eğitim zamanında daha fazla bağlam sağlar. Araştırmacılar, şarkı sözü verilerini gerçek sesin zamanlamasına eşlemeye yardımcı olmak için sulu vokalleri çıkarmak ve NUS AutoLyricsAlign şarkı sözlerinin kelime düzeyinde hizalamalarını elde etmek için.
Jukebox Modelinin Sınırlamaları
Jukebox'ın ana sınırlamalarından biri, daha büyük müzik yapılarını anlamasıdır. Örneğin, çıkışın 20 saniyelik kısa bir klibi kulağa etkileyici gelebilir, ancak dinleyiciler, son çıkışta yinelenen koroların ve dizelerin tipik müzikal yapısının olmadığını fark edeceklerdir.
Modelin işlenmesi de yavaştır. Bir dakikalık sesin tamamen işlenmesi yaklaşık 9 saat sürer. Bu, üretilebilecek şarkı sayısını sınırlar ve modelin etkileşimli uygulamalarda kullanılmasını engeller.
Son olarak, araştırmacılar, örnek veri kümesinin öncelikle İngilizce olduğunu ve öncelikle Batı müziği geleneklerini gösterdiğini belirtmişlerdir. Yapay zeka araştırmacıları, gelecekteki araştırmaları diğer dillerde ve Batı dışı müzik tarzlarında müzik üretmeye odaklayabilir.
Sonuç
Jukebox projesi, ham ses gibi karmaşık verilerin doğru gizli temsillerini oluşturmak için makine öğrenimi modellerinin artan kapasitesini vurgular. Projelerde görüldüğü gibi metinde benzer atılımlar oluyor. GPT 3, ve resimler, OpenAI'lerde görüldüğü gibi DALL-E2.
Bu alandaki araştırma etkileyici olsa da, fikri mülkiyet hakları ve bu modellerin bir bütün olarak yaratıcı endüstriler üzerindeki etkisi hakkında hala endişeler var. Araştırmacılar ve yaratıcılar, bu modellerin gelişmeye devam edebilmesi için yakın işbirliğine devam etmelidir.
Gelecekteki üretken müzik modelleri, yakında müzisyenler için bir araç veya projeler için özel bir müziğe ihtiyaç duyan yaratıcılar için bir uygulama olarak hareket edebilecek.
Yorum bırak