İçindekiler[Saklamak][Göstermek]
Hiç en sevdiğiniz karakterin sizinle konuştuğunu duymak istediniz mi? Kulağa doğal gelen metinden konuşmaya, makine öğreniminin yardımıyla yavaş yavaş gerçeğe dönüşüyor.
Örneğin, Google'ın NAT TTS modeli, yeni modellerine güç sağlamak için kullanılıyor. Özel Ses hizmet. Bu hizmet, kayıtlardan eğitilmiş bir ses üretmek için sinir ağlarını kullanır. gibi web uygulamaları ördek Kendi sentezlenmiş metninizi oluşturmak için seçim yapabileceğiniz yüzlerce ses sağlar.
Bu yazıda, 15.ai olarak bilinen etkileyici ve aynı derecede esrarengiz yapay zeka modelini inceleyeceğiz. Anonim bir geliştirici tarafından yaratıldı, en verimli ve duygusal olanlardan biri olabilir. metin okuma modelleri Şimdiye kadar.
15.ai nedir?
15.ai duygusal yüksek kaliteli metinden konuşmaya sesler üretebilen bir yapay zeka web uygulamasıdır. Kullanıcılar Spongebob Squarepants'tan 9000'den HAL 2001'e kadar çeşitli sesler arasından seçim yapabilir: A Space Odyssey.
Program, 15 adı altında çalışan anonim eski bir MIT araştırmacısı tarafından geliştirildi. Geliştirici, projenin başlangıçta üniversitenin Lisans Araştırma Olanakları Programının bir parçası olarak tasarlandığını belirtti.
15.ai'de bulunan seslerin çoğu, My Little Pony: Friendship is Magic'teki karakterlerin halka açık veri kümeleri üzerinde eğitilmiştir. Şovun hevesli hayranları, favori karakterlerinin doğru metinden sese üreteçlerini oluşturmak amacıyla saatlerce süren diyalogları toplamak, yazıya dökmek ve işlemek için ortak bir çaba oluşturdular.
15.ai ne yapabilir?
15.ai web uygulaması, modelin eğitim aldığı düzinelerce kurgusal karakterden birini seçip giriş metnini göndererek çalışır. Oluştur'a tıkladıktan sonra, kullanıcı, verilen satırları konuşan kurgusal karakterin üç ses klibini almalıdır.
Yana derin öğrenme kullanılan model deterministik değildir, 15.ai her seferinde biraz farklı bir konuşma verir. Bir oyuncunun doğru teslimatı elde etmek için birden fazla çekim gerektirebileceğine benzer şekilde, 15.ai, kullanıcı beğendiği bir çıktı bulana kadar her seferinde farklı teslimat stilleri oluşturur.
Proje, kullanıcıların duygusal bağlamsallaştırıcılar kullanarak oluşturulan satırın duygusunu manuel olarak değiştirmesine olanak tanıyan benzersiz bir özellik içeriyor. Bu parametreler, MIT'leri kullanarak kullanıcı girişli emojilerin duyarlılığını belirleyebilir. DerinMoji modeli.
Geliştiriciye göre, 15.ai'yi diğer benzer TTS programlarından ayıran şey, modelin "duyguları ve doğallığı sağlam tutarken" sesleri doğru bir şekilde klonlamak için çok az veriye dayanmasıdır.
15.ai Nasıl Çalışır?
15.ai'nin arkasındaki teknolojiye bakalım.
İlk olarak, 15.ai'nin ana geliştiricisi, programın değişen duygu durumlarına sahip sesler üretmek için özel bir model kullandığını söylüyor. Yazar henüz projeyle ilgili ayrıntılı bir makale yayınlamadığından, perde arkasında neler olduğuna dair yalnızca geniş varsayımlarda bulunabiliriz.
Fonemleri Alma
İlk olarak, programın giriş metnini nasıl ayrıştırdığına bakalım. Programın konuşma üretmeden önce, her bir kelimeyi ilgili fonem koleksiyonuna dönüştürmesi gerekir. Örneğin, "köpek" kelimesi üç fonemden oluşur: /d/, /ɒ/ ve /ɡ/.
Ancak 15.ai her kelime için hangi fonemleri kullanacağını nasıl biliyor?
15.ai'nin Hakkında sayfasına göre, program bir sözlük arama tablosu kullanır. Tablo, kaynak olarak Oxford Sözlükler API'sini, Vikisözlük'ü ve CMU Telaffuz Sözlüğünü kullanır. 15.ai, yeni üretilen terimler ve ifadeler için kaynak olarak Reddit ve Urban Dictionary gibi diğer web sitelerini kullanır.
Sözlükte herhangi bir kelime yoksa, modelin sözlükten öğrendiği fonolojik kurallar kullanılarak telaffuzu çıkarılır. LibriTT'ler veri kümesi. Bu veri seti, İngilizce konuşan yaklaşık 585 saatlik bir insandan oluşan bir ana dil veya lehçede yazılı veya sözlü kelimelerden oluşan bir veri setidir.
Duyguları Gömmek
Geliştiriciye göre model, girdi metninin algılanan duygusunu tahmin etmeye çalışır. Model, bu görevi DeepMoji aracılığıyla gerçekleştirir. duyguları analiz modeli. Bu özel model, dilin duyguları ifade etmek için nasıl kullanıldığını anlamak amacıyla emojili milyarlarca tweet üzerinde eğitildi. Modelin sonucu, çıktıyı istenen duyguya doğru yönlendirmek için TTS modeline gömülür.
Giriş metninden fonemler ve duygu çıkarıldıktan sonra, şimdi konuşma sentezleme zamanıdır.
Ses Klonlama ve Sentezi
15.ai gibi metinden sese modeller, çok hoparlörlü modeller olarak bilinir. Bu modeller, farklı seslerde konuşmayı öğrenebilmek için üretilmiştir. Modelimizi düzgün bir şekilde eğitmek için, benzersiz ses özelliklerini çıkarmanın ve onu bir bilgisayarın anlayabileceği şekilde temsil etmenin bir yolunu bulmalıyız. Bu işlem, hoparlör gömme olarak bilinir.
Mevcut metin-konuşma modellerinin kullanımı nöral ağlar gerçek ses çıkışını oluşturmak için Sinir ağı tipik olarak iki ana bölümden oluşur: bir kodlayıcı ve bir kod çözücü.
Kodlayıcı, çeşitli girdi vektörlerine dayalı olarak tek bir özet vektörü oluşturmaya çalışır. Çıktının ne olması gerektiğinin bir temsilini oluşturmak için ses birimleri, duygusal yönler ve ses özellikleri hakkındaki bilgiler kodlayıcıya yerleştirilir. Kod çözücü daha sonra bu gösterimi sese dönüştürür ve bir güven puanı verir.
15.ai web uygulaması daha sonra en iyi güven puanına sahip ilk üç sonucu verir.
Sorunlar
gibi AI tarafından oluşturulan içeriğin yükselişi ile deepfakesGerçek insanları taklit edebilen gelişmiş yapay zeka geliştirmek ciddi bir etik sorun olabilir.
Şu anda 15.ai web uygulamasından seçebileceğiniz seslerin tamamı kurgusal karakterlerdir. Ancak bu, uygulamanın çevrimiçi olarak bazı tartışmalara yol açmasını engellemedi.
Birkaç seslendirme sanatçısı, ses klonlama teknolojisinin kullanımını geri çekti. Onlardan kaynaklanan endişeler arasında kimliğe bürünme, seslerinin açık içerikte kullanılması ve teknolojinin seslendirme sanatçısı rolünü geçersiz kılma olasılığı yer alıyor.
Başka bir tartışma, 2022'de Voiceverse NFT adlı bir şirketin pazarlama kampanyaları için içerik oluşturmak için 15.ai kullandığı keşfedildiğinde ortaya çıktı.
Sonuç
Metin-konuşma, günlük yaşamda zaten oldukça yaygındır. Sesli asistanlar, GPS navigatörleri. ve otomatik telefon görüşmeleri zaten yaygın hale geldi. Bununla birlikte, bu uygulamalar, makine yapımı konuşma olduklarını söyleyebileceğimiz kadar açıkça insan dışıdır.
Kulağa doğal gelen ve duygusal TTS teknolojisi, yeni uygulamalar için kapıyı açabilir. Bununla birlikte, ses klonlamanın etiği en iyi ihtimalle hala tartışmalıdır. Bu araştırmacıların birçoğunun algoritmayı halkla paylaşmak konusunda neden isteksiz olduğu kesinlikle mantıklı.
Yorum bırak