Daftar Isi[Bersembunyi][Menunjukkan]
Pernahkah Anda ingin mendengar karakter favorit Anda berbicara kepada Anda? Text-to-speech yang terdengar alami perlahan menjadi kenyataan dengan bantuan pembelajaran mesin.
Misalnya, model NAT TTS Google digunakan untuk memberi daya Suara Kustom melayani. Layanan ini menggunakan jaringan saraf untuk menghasilkan suara yang dilatih dari rekaman. Aplikasi web seperti: bebek uber menyediakan ratusan suara untuk Anda pilih untuk membuat teks sintesa Anda sendiri.
Pada artikel ini, kita akan membahas model AI yang mengesankan dan sama misteriusnya yang dikenal sebagai 15.ai. Dibuat oleh pengembang anonim, ini mungkin salah satu yang paling efisien dan emosional model teks-ke-ucapan sejauh ini.
Apa itu 15.ai?
15.ai adalah aplikasi web AI yang mampu menghasilkan suara text-to-speech fidelitas tinggi yang emotif. Pengguna dapat memilih dari berbagai suara dari Spongebob Squarepants hingga HAL 9000 dari 2001: A Space Odyssey.
Program ini dikembangkan oleh mantan peneliti MIT anonim yang bekerja di bawah nama 15. Pengembang telah menyatakan bahwa proyek ini awalnya disusun sebagai bagian dari Program Peluang Penelitian Sarjana universitas.
Banyak suara yang tersedia di 15.ai dilatih pada kumpulan data publik karakter dari My Little Pony: Friendship is Magic. Penggemar berat acara ini telah membentuk upaya kolaboratif untuk mengumpulkan, menyalin, dan memproses berjam-jam dialog dengan tujuan menciptakan generator text-to-speech yang akurat dari karakter favorit mereka.
Apa yang bisa 15.ai lakukan?
Aplikasi web 15.ai bekerja dengan memilih salah satu dari lusinan karakter fiksi yang telah dilatih oleh model dan mengirimkan teks input. Setelah mengklik Hasilkan, pengguna akan menerima tiga klip audio dari karakter fiksi yang mengucapkan baris yang diberikan.
Karena belajar mendalam model yang digunakan adalah nondeterministik, 15.ai mengeluarkan pidato yang sedikit berbeda setiap waktu. Mirip dengan bagaimana seorang aktor mungkin memerlukan beberapa kali pengambilan untuk mendapatkan pengiriman yang tepat, 15.ai menghasilkan gaya pengiriman yang berbeda setiap kali sampai pengguna menemukan output yang mereka sukai.
Proyek ini mencakup fitur unik yang memungkinkan pengguna untuk secara manual mengubah emosi garis yang dihasilkan menggunakan kontekstualisasi emosional. Parameter ini dapat menyimpulkan sentimen emoji input pengguna menggunakan MIT DeepMoji Model.
Menurut pengembangnya, apa yang membedakan 15.ai dari program TTS serupa lainnya adalah bahwa model tersebut bergantung pada data yang sangat sedikit untuk secara akurat mengkloning suara sambil “menjaga emosi dan kealamian tetap utuh”.
Bagaimana 15.ai Bekerja?
Mari kita lihat teknologi di balik 15.ai.
Pertama, pengembang utama 15.ai mengatakan bahwa program tersebut menggunakan model khusus untuk menghasilkan suara dengan berbagai keadaan emosi. Karena penulis belum menerbitkan makalah terperinci tentang proyek ini, kami hanya dapat membuat asumsi luas tentang apa yang terjadi di balik layar.
Mengambil Fonem
Pertama, mari kita lihat bagaimana program mem-parsing teks input. Sebelum program dapat menghasilkan ucapan, ia harus mengubah setiap kata menjadi kumpulan fonemnya masing-masing. Misalnya, kata “anjing” terdiri dari tiga fonem: /d/, /ɒ/, dan /ɡ/.
Tetapi bagaimana 15.ai mengetahui fonem mana yang digunakan untuk setiap kata?
Menurut halaman Tentang 15.ai, program ini menggunakan tabel pencarian kamus. Tabel menggunakan Oxford Dictionaries API, Wiktionary, dan CMU Pronouncing Dictionary sebagai sumber. 15.ai menggunakan situs web lain seperti Reddit dan Urban Dictionary sebagai sumber untuk istilah dan frasa yang baru diciptakan.
Jika ada kata yang tidak ada dalam kamus, pengucapannya disimpulkan menggunakan aturan fonologis yang telah dipelajari model dari PerpustakaanTTS Himpunan data. Kumpulan data ini adalah korpus–kumpulan data kata-kata tertulis atau lisan dalam bahasa atau dialek asli–dari sekitar 585 jam orang yang berbicara bahasa Inggris.
Menanamkan Emosi
Menurut pengembang, model mencoba menebak emosi yang dirasakan dari teks input. Model menyelesaikan tugas ini melalui DeepMoji analisis sentimen model. Model khusus ini dilatih pada miliaran tweet dengan emoji dengan tujuan memahami bagaimana bahasa digunakan untuk mengekspresikan emosi. Hasil dari model tersebut disematkan ke dalam model TTS untuk memanipulasi output menuju emosi yang diinginkan.
Setelah fonem dan sentimen diekstraksi dari teks input, sekarang saatnya untuk mensintesis ucapan.
Kloning dan Sintesis Suara
Model text-to-speech seperti 15.ai dikenal sebagai model multi-speaker. Model-model ini dibuat untuk dapat belajar bagaimana berbicara dengan suara yang berbeda. Untuk melatih model kita dengan benar, kita harus menemukan cara untuk mengekstrak fitur suara yang unik dan merepresentasikannya dengan cara yang dapat dipahami oleh komputer. Proses ini dikenal sebagai penyematan speaker.
Model text-to-speech saat ini menggunakan jaringan saraf untuk membuat output audio yang sebenarnya. Jaringan saraf biasanya terdiri dari dua bagian utama: encoder dan decoder.
Encoder mencoba membangun satu vektor ringkasan berdasarkan berbagai vektor input. Informasi tentang fonem, aspek emotif, dan fitur suara ditempatkan ke dalam encoder untuk membuat representasi seperti apa output yang seharusnya. Dekoder kemudian mengubah representasi ini menjadi audio dan mengeluarkan skor kepercayaan.
Aplikasi web 15.ai kemudian mengembalikan tiga hasil teratas dengan skor kepercayaan terbaik.
Isu
Dengan munculnya konten yang dihasilkan AI seperti deepfakes, mengembangkan AI canggih yang dapat meniru orang sungguhan dapat menjadi masalah etika yang serius.
Saat ini, suara yang dapat Anda pilih dari aplikasi web 15.ai semuanya adalah karakter fiksi. Namun, itu tidak menghentikan aplikasi dari mengumpulkan beberapa kontroversi online.
Beberapa aktor suara telah mendorong kembali penggunaan teknologi kloning suara. Kekhawatiran dari mereka termasuk peniruan identitas, penggunaan suara mereka dalam konten eksplisit, dan kemungkinan bahwa teknologi dapat membuat peran aktor suara menjadi usang.
Kontroversi lain terjadi sebelumnya pada tahun 2022 ketika sebuah perusahaan bernama Voiceverse NFT ditemukan menggunakan 15.ai untuk menghasilkan konten untuk kampanye pemasaran mereka.
Kesimpulan
Text-to-speech sudah cukup lazim dalam kehidupan sehari-hari. Asisten suara, navigator GPS. dan panggilan telepon otomatis sudah menjadi hal biasa. Namun, aplikasi ini cukup jelas bukan manusia sehingga kami dapat mengatakan bahwa itu adalah ucapan buatan mesin.
Teknologi TTS yang terdengar alami dan emotif mungkin membuka pintu untuk aplikasi baru. Namun, etika kloning suara masih dipertanyakan. Tentu masuk akal mengapa banyak peneliti ini enggan membagikan algoritme kepada publik.
Tinggalkan Balasan