Jadual Kandungan[Sembunyi][Tunjukkan]
Pernahkah anda mahu mendengar watak kegemaran anda bercakap dengan anda? Teks ke pertuturan yang berbunyi semula jadi perlahan-lahan menjadi kenyataan dengan bantuan pembelajaran mesin.
Sebagai contoh, model NAT TTS Google sedang digunakan untuk menguasakan baharu mereka Suara Tersuai perkhidmatan. Perkhidmatan ini menggunakan rangkaian saraf untuk menjana suara yang dilatih daripada rakaman. Aplikasi web seperti Uberduck menyediakan ratusan suara untuk anda pilih untuk mencipta teks tersintesis anda sendiri.
Dalam artikel ini, kita akan melihat model AI yang mengagumkan dan sama membingungkan yang dikenali sebagai 15.ai. Dicipta oleh pembangun tanpa nama, ia mungkin salah satu yang paling cekap dan emotif model teks ke pertuturan setakat ini.
Apakah 15.ai?
15.ai ialah aplikasi web AI yang mampu menjana suara teks-ke-ucapan kesetiaan tinggi yang penuh emosi. Pengguna boleh memilih daripada pelbagai suara daripada Spongebob Squarepants hingga HAL 9000 dari 2001: A Space Odyssey.
Program ini dibangunkan oleh bekas penyelidik MIT tanpa nama yang bekerja di bawah nama 15. Pembangun telah menyatakan bahawa projek itu pada mulanya difikirkan sebagai sebahagian daripada Program Peluang Penyelidikan Sarjana Muda universiti.
Banyak suara yang tersedia dalam 15.ai dilatih pada set data awam watak daripada My Little Pony: Friendship is Magic. Peminat tegar rancangan itu telah membentuk usaha kolaboratif untuk mengumpul, menyalin dan memproses jam dialog dengan matlamat untuk mencipta penjana teks-ke-ucapan yang tepat bagi watak kegemaran mereka.
Apakah yang boleh 15.ai lakukan?
Aplikasi web 15.ai berfungsi dengan memilih satu daripada berdozen watak fiksyen yang model itu telah dilatih dan menyerahkan teks input. Selepas mengklik pada Jana, pengguna harus menerima tiga klip audio watak fiksyen yang bercakap baris yang diberikan.
Sejak pembelajaran mendalam model yang digunakan adalah tidak tentu, 15.ai mengeluarkan ucapan yang sedikit berbeza setiap kali. Sama seperti bagaimana seorang pelakon mungkin memerlukan beberapa kali untuk mendapatkan penyampaian yang betul, 15.ai menjana gaya penyampaian yang berbeza setiap kali sehingga pengguna menemui output yang mereka suka.
Projek ini termasuk ciri unik yang membolehkan pengguna mengubah secara manual emosi baris yang dijana menggunakan kontekstualisasi emosi. Parameter ini dapat menyimpulkan sentimen emoji input pengguna menggunakan MIT DeepMoji model.
Menurut pembangun, apa yang membezakan 15.ai daripada program TTS lain yang serupa ialah model itu bergantung pada data yang sangat sedikit untuk mengklon suara dengan tepat sambil "menjaga emosi dan keaslian utuh".
Bagaimana 15.ai Berfungsi?
Mari kita lihat teknologi di sebalik 15.ai.
Pertama, pembangun utama 15.ai mengatakan bahawa program ini menggunakan model tersuai untuk menjana suara dengan pelbagai keadaan emosi. Memandangkan pengarang masih belum menerbitkan kertas terperinci mengenai projek itu, kami hanya boleh membuat andaian luas tentang apa yang berlaku di sebalik tabir.
Mendapatkan Fonem
Mula-mula, mari kita lihat bagaimana program menghuraikan teks input. Sebelum program boleh menjana pertuturan, ia mesti menukar setiap perkataan individu ke dalam koleksi fonem masing-masing. Sebagai contoh, perkataan "anjing" terdiri daripada tiga fonem: /d/, /ɒ/, dan /ɡ/.
Tetapi bagaimanakah 15.ai tahu fonem yang hendak digunakan bagi setiap perkataan?
Menurut halaman Perihal 15.ai, program ini menggunakan jadual carian kamus. Jadual menggunakan Oxford Dictionaries API, Wiktionary dan Kamus Sebutan CMU sebagai sumber. 15.ai menggunakan laman web lain seperti Reddit dan Kamus Bandar sebagai sumber untuk istilah dan frasa yang baru dicipta.
Jika mana-mana perkataan tertentu tidak wujud dalam kamus, sebutannya disimpulkan menggunakan peraturan fonologi yang telah dipelajari oleh model daripada LibriTTS set data. Set data ini ialah korpus–set data bertulis atau pertuturan dalam bahasa ibunda atau dialek–kira-kira 585 jam orang yang bertutur dalam bahasa Inggeris.
Membenamkan Emosi
Menurut pembangun, model itu cuba meneka emosi yang dirasakan teks input. Model menyelesaikan tugas ini melalui DeepMoji analisis sentimen model. Model khusus ini dilatih pada berbilion tweet dengan emoji dengan matlamat untuk memahami cara bahasa digunakan untuk menyatakan emosi. Hasil model dibenamkan ke dalam model TTS untuk memanipulasi output ke arah emosi yang dikehendaki.
Sebaik sahaja fonem dan sentimen telah diekstrak daripada teks input, kini tiba masanya untuk mensintesis pertuturan.
Pengklonan dan Sintesis Suara
Model text-to-speech seperti 15.ai dikenali sebagai model multi-speaker. Model ini dibina untuk dapat mempelajari cara bercakap dalam suara yang berbeza. Untuk melatih model kami dengan betul, kami mesti mencari cara untuk mengekstrak ciri suara unik dan mewakilinya dengan cara yang boleh difahami oleh komputer. Proses ini dikenali sebagai pembenaman pembesar suara.
Model teks ke pertuturan semasa digunakan rangkaian saraf untuk mencipta output audio sebenar. Rangkaian saraf biasanya terdiri daripada dua bahagian utama: pengekod dan penyahkod.
Pengekod cuba membina satu vektor ringkasan berdasarkan pelbagai vektor input. Maklumat tentang fonem, aspek emotif dan ciri suara diletakkan ke dalam pengekod untuk mencipta gambaran tentang output yang sepatutnya. Penyahkod kemudian menukar perwakilan ini kepada audio dan mengeluarkan skor keyakinan.
Aplikasi web 15.ai kemudiannya mengembalikan tiga keputusan teratas dengan skor keyakinan terbaik.
Isu
Dengan peningkatan kandungan yang dijana AI seperti deepfakes, membangunkan AI lanjutan yang boleh meniru orang sebenar boleh menjadi isu etika yang serius.
Pada masa ini, suara yang anda boleh pilih daripada aplikasi web 15.ai semuanya adalah watak fiksyen. Walau bagaimanapun, itu tidak menghalang apl itu daripada mendapat beberapa kontroversi dalam talian.
Beberapa pelakon suara telah menolak penggunaan teknologi pengklonan suara. Kebimbangan daripada mereka termasuk penyamaran, penggunaan suara mereka dalam kandungan eksplisit dan kemungkinan teknologi itu boleh menyebabkan peranan pelakon suara menjadi usang.
Satu lagi kontroversi berlaku lebih awal pada tahun 2022 apabila sebuah syarikat bernama Voiceverse NFT didapati menggunakan 15.ai untuk menjana kandungan untuk kempen pemasaran mereka.
Kesimpulan
Text-to-speech sudah cukup lazim dalam kehidupan seharian. Pembantu suara, navigasi GPS. dan panggilan telefon automatik telah menjadi perkara biasa. Walau bagaimanapun, aplikasi ini jelas bukan manusia yang boleh kami ketahui ia adalah pertuturan buatan mesin.
Teknologi TTS yang berbunyi semula jadi dan emotif mungkin membuka pintu untuk aplikasi baharu. Walau bagaimanapun, etika pengklonan suara masih dipersoalkan. Sudah tentu masuk akal mengapa ramai penyelidik ini enggan berkongsi algoritma dengan orang ramai.
Sila tinggalkan balasan anda