Daptar eusi[Sumputkeun][Témbongkeun]
Naha anjeun kantos hoyong ngadangu karakter karesep anjeun ngobrol sareng anjeun? Text-to-speech anu disada alami lalaunan janten kanyataan kalayan bantosan mesin learning.
Salaku conto, modél NAT TTS Google dianggo pikeun ngawasa anu énggal Sora Adat palayanan. Ladenan ieu nganggo jaringan saraf pikeun ngahasilkeun sora anu dilatih tina rékaman. Aplikasi wéb sapertos Uberduck nyadiakeun ratusan sora pikeun anjeun milih ti nyieun téks disintésis Anjeun sorangan.
Dina tulisan ieu, urang bakal ningali modél AI anu pikaresepeun sareng sami-sami misterius anu katelah 15.ai. Dijieun ku pamekar anonim, éta tiasa janten salah sahiji anu pang éfisién sareng émotif model téks-to-speech sajauh ieu.
Naon ari 15.ai?
15. ai nyaéta aplikasi wéb AI anu sanggup ngahasilkeun sora téks-ka-ucapan anu kasatiaan luhur émotif. Pamaké bisa milih ti rupa-rupa sora ti Spongebob Squarepants mun HAL 9000 ti 2001: A Spasi Odyssey.
Program ieu dikembangkeun ku urut panalungtik MIT anonim gawe dina ngaran 15. Pamekar geus nyatakeun yén proyék ieu mimitina katimu salaku bagian tina Program Kasempetan Panalungtikan sarjana universitas urang.
Seueur sora anu aya dina 15.ai dilatih dina set data umum karakter tina My Little Pony: Friendship is Magic. Penggemar avid acara ieu geus ngawangun usaha kolaborasi pikeun ngumpulkeun, nranskripsikeun, sarta prosés jam dialog kalawan tujuan nyieun generator téks-to-speech akurat karakter favorit maranéhanana.
Naon anu bisa 15.ai laksanakeun?
Aplikasi wéb 15.ai jalanna ku milih salah sahiji tina puluhan karakter fiksi anu modélna dilatih sareng ngirim téks input. Saatos ngaklik Generate, pangguna kedah nampi tilu klip audio tina karakter fiksi anu nyarioskeun garis anu dipasihkeun.
ti learning jero model dipaké téh nondeterministic, 15.ai outputs ucapan rada béda unggal waktu. Sarupa jeung kumaha hiji aktor bisa merlukeun sababaraha nyokot pikeun meunangkeun pangiriman katuhu, 15.ai ngahasilkeun gaya pangiriman béda unggal waktu nepi ka pamaké manggihan kaluaran maranéhna resep.
Proyék ieu kalebet fitur unik anu ngamungkinkeun para pangguna ngarobih sacara manual émosi garis anu dibangkitkeun nganggo kontekstualis émosional. Parameter ieu tiasa ngirangan sentimen tina emojis input pangguna nganggo MIT DeepMoji modél.
Numutkeun pamekar, naon anu ngabédakeun 15.ai tina program TTS anu sanés nyaéta modél ngandelkeun data anu sakedik pisan pikeun ngaklon sora sacara akurat bari "ngajaga émosi sareng naturalness gembleng".
Kumaha 15.ai Gawé?
Hayu urang nempo kana téhnologi balik 15.ai.
Kahiji, pamekar utama 15.ai nyebutkeun yen program ngagunakeun modél custom pikeun ngahasilkeun sora kalawan varying kaayaan emosi. Kusabab panulis henteu acan nyebarkeun tulisan rinci ngeunaan proyék éta, urang ngan ukur tiasa ngadamel asumsi anu lega ngeunaan naon anu lumangsung di balik layar.
Malikkeun Foném
Kahiji, hayu urang nempo kumaha program parses téks input. Saméméh program bisa ngahasilkeun ucapan, éta kudu ngarobah unggal kecap individu kana kumpulan fonem na masing-masing. Contona, kecap "anjing" diwangun ku tilu foném: /d/, /ɒ/, jeung /ɡ/.
Tapi kumaha 15.ai nyaho foném mana nu dipaké pikeun unggal kecap?
Numutkeun kana halaman Ngeunaan 15.ai, program éta ngagunakeun tabel milarian kamus. Tabél ngagunakeun Oxford Dictionaries API, Wiktionary, sareng CMU Pronouncing Dictionary salaku sumber. 15.ai nganggo situs wéb sanés sapertos Reddit sareng Urban Dictionary salaku sumber pikeun istilah sareng frasa anu nembe diciptakeun.
Lamun aya kecap anu teu aya dina kamus, lafalna disimpulkeun ngagunakeun aturan fonologis model geus diajar tina BukuTTS susunan data. Dataset ieu mangrupikeun korpus–setset tina kecap-kecap anu ditulis atanapi diucapkeun dina basa asli atanapi dialék-kira-kira 585 jam jalma anu nyarios basa Inggris.
Embedding Emosi
Numutkeun pamekar, modél nyobian nebak émosi anu ditanggap tina téks input. Model ngalaksanakeun tugas ieu ngaliwatan DeepMoji analisis sentimen modél. Modél husus ieu dilatih dina milyaran tweets kalawan emojis kalawan tujuan ngartos kumaha basa dipaké pikeun nganyatakeun émosi. Hasil tina modél ieu diselapkeun kana modél TTS pikeun ngamanipulasi kaluaran kana émosi anu dipikahoyong.
Sakali foném sareng sentimen parantos diékstrak tina téks input, ayeuna waktosna pikeun nyintésis ucapan.
Kloning sora jeung Sintésis
Modél text-to-speech sapertos 15.ai katelah modél multi-speaker. Modél-modél ieu diwangun pikeun tiasa diajar nyarios dina sora anu béda. Pikeun leres ngalatih modél urang, urang kedah milarian cara pikeun ngaékstrak fitur sora anu unik sareng ngagambarkeunana ku cara anu tiasa kahartos ku komputer. Prosés ieu katelah spiker embedding.
Model text-to-speech anu ayeuna dianggo jaringan neural pikeun nyieun kaluaran audio nu sabenerna. Jaringan saraf biasana diwangun ku dua bagian utama: encoder sareng decoder.
Encoder nyoba ngawangun véktor kasimpulan tunggal dumasar kana rupa-rupa vektor input. Inpormasi ngeunaan foném, aspék émotif, sareng fitur sora disimpen kana encoder pikeun nyiptakeun gambaran naon anu kedah kaluaran. Dekoder teras ngarobih perwakilan ieu kana audio sareng ngahasilkeun skor kapercayaan.
Aplikasi wéb 15.ai teras mulihkeun tilu hasil anu paling luhur kalayan skor kapercayaan anu pangsaéna.
isu
Jeung kebangkitan eusi AI-dihasilkeun kayaning deepfakes, ngamekarkeun AI canggih nu bisa meniru jalma nyata bisa jadi masalah etika serius.
Ayeuna, sora anu anjeun tiasa pilih tina aplikasi wéb 15.ai mangrupikeun karakter fiksi. Nanging, éta henteu ngeureunkeun aplikasi tina sababaraha kontrovérsi online.
Sababaraha aktor sora geus kadorong deui kana pamakéan téknologi kloning sora. Kasalahan ti aranjeunna kalebet impersonation, pamakean sorana dina eusi anu eksplisit, sareng kamungkinan téknologi éta tiasa ngajantenkeun peran aktor sora leungit.
Kontrovérsi anu sanés kajantenan awal taun 2022 nalika perusahaan anu disebut Voiceverse NFT kapanggih ngagunakeun 15.ai pikeun ngahasilkeun kontén pikeun kampanye pamasaranna.
kacindekan
Text-to-speech téh geus cukup umum dina kahirupan sapopoé. Asisten sora, GPS navigators. sareng telepon otomatis parantos janten tempat umum. Nanging, aplikasi-aplikasi ieu jelas-jelas sanés-manusa sahingga urang tiasa nyarios yén éta pidato buatan mesin.
Téknologi TTS anu alami sareng émotif tiasa muka panto pikeun aplikasi énggal. Sanajan kitu, etika kloning sora masih questionable di pangalusna. Pasti masuk akal naha seueur panaliti ieu horéam ngabagi algoritma ka masarakat.
Leave a Reply