Bab lan Paragraf[Singidaken][Tampilake]
Apa sampeyan pengin krungu karakter favorit ngomong karo sampeyan? Text-to-speech sing muni alami alon-alon dadi kasunyatan kanthi bantuan machine learning.
Contone, model NAT TTS Google digunakake kanggo menehi daya sing anyar Swara khusus layanan. Layanan iki nggunakake jaringan saraf kanggo ngasilake swara sing dilatih saka rekaman. Aplikasi web kayata Uberduck nyedhiyakake atusan swara sing bisa dipilih kanggo nggawe teks sing disintesis dhewe.
Ing artikel iki, kita bakal nliti model AI sing apik banget lan enigmatic sing dikenal minangka 15.ai. Digawe dening pangembang anonim, bisa uga salah sawijining sing paling efisien lan emosional model text-to-speech supaya adoh.
Apa 15.ai?
15. ai minangka aplikasi web AI sing bisa ngasilake swara teks-kanggo-wicara kanthi kasetyan dhuwur. Pangguna bisa milih saka macem-macem swara saka Spongebob Squarepants kanggo HAL 9000 saka 2001: A Space Odyssey.
Program iki dikembangake dening mantan peneliti MIT anonim sing makarya kanthi jeneng 15. Pangembang wis nyatakake yen proyek kasebut wiwitane disusun minangka bagean saka Program Kesempatan Riset Sarjana Universitas.
Akeh swara sing kasedhiya ing 15.ai dilatih ing set data umum karakter saka My Little Pony: Friendship is Magic. Penggemar pertunjukan kasebut wis nggawe upaya kolaborasi kanggo ngumpulake, transkripsi, lan ngolah jam dialog kanthi tujuan nggawe generator teks-kanggo-wicara sing akurat saka karakter favorit.
15.ai bisa apa?
Aplikasi web 15.ai dianggo kanthi milih salah siji saka puluhan karakter fiksi sing model wis dilatih lan ngirim teks input. Sawise ngeklik Generate, pangguna kudu nampa telung klip audio saka karakter fiksi sing ngomongake garis sing diwenehake.
wiwit sinau jero model sing digunakake nondeterministic, 15.ai output wicara rada beda saben wektu. Kaya carane aktor mbutuhake sawetara wektu kanggo entuk kiriman sing bener, 15.ai ngasilake gaya pangiriman sing beda saben wektu nganti pangguna nemokake output sing disenengi.
Proyek kasebut kalebu fitur unik sing ngidini pangguna ngowahi emosi garis sing digawe kanthi manual nggunakake kontekstualisasi emosional. Parameter kasebut bisa nyimpulake sentimen emojis input pangguna nggunakake MIT DeepMoji model.
Miturut pangembang, apa sing mbedakake 15.ai saka program TTS liyane sing padha yaiku model kasebut ngandelake data sing sithik banget kanggo nggawe kloning swara kanthi akurat nalika "njaga emosi lan naturalness utuh".
Kepiye Cara 15.ai?
Ayo katon menyang teknologi konco 15.ai.
Pisanan, pangembang utama 15.ai ujar manawa program kasebut nggunakake model khusus kanggo ngasilake swara kanthi macem-macem kahanan emosi. Amarga penulis durung nerbitake makalah sing rinci babagan proyek kasebut, kita mung bisa nggawe asumsi sing wiyar babagan apa sing kedadeyan ing mburi layar.
Njupuk Fonem
Pisanan, ayo goleki carane program ngurai teks input. Sadurunge program bisa ngasilake wicara, kudu ngowahi saben tembung dadi koleksi fonem dhewe-dhewe. Contone, tembung "asu" dumadi saka telung fonem: /d/, /ɒ/, lan /ɡ/.
Nanging kepriye carane 15.ai ngerti fonem endi sing digunakake kanggo saben tembung?
Miturut kaca Babagan 15.ai, program kasebut nggunakake tabel golek kamus. Tabel kasebut nggunakake Oxford Dictionaries API, Wiktionary, lan CMU Pronouncing Dictionary minangka sumber. 15.ai nggunakake situs web liyane kayata Reddit lan Kamus Perkotaan minangka sumber kanggo istilah lan frasa sing mentas digawe.
Yen tembung tartamtu ora ana ing kamus, lafal kasebut disimpulake kanthi nggunakake aturan fonologis sing disinaoni saka model kasebut. PustakaTTS kumpulan data. Dataset iki minangka korpus–sekumpulan tembung sing ditulis utawa diucapake ing basa utawa dialek asli–kira-kira 585 jam wong sing nganggo basa Inggris.
Embedding Emosi
Miturut pangembang, model nyoba ngira emosi sing dirasakake saka teks input. Model ngrampungake tugas iki liwat DeepMoji analisis sentimen model. Model tartamtu iki dilatih ing milyar tweets karo emojis kanthi tujuan kanggo mangerteni carane basa digunakake kanggo nyebut emosi. Asil saka model ditempelake menyang model TTS kanggo ngapusi output menyang emosi sing dikarepake.
Sawise fonem lan sentimen wis dijupuk saka teks input, saiki wektu kanggo sintesis wicara.
Kloning Swara lan Sintesis
Model text-to-speech kayata 15.ai dikenal minangka model multi-speaker. Model-model kasebut dibangun supaya bisa sinau babagan cara ngomong kanthi swara sing beda-beda. Supaya bisa nglatih model kita kanthi bener, kita kudu nemokake cara kanggo ngekstrak fitur swara sing unik lan makili kanthi cara sing bisa dingerteni komputer. Proses iki dikenal minangka speaker embedding.
Model text-to-speech saiki digunakake jaringan saraf kanggo nggawe output audio nyata. Jaringan saraf biasane kasusun saka rong bagean utama: encoder lan decoder.
Encoder nyoba mbangun siji vektor ringkesan adhedhasar macem-macem vektor input. Informasi babagan fonem, aspek emotif, lan fitur swara diselehake ing encoder kanggo nggawe representasi apa sing kudu ditindakake. Dekoder banjur ngowahi perwakilan iki dadi audio lan ngasilake skor kapercayan.
Aplikasi web 15.ai banjur ngasilake telung asil paling dhuwur kanthi skor kapercayan paling apik.
masalah
Kanthi munggah konten sing digawe AI kayata deepfakes, ngembangake AI canggih sing bisa niru wong nyata bisa dadi masalah etika sing serius.
Saiki, swara sing bisa sampeyan pilih saka aplikasi web 15.ai iku kabeh karakter fiksi. Nanging, iki ora ngalangi app saka garnering sawetara kontrovèrsi online.
Sawetara aktor swara wis mbatalake panggunaan teknologi kloning swara. Keprigelan saka wong-wong mau kalebu impersonation, panggunaan swara ing konten sing eksplisit, lan kemungkinan teknologi kasebut bisa nyebabake peran aktor swara dadi lungse.
Kontroversi liyane kedadeyan sadurunge ing 2022 nalika perusahaan sing diarani Voiceverse NFT ditemokake nggunakake 15.ai kanggo ngasilake konten kanggo kampanye pemasaran.
kesimpulan
Text-to-speech wis cukup umum ing urip saben dina. Asisten swara, navigator GPS. lan telpon otomatis wis dadi umum-panggonan. Nanging, aplikasi kasebut pancen dudu manungsa sing bisa dingerteni manawa iku wicara sing digawe mesin.
Teknologi TTS sing muni alami lan emotif bisa mbukak lawang kanggo aplikasi anyar. Nanging, etika kloning swara isih bisa dipertanyakan. Mesthi wae kenapa akeh peneliti iki ora gelem nuduhake algoritma kasebut karo masarakat.
Ninggalake a Reply