Gusto ba nimo madungog ang imong paborito nga karakter nga nakigsulti kanimo? Ang natural-sounding text-to-speech hinayhinay nga nahimong realidad sa tabang sa machine learning.
Pananglitan, ang NAT TTS nga modelo sa Google gigamit aron magamit ang ilang bag-o Custom nga Tingog serbisyo. Kini nga serbisyo naggamit sa mga neural network aron makamugna og usa ka tingog nga gibansay gikan sa mga rekording. Web apps sama sa Uberduck paghatag og gatusan ka mga tingog nga imong mapilian sa paghimo sa imong kaugalingong synthesized nga teksto.
Niini nga artikulo, atong tan-awon ang impresibo ug parehas nga misteryosong modelo sa AI nga nailhan nga 15.ai. Gihimo sa usa ka wala mailhi nga developer, mahimo kini nga usa sa labing episyente ug emosyonal mga modelo sa text-to-speech hangtod karon.
Unsa ang 15.ai?
15.ai usa ka AI web application nga makahimo sa pagmugna og emotive high-fidelity nga text-to-speech nga mga tingog. Makapili ang mga tiggamit gikan sa lainlaing mga tingog gikan sa Spongebob Squarepants hangtod sa HAL 9000 gikan sa 2001: Usa ka Space Odyssey.
Ang programa gimugna sa usa ka wala mailhi nga kanhi tigdukiduki sa MIT nga nagtrabaho ubos sa ngalan nga 15. Gipahayag sa developer nga ang proyekto sa sinugdan gipanamkon isip kabahin sa Undergraduate Research Opportunities Program sa unibersidad.
Daghan sa mga tingog nga anaa sa 15.ai gibansay sa publiko nga mga dataset sa mga karakter gikan sa My Little Pony: Friendship is Magic. Ang mga madasigon nga mga fans sa pasundayag nagporma og usa ka hiniusang paningkamot sa pagkolekta, pag-transcribe, ug pagproseso sa mga oras sa dialog uban ang tumong sa paghimo og tukma nga text-to-speech generators sa ilang mga paboritong karakter.
Unsay mahimo ni 15.ai?
Ang 15.ai web application naglihok pinaagi sa pagpili sa usa sa dosena nga fictional nga mga karakter nga gibansay sa modelo ug nagsumite sa input text. Human sa pag-klik sa Generate, ang user kinahanglang makadawat ug tulo ka audio clip sa fictional nga karakter nga nagsulti sa gihatag nga linya.
Tungod kay ang lawom nga pagkat-on modelo nga gigamit mao ang nondeterministic, 15.ai output sa usa ka gamay nga lain-laing mga sinultihan sa matag higayon. Sama sa kung giunsa ang usa ka aktor mahimong magkinahanglan daghang mga kinahanglanon aron makuha ang husto nga paghatud, ang 15.ai nagmugna ug lainlaing mga istilo sa paghatud sa matag higayon hangtod nga makit-an sa tiggamit ang usa ka output nga gusto nila.
Ang proyekto naglakip sa usa ka talagsaon nga bahin nga nagtugot sa mga tiggamit sa mano-mano nga pag-usab sa emosyon sa namugna nga linya gamit ang emosyonal nga kontekstwalizers. Kini nga mga parameter makahimo sa paghubit sa sentimento sa user-input emojis gamit ang MIT's DeepMoji modelo.
Sumala sa developer, unsa ang nagpalahi sa 15.ai gikan sa uban nga susama nga mga programa sa TTS mao nga ang modelo nagsalig sa gamay kaayo nga datos aron sa tukma nga pag-clone sa mga tingog samtang "nagpabilin nga wala'y sulod ang mga emosyon ug naturalidad".
Giunsa Pagtrabaho ang 15.ai?
Atong tan-awon ang teknolohiya luyo sa 15.ai.
Una, ang nag-unang developer sa 15.ai nag-ingon nga ang programa naggamit sa usa ka custom nga modelo aron makamugna og mga tingog nga adunay lain-laing mga estado sa emosyon. Tungod kay ang tagsulat wala pa makapatik sa usa ka detalyado nga papel sa proyekto, mahimo ra naton maghimo daghang mga pangagpas kung unsa ang nanghitabo sa luyo sa mga talan-awon.
Pagbawi sa mga Phonemes
Una, atong tan-awon kung giunsa pag-parse sa programa ang input text. Sa dili pa ang programa makamugna ug sinultihan, kinahanglang i-convert niini ang matag indibidwal nga pulong ngadto sa tagsa-tagsa ka koleksyon sa mga ponema. Pananglitan, ang pulong nga "iro" gilangkoban sa tulo ka ponema: /d/, /ɒ/, ug /ɡ/.
Apan giunsa pagkahibalo ni 15.ai kung unsang mga ponema ang gamiton sa matag pulong?
Sumala sa pahina sa About sa 15.ai, ang programa naggamit sa lamesa sa pagpangita sa diksyonaryo. Gigamit sa lamesa ang Oxford Dictionaries API, Wiktionary, ug ang CMU Pronouncing Dictionary isip mga tinubdan. Ang 15.ai naggamit sa ubang mga website sama sa Reddit ug Urban Dictionary isip mga tinubdan sa bag-ong gimugna nga mga termino ug hugpong sa mga pulong.
Kung adunay bisan unsang gihatag nga pulong nga wala sa diksyonaryo, ang paglitok niini makuha gamit ang phonological nga mga lagda nga nakat-unan sa modelo gikan sa LibriTTS dataset. Kini nga dataset usa ka corpus–usa ka dataset sa sinulat o gisulti nga mga pulong sa lumad nga pinulongan o diyalekto–nga halos 585 ka oras sa mga tawo nga nagsultig English.
Pag-apil sa mga Emosyon
Sumala sa developer, ang modelo naningkamot sa pagtag-an sa gibati nga emosyon sa input text. Gihimo sa modelo kini nga buluhaton pinaagi sa DeepMoji pagtuki sa sentimento modelo. Kini nga partikular nga modelo gibansay sa binilyon nga mga tweet nga adunay mga emojis nga adunay katuyoan nga masabtan kung giunsa ang pinulongan gigamit sa pagpahayag sa mga emosyon. Ang resulta sa modelo gisulod sa TTS nga modelo aron mamaniobra ang output padulong sa gusto nga emosyon.
Kung makuha na ang mga ponema ug sentimento gikan sa input text, panahon na karon sa pag-synthesize sa sinultihan.
Pag-clone ug Synthesis sa Tingog
Ang mga modelo sa text-to-speech sama sa 15.ai nailhan nga mga modelo nga multi-speaker. Kini nga mga modelo gihimo aron makakat-on unsaon pagsulti sa lainlaing mga tingog. Aron mabansay sa husto ang atong modelo, kinahanglan nga mangita kita ug paagi aron makuha ang talagsaon nga mga bahin sa tingog ug irepresentar kini sa paagi nga masabtan sa usa ka kompyuter. Kini nga proseso nailhan nga speaker embedding.
Gigamit karon ang mga modelo sa text-to-speech neural networks sa paghimo sa aktuwal nga audio output. Ang neural network kasagaran naglangkob sa duha ka nag-unang bahin: usa ka encoder ug usa ka decoder.
Ang encoder mosulay sa paghimo og usa ka summary vector base sa lain-laing input vectors. Ang impormasyon bahin sa mga phonemes, emotive nga aspeto, ug voice feature gibutang sa encoder aron makamugna og representasyon kung unsa ang output. Ang decoder dayon mag-convert niini nga representasyon ngadto sa audio ug mopagawas og confidence score.
Ang 15.ai web application dayon ibalik ang nag-una nga tulo ka mga resulta nga adunay labing maayo nga marka sa pagsalig.
mga isyu
Sa pagsaka sa AI-generated content sama sa deepfakes, ang pagpalambo sa advanced AI nga makasundog sa tinuod nga mga tawo mahimong seryoso nga isyu sa pamatasan.
Sa pagkakaron, ang mga tingog nga imong mapili gikan sa 15.ai web application kay fictional nga mga karakter. Bisan pa, wala kana makapugong sa app gikan sa pagkuha sa pipila ka kontrobersiya online.
Ang pipila ka mga aktor sa tingog nagduso balik sa paggamit sa teknolohiya sa voice cloning. Ang mga kabalaka gikan kanila naglakip sa pagsundog, ang paggamit sa ilang tingog sa dayag nga sulod, ug ang posibilidad nga ang teknolohiya makahimo sa papel sa voice actor nga dili na magamit.
Laing kontrobersiya ang nahitabo sa sayo pa sa 2022 sa dihang ang usa ka kompanya nga gitawag Voiceverse NFT nadiskobrehan nga naggamit sa 15.ai aron makamugna og sulud alang sa ilang kampanya sa pagpamaligya.
Panapos
Ang text-to-speech kay kaylap na sa adlaw-adlaw nga kinabuhi. Mga katabang sa tingog, GPS navigator. ug ang mga automated nga tawag sa telepono nahimo nang komon nga dapit. Bisan pa, kini nga mga aplikasyon klaro nga dili igo nga tawo nga nahibal-an namon nga kini hinimo sa makina nga sinultihan.
Ang natural nga tunog ug emosyonal nga teknolohiya sa TTS mahimong magbukas sa pultahan alang sa mga bag-ong aplikasyon. Bisan pa, ang pamatasan sa pag-clone sa tingog mao gihapon ang kwestyonable sa labing maayo. Tino nga makatarunganon kung ngano nga daghang mga tigdukiduki ang nagpanuko sa pagpaambit sa algorithm sa publiko.
Leave sa usa ka Reply