Table of Contents[Ferstopje][Toanje]
Hawwe jo ea jo favorite karakter mei jo prate wolle hearre? Natuerlik klinkende tekst-nei-spraak wurdt stadichoan in werklikheid mei help fan masine learen.
Bygelyks, Google's NAT TTS-model wurdt brûkt om har nije oan te jaan Oanpaste stim betsjinning. Dizze tsjinst brûkt neurale netwurken om in stim te generearjen dy't oplaat is fan opnames. Web apps lykas Uberduck leverje hûnderten stimmen foar jo om út te kiezen om jo eigen synthesized tekst te meitsjen.
Yn dit artikel sille wy it yndrukwekkende en like mysterieuze AI-model besjen, bekend as 15.ai. Makke troch in anonime ûntwikkelder, kin it ien fan 'e meast effisjinte en emosjonele wêze tekst-nei-spraak modellen oant no ta.
Wat is 15.ai?
15.ai is in AI-webapplikaasje dy't by steat is om emosjonele hege-fidelity tekst-nei-spraak stimmen te generearjen. Brûkers kinne kieze út in ferskaat oan stimmen fan Spongebob Squarepants oant HAL 9000 fan 2001: A Space Odyssey.
It programma waard ûntwikkele troch in anonime eardere MIT-ûndersiker dy't wurket ûnder de namme 15. De ûntwikkelder hat oanjûn dat it projekt yn earste ynstânsje waard betocht as ûnderdiel fan it Undergraduate Research Opportunities Program fan 'e universiteit.
In protte fan 'e stimmen dy't beskikber binne yn 15.ai binne oplaat op iepenbiere datasets fan karakters fan My Little Pony: Friendship is Magic. Begearige fans fan 'e show hawwe in gearwurkjende poging foarme om oeren fan dialooch te sammeljen, te transkripearjen en te ferwurkjen mei it doel om krekte tekst-nei-spraak-generators fan har favorite karakters te meitsjen.
Wat kin 15.ai dwaan?
De 15.ai-webapplikaasje wurket troch ien fan tsientallen fiktive karakters te selektearjen wêrop it model is oplaat en ynfiertekst yntsjinje. Nei it klikken op Generearje, moat de brûker trije audioklips krije fan it fiktive karakter dat de opjûne rigels sprekt.
sûnt de djip learen model brûkt is nondeterministic, 15.ai útfiert in wat oare spraak eltse kear. Fergelykber mei hoe't in akteur meardere taken fereaskje kin om de juste levering te krijen, genereart 15.ai elke kear ferskate leveringsstilen oant de brûker in útfier fynt dy't se leuk fine.
It projekt omfettet in unike funksje wêrmei brûkers de emoasje fan 'e generearre line manuell kinne feroarje mei emosjonele contextualizers. Dizze parameters kinne it sentimint ôfliede fan emojis mei brûkersynfier mei MIT's DeepMoji model.
Neffens de ûntwikkelder, wat 15.ai ûnderskiedt fan oare ferlykbere TTS-programma's is dat it model fertrout op heul bytsje gegevens om stimmen sekuer te klonen, wylst "emoasjes en natuerlikens yntakt hâlde".
Hoe wurket 15.ai?
Litte wy nei de technology efter 15.ai sjen.
Earst seit de haadûntwikkelder fan 15.ai dat it programma in oanpast model brûkt om stimmen te generearjen mei ferskate steaten fan emoasje. Om't de skriuwer noch in detaillearre paper oer it projekt hat te publisearjen, kinne wy allinich brede oannames meitsje fan wat der efter de skermen bart.
It opheljen fan de fonemen
Litte wy earst sjen nei hoe't it programma de ynfiertekst parseart. Foardat it programma spraak kin generearje, moat it elk yndividueel wurd omsette yn syn respektivelike samling fonemen. Bygelyks, it wurd "hûn" is gearstald út trije fonemen: /d/, /ɒ/, en /ɡ/.
Mar hoe wit 15.ai hokker fonemen foar elk wurd te brûken?
Neffens de About-side fan 15.ai brûkt it programma in opsyktabel foar wurdboeken. De tabel brûkt de Oxford Dictionaries API, Wiktionary, en it CMU Pronouncing Dictionary as boarnen. 15.ai brûkt oare websiden lykas Reddit en Urban Dictionary as boarnen foar nij betocht termen en útdrukkingen.
As in opjûn wurd net yn it wurdboek bestiet, wurdt de útspraak derfan ôflaat mei fonologyske regels dy't it model hat leard út 'e LibriTTS dataset. Dizze dataset is in korpus - in dataset fan skreaune of sprutsen wurden yn in memmetaal of dialekt - fan likernôch 585 oeren minsken dy't Ingelsk prate.
Emoasjes ynbêde
Neffens de ûntwikkelder besiket it model de waarnommen emoasje fan 'e ynfiertekst te rieden. It model docht dizze taak troch de DeepMoji sentimint analyse model. Dit bepaalde model waard traind op miljarden tweets mei emojis mei it doel om te begripen hoe't taal brûkt wurdt om emoasjes út te drukken. It resultaat fan it model is ynbêde yn it TTS-model om de útfier te manipulearjen nei de winske emoasje.
Sadree't de fonemen en sentimint binne ekstrahearre út de ynfiertekst, is it no tiid om spraak te syntetisearjen.
Voice Cloning en Synteze
Tekst-nei-spraak-modellen lykas 15.ai binne bekend as multi-speaker-modellen. Dizze modellen binne boud om te learen hoe te praten yn ferskate stimmen. Om ús model goed te trenen, moatte wy in manier fine om de unike stimfunksjes te ekstrahearjen en it te fertsjintwurdigjen op in manier dy't in kompjûter kin begripe. Dit proses is bekend as sprekker ynbêde.
Aktuele tekst-nei-spraak modellen brûke neurale netwurken om de eigentlike audioútfier te meitsjen. It neuronale netwurk bestiet typysk út twa haaddielen: in encoder en in decoder.
De kodearder besiket in inkele gearfettingsvektor te bouwen basearre op ferskate ynfiervektoren. Ynformaasje oer de fonemen, emosjonele aspekten en stimfunksjes wurde yn 'e encoder pleatst om in foarstelling te meitsjen fan wat de útfier moat wêze. De dekoder konvertearret dan dizze foarstelling yn audio en jout in fertrouwenskoare út.
De 15.ai-webapplikaasje jout dan de top trije resultaten werom mei de bêste fertrouwenscore.
saken
Mei de opkomst fan AI-generearre ynhâld lykas deepfakes, it ûntwikkeljen fan avansearre AI dy't echte minsken kinne mimike kin in serieus etysk probleem wêze.
Op it stuit binne de stimmen dy't jo kinne kieze út 'e 15.ai-webapplikaasje allegear fiktive karakters. Dat hindere de app lykwols net om wat kontroversje online te sammeljen.
In pear stimakteurs hawwe it gebrûk fan technology foar stimkloning weromset. Soargen fan har omfetsje impersonaasje, it brûken fan har stim yn eksplisite ynhâld, en de mooglikheid dat de technology de rol fan 'e stimakteur ferâldere kin meitsje.
In oare kontroversje barde earder yn 2022 doe't in bedriuw neamd Voiceverse NFT waard ûntdutsen dat se 15.ai brûkte om ynhâld te generearjen foar har marketingkampanje.
Konklúzje
Tekst-nei-spraak komt al frijwat foar yn it deistich libben. Stimassistenten, GPS-navigators. en automatisearre telefoantsjes binne al gewoan wurden wurden. Dizze applikaasjes binne lykwols dúdlik net-minsklik genôch dat wy kinne fertelle dat se masinemakke spraak binne.
Natuerlik klinkende en emosjonele TTS-technology kin de doar iepenje foar nije applikaasjes. De etyk fan stim cloning is lykwols noch altiten twifelich op syn bêst. It makket grif sin wêrom't in protte fan dizze ûndersikers weromhâldend binne om it algoritme te dielen mei it publyk.
Leave a Reply