Wou jy al ooit jou gunstelingkarakter met jou hoor praat? Natuurlik klinkende teks-na-spraak word stadigaan 'n werklikheid met behulp van masjienleer.
Byvoorbeeld, Google se NAT TTS-model word gebruik om hul nuwe aan te dryf Pasgemaakte stem diens. Hierdie diens gebruik neurale netwerke om 'n stem te genereer wat uit opnames opgelei is. Webtoepassings soos Uberduck verskaf honderde stemme vir jou om van te kies om jou eie gesintetiseerde teks te skep.
In hierdie artikel sal ons kyk na die indrukwekkende en ewe enigmatiese KI-model bekend as 15.ai. Geskep deur 'n anonieme ontwikkelaar, kan dit een van die mees doeltreffende en emosionele wees teks-na-spraak-modelle so ver.
Wat is 15.ai?
15.ai is 'n KI-webtoepassing wat in staat is om emosionele hoëtrou-teks-na-spraak-stemme te genereer. Gebruikers kan kies uit 'n verskeidenheid stemme van Spongebob Squarepants tot HAL 9000 vanaf 2001: A Space Odyssey.
Die program is ontwikkel deur 'n anonieme voormalige MIT-navorser wat onder die naam 15 werk. Die ontwikkelaar het verklaar dat die projek aanvanklik as deel van die universiteit se Voorgraadse Navorsingsgeleentheidsprogram ontwerp is.
Baie van die stemme wat in 15.ai beskikbaar is, word opgelei op openbare datastelle van karakters van My Little Pony: Friendship is Magic. Ywerige aanhangers van die program het 'n gesamentlike poging gevorm om ure se dialoog te versamel, transkribeer en verwerk met die doel om akkurate teks-na-spraak-opwekkers van hul gunsteling karakters te skep.
Wat kan 15.ai doen?
Die 15.ai-webtoepassing werk deur een van dosyne fiktiewe karakters te kies waarop die model opgelei is en invoerteks in te dien. Nadat die gebruiker op Genereer geklik het, behoort die gebruiker drie oudiosnitte te ontvang van die fiktiewe karakter wat die gegewe reëls praat.
Sedert die diep leer model wat gebruik word is nie-deterministies, 15.ai voer elke keer 'n effens ander toespraak uit. Soortgelyk aan hoe 'n akteur veelvuldige take benodig om die regte aflewering te kry, genereer 15.ai elke keer verskillende afleweringstyle totdat die gebruiker 'n uitset vind waarvan hulle hou.
Die projek bevat 'n unieke kenmerk wat gebruikers in staat stel om die emosie van die gegenereerde lyn met die hand te verander deur emosionele kontekstualiseerders te gebruik. Hierdie parameters is in staat om die sentiment van gebruikersinvoer-emoji's af te lei met behulp van MIT's DeepMoji model.
Wat 15.ai volgens die ontwikkelaar onderskei van ander soortgelyke TTS-programme, is dat die model op baie min data staatmaak om stemme akkuraat te kloon terwyl "emosies en natuurlikheid ongeskonde hou".
Hoe werk 15.ai?
Kom ons kyk na die tegnologie agter 15.ai.
Eerstens sê die hoofontwikkelaar van 15.ai dat die program 'n pasgemaakte model gebruik om stemme met verskillende toestande van emosie te genereer. Aangesien die skrywer nog nie 'n gedetailleerde referaat oor die projek gepubliseer het nie, kan ons net breë aannames maak van wat agter die skerms gebeur.
Herwinning van die foneme
Kom ons kyk eers hoe die program die invoerteks ontleed. Voordat die program spraak kan genereer, moet dit elke individuele woord in sy onderskeie versameling foneme omskakel. Byvoorbeeld, die woord "hond" is saamgestel uit drie foneme: /d/, /ɒ/, en /ɡ/.
Maar hoe weet 15.ai watter foneme om vir elke woord te gebruik?
Volgens 15.ai se About-bladsy gebruik die program 'n woordeboek-opsoektabel. Die tabel gebruik die Oxford Dictionaries API, Wiktionary en die CMU Pronouncing Dictionary as bronne. 15.ai gebruik ander webwerwe soos Reddit en Urban Dictionary as bronne vir nuwe terme en frases.
Indien enige gegewe woord nie in die woordeboek bestaan nie, word die uitspraak daarvan afgelei deur gebruik te maak van fonologiese reëls wat die model uit die LibriTTS datastel. Hierdie datastel is 'n korpus - 'n datastel van geskrewe of gesproke woorde in 'n moedertaal of dialek - van ongeveer 585 uur mense wat Engels praat.
Inbedding van emosies
Volgens die ontwikkelaar probeer die model om die waargenome emosie van die invoerteks te raai. Die model bereik hierdie taak deur die DeepMoji sentiment analise model. Hierdie spesifieke model is opgelei op miljarde twiets met emoji's met die doel om te verstaan hoe taal gebruik word om emosies uit te druk. Die resultaat van die model word in die TTS-model ingebed om die uitset na die verlangde emosie te manipuleer.
Sodra die foneme en sentiment uit die invoerteks onttrek is, is dit nou tyd om spraak te sintetiseer.
Stemkloning en sintese
Teks-na-spraak-modelle soos 15.ai staan bekend as multi-luidspreker-modelle. Hierdie modelle is gebou om te kan leer hoe om in verskillende stemme te praat. Om ons model behoorlik op te lei, moet ons 'n manier vind om die unieke stemkenmerke te onttrek en dit op 'n manier voor te stel wat 'n rekenaar kan verstaan. Hierdie proses staan bekend as luidsprekerinbedding.
Huidige teks-na-spraak-modelle gebruik neurale netwerke om die werklike oudio-uitvoer te skep. Die neurale netwerk bestaan tipies uit twee hoofdele: 'n enkodeerder en 'n dekodeerder.
Die enkodeerder probeer om 'n enkele opsommingsvektor te bou gebaseer op verskeie insetvektore. Inligting oor die foneme, emosionele aspekte en stemkenmerke word in die enkodeerder geplaas om 'n voorstelling te skep van wat die uitset moet wees. Die dekodeerder omskep dan hierdie voorstelling in oudio en lewer 'n vertrouenstelling uit.
Die 15.ai-webtoepassing gee dan die top drie resultate met die beste vertrouetelling.
Kwessies
Met die opkoms van KI-gegenereerde inhoud soos deepfakes, die ontwikkeling van gevorderde KI wat regte mense kan naboots, kan 'n ernstige etiese kwessie wees.
Tans is die stemme wat jy uit die 15.ai-webtoepassing kan kies almal fiktiewe karakters. Dit het egter nie die toepassing gekeer om 'n mate van kontroversie aanlyn te ontlok nie.
'n Paar stemakteurs het teruggedring op die gebruik van stemkloningtegnologie. Bekommernisse van hulle sluit in verpersoonliking, die gebruik van hul stem in eksplisiete inhoud, en die moontlikheid dat die tegnologie die rol van die stemakteur uitgedien kan maak.
Nog 'n kontroversie het vroeër in 2022 plaasgevind toe ontdek is dat 'n maatskappy genaamd Voiceverse NFT 15.ai gebruik om inhoud vir hul bemarkingsveldtog te genereer.
Gevolgtrekking
Teks-na-spraak is reeds redelik algemeen in die daaglikse lewe. Stemassistente, GPS-navigators. en outomatiese telefoonoproepe het reeds algemeen geword. Hierdie toepassings is egter duidelik nie-menslik genoeg dat ons kan sien dat dit masjiengemaakte spraak is.
Natuurlik klinkende en emosionele TTS-tegnologie kan die deur oopmaak vir nuwe toepassings. Die etiek van stemkloning is egter op sy beste steeds twyfelagtig. Dit maak beslis sin hoekom baie van hierdie navorsers huiwerig was om die algoritme met die publiek te deel.
Lewer Kommentaar