Ste si kdaj želeli slišati, kako se vaš najljubši lik pogovarja z vami? Naravno zveneče pretvorbo besedila v govor počasi postaja resničnost s pomočjo strojnega učenja.
Na primer, Googlov model NAT TTS se uporablja za pogon njihovega novega Glas po meri storitev. Ta storitev uporablja nevronske mreže za ustvarjanje glasu, ki je izurjen iz posnetkov. Spletne aplikacije, kot je npr Uberduck nudi na stotine glasov, med katerimi lahko izbirate, da ustvarite lastno sintetizirano besedilo.
V tem članku si bomo ogledali impresiven in enako zagoneten model AI, znan kot 15.ai. Ustvaril ga je anonimni razvijalec in je morda eden najbolj učinkovitih in čustvenih modeli besedila v govor doslej.
Kaj je 15.ai?
15.ai je spletna aplikacija z umetno inteligenco, ki je sposobna ustvariti čustvene glasove visoke ločljivosti besedila v govor. Uporabniki lahko izbirajo med različnimi glasovi od Spongebob Squarepants do HAL 9000 iz 2001: A Space Odyssey.
Program je razvil anonimni nekdanji raziskovalec MIT, ki dela pod imenom 15. Razvijalec je izjavil, da je bil projekt prvotno zasnovan kot del univerzitetnega programa dodiplomskih raziskovalnih priložnosti.
Številni glasovi, ki so na voljo v 15.ai, so urjeni na javnih zbirkah podatkov likov iz Moj mali poni: Prijateljstvo je čarobno. Vneti oboževalci oddaje so oblikovali skupna prizadevanja za zbiranje, prepisovanje in obdelavo ur pogovorov s ciljem ustvariti natančne generatorje besedila v govor svojih najljubših likov.
Kaj lahko naredi 15.ai?
Spletna aplikacija 15.ai deluje tako, da izbere enega od ducatov izmišljenih likov, na katerih se je model uril, in predloži vneseno besedilo. Po kliku na Generate bi moral uporabnik prejeti tri zvočne posnetke izmišljenega lika, ki govori dane vrstice.
Ker globoko učenje uporabljeni model je nedeterminističen, 15.ai vsakič odda nekoliko drugačen govor. Podobno kot lahko igralec zahteva več posnetkov, da dobi pravo dostavo, 15.ai vsakič ustvari različne sloge dostave, dokler uporabnik ne najde rezultata, ki mu je všeč.
Projekt vključuje edinstveno funkcijo, ki uporabnikom omogoča ročno spreminjanje čustev ustvarjene črte z uporabo čustvenih kontekstualizatorjev. Ti parametri lahko sklepajo o razpoloženju emojijev, ki jih vnese uporabnik, z uporabo MIT DeepMoji model.
Po besedah razvijalca je tisto, kar ločuje 15.ai od drugih podobnih programov TTS, to, da se model opira na zelo malo podatkov za natančno kloniranje glasov, medtem ko "ohranja čustva in naravnost nedotaknjene".
Kako deluje 15.ai?
Oglejmo si tehnologijo za 15.ai.
Prvič, glavni razvijalec 15.ai pravi, da program uporablja model po meri za ustvarjanje glasov z različnimi stanji čustev. Ker avtor še ni objavil podrobnega prispevka o projektu, lahko naredimo le splošne predpostavke o tem, kaj se dogaja v zakulisju.
Pridobivanje fonemov
Najprej si poglejmo, kako program razčleni vneseno besedilo. Preden lahko program ustvari govor, mora vsako posamezno besedo pretvoriti v svojo zbirko fonemov. Na primer, beseda "pes" je sestavljena iz treh fonemov: /d/, /ɒ/ in /ɡ/.
Toda kako 15.ai ve, katere foneme uporabiti za vsako besedo?
Glede na stran About 15.ai program uporablja iskalno tabelo slovarja. Tabela kot vire uporablja Oxford Dictionaries API, Wiktionary in CMU Pronouncing Dictionary. 15.ai uporablja druga spletna mesta, kot sta Reddit in Urban Dictionary, kot vire za na novo skovane izraze in fraze.
Če katera koli dana beseda ne obstaja v slovarju, se njena izgovorjava izpelje z uporabo fonoloških pravil, ki se jih je model naučil iz LibriTTS nabor podatkov. Ta nabor podatkov je korpus – nabor podatkov pisnih ali izgovorjenih besed v maternem jeziku ali narečju – približno 585 ur ljudi, ki govorijo angleško.
Vdelava čustev
Po mnenju razvijalca model poskuša uganiti zaznano čustvo vnesenega besedila. Model to nalogo opravi prek DeepMoji Analiza klime model. Ta poseben model je bil uren na milijardah tvitov z emodžiji, da bi razumeli, kako se jezik uporablja za izražanje čustev. Rezultat modela je vdelan v model TTS za manipulacijo izhoda v smeri želenega čustva.
Ko so fonemi in občutki izluščeni iz vhodnega besedila, je zdaj čas za sintetizacijo govora.
Kloniranje in sinteza glasu
Modeli besedila v govor, kot je 15.ai, so znani kot modeli z več zvočniki. Ti modeli so narejeni tako, da se lahko naučijo govoriti z različnimi glasovi. Da bi pravilno usposobili naš model, moramo najti način, kako izluščiti edinstvene glasovne lastnosti in jih predstaviti na način, ki ga lahko razume računalnik. Ta postopek je znan kot vdelava zvočnika.
Trenutni modeli besedila v govor uporabljajo nevronske mreže ustvariti dejanski zvočni izhod. Nevronska mreža je običajno sestavljena iz dveh glavnih delov: kodirnika in dekoderja.
Kodirnik poskuša zgraditi en sumarni vektor na podlagi različnih vhodnih vektorjev. Informacije o fonemih, čustvenih vidikih in glasovnih funkcijah so vstavljene v kodirnik, da se ustvari predstavitev tega, kakšen bi moral biti izhod. Dekoder nato to predstavitev pretvori v zvok in izpiše oceno zaupanja.
Spletna aplikacija 15.ai nato vrne prve tri rezultate z najboljšo oceno zaupanja.
Vprašanja
Z naraščanjem vsebin, ustvarjenih z umetno inteligenco, kot je npr deepfakes, je lahko razvoj napredne umetne inteligence, ki lahko posnema prave ljudi, resno etično vprašanje.
Trenutno so vsi glasovi, ki jih lahko izbirate v spletni aplikaciji 15.ai, izmišljeni liki. Vendar to ni preprečilo, da bi aplikacija v spletu sprožila nekaj polemik.
Nekaj glasovnih igralcev je zavrnilo uporabo tehnologije kloniranja glasu. Njihovi pomisleki vključujejo lažno predstavljanje, uporabo njihovega glasu v eksplicitni vsebini in možnost, da bi zaradi tehnologije vloga glasovnega igralca postala zastarela.
Druga polemika se je zgodila v začetku leta 2022, ko je bilo odkrito, da podjetje z imenom Voiceverse NFT uporablja 15.ai za ustvarjanje vsebine za svojo marketinško kampanjo.
zaključek
Pretvorba besedila v govor je že precej razširjena v vsakdanjem življenju. Glasovni pomočniki, GPS navigatorji. in avtomatizirani telefonski klici so že postali običajni. Vendar pa so te aplikacije očitno dovolj nečloveške, da lahko rečemo, da gre za strojno izdelan govor.
Naravno zveneča in čustvena tehnologija TTS lahko odpre vrata novim aplikacijam. Vendar pa je etičnost kloniranja glasu v najboljšem primeru še vedno vprašljiva. Vsekakor je logično, zakaj veliko teh raziskovalcev algoritma neradi deli z javnostjo.
Pustite Odgovori