Hefur þig einhvern tíma langað til að heyra uppáhalds karakterinn þinn tala við þig? Náttúrulega hljómandi texti í tal er hægt og rólega að verða að veruleika með hjálp vélanáms.
Til dæmis er NAT TTS líkan Google notað til að knýja nýja þeirra Sérsniðin rödd þjónustu. Þessi þjónusta notar taugakerfi til að búa til rödd sem er þjálfuð úr upptökum. Vefforrit eins og Uberduck útvegaðu hundruð radda sem þú getur valið úr til að búa til þinn eigin tilbúna texta.
Í þessari grein munum við skoða hið glæsilega og jafn dularfulla gervigreind líkan sem kallast 15.ai. Hann er búinn til af nafnlausum þróunaraðila og gæti verið einn af þeim skilvirkustu og tilfinningaríkustu texta-til-tal módel svo langt.
Hvað er 15.ai?
15.ai er gervigreind vefforrit sem er fær um að búa til tilfinningaríkar hátryggðar texta-í-tal raddir. Notendur geta valið úr ýmsum raddum frá Spongebob Squarepants til HAL 9000 frá 2001: A Space Odyssey.
Forritið var þróað af nafnlausum fyrrverandi MIT-rannsakanda sem starfaði undir nafninu 15. Framkvæmdaraðilinn hefur lýst því yfir að verkefnið hafi upphaflega verið hugsað sem hluti af grunnnámsrannsóknartækifærum háskólans.
Margar raddanna sem til eru í 15.ai eru þjálfaðar á opinberum gagnasöfnum af persónum úr My Little Pony: Friendship is Magic. Áhugasamir aðdáendur þáttarins hafa myndað samvinnuverkefni til að safna, umrita og vinna klukkustundir af samræðum með það að markmiði að búa til nákvæma texta-í-tal rafala af uppáhalds persónunum sínum.
Hvað getur 15.ai gert?
15.ai vefforritið virkar með því að velja eina af tugum skáldskaparpersóna sem líkanið hefur verið þjálfað í og senda inn texta. Eftir að hafa smellt á Búa til ætti notandinn að fá þrjú hljóðinnskot af skáldskaparpersónunni sem talar þessar línur.
Þar sem djúpt nám líkanið sem notað er er óákveðið, 15.ai gefur frá sér aðeins öðruvísi ræðu í hvert skipti. Svipað og hvernig leikari gæti þurft margvíslega töku til að fá rétta afhendingu, býr 15.ai til mismunandi sendingarstíla í hvert skipti þar til notandinn finnur úttak sem honum líkar.
Verkefnið felur í sér einstaka eiginleika sem gerir notendum kleift að breyta tilfinningum línunnar sem myndast handvirkt með því að nota tilfinningalega samhengi. Þessar breytur eru færar um að draga ályktun um tilfinningar emojis notenda með því að nota MIT DeepMoji líkan.
Samkvæmt þróunaraðilanum er það sem aðgreinir 15.ai frá öðrum svipuðum TTS forritum að líkanið byggir á mjög litlum gögnum til að klóna raddir nákvæmlega en „halda tilfinningum og náttúruleika ósnortnum“.
Hvernig virkar 15.ai?
Skoðum tæknina á bak við 15.ai.
Í fyrsta lagi segir aðalframleiðandi 15.ai að forritið noti sérsniðið líkan til að búa til raddir með mismunandi tilfinningaástandi. Þar sem höfundur á enn eftir að gefa út ítarlega grein um verkefnið, getum við aðeins gefið okkur víðtækar forsendur um hvað er að gerast á bak við tjöldin.
Að sækja hljóðnema
Fyrst skulum við skoða hvernig forritið greinir innsláttartextann. Áður en forritið getur búið til tal verður það að breyta hverju einstöku orði í sitt safn af hljóðum. Til dæmis er orðið „hundur“ samsett úr þremur hljóðum: /d/, /ɒ/ og /ɡ/.
En hvernig veit 15.ai hvaða hljóðmerki á að nota fyrir hvert orð?
Samkvæmt About síðu 15.ai notar forritið uppflettitöflu fyrir orðabók. Taflan notar Oxford Dictionaries API, Wiktionary og CMU Pronouncing Dictionary sem heimildir. 15.ai notar aðrar vefsíður eins og Reddit og Urban Dictionary sem heimildir fyrir nýlega búin til hugtök og orðasambönd.
Ef eitthvert tiltekið orð er ekki til í orðabókinni er framburður þess ályktaður með því að nota hljóðkerfisreglur sem líkanið hefur lært af LibriTTS gagnasafn. Þetta gagnasafn er gagnagrunnur – gagnasafn með skrifuðum eða töluðum orðum á móðurmáli eða mállýsku – um það bil 585 klukkustundir af fólki sem talar ensku.
Að fella inn tilfinningar
Samkvæmt verktaki reynir líkanið að giska á skynjaða tilfinningar inntakstextans. Líkanið nær þessu verkefni í gegnum DeepMoji viðhorfsgreining fyrirmynd. Þetta tiltekna líkan var þjálfað á milljörðum tísta með emojis með það að markmiði að skilja hvernig tungumál er notað til að tjá tilfinningar. Niðurstaða líkansins er felld inn í TTS líkanið til að hagræða úttakinu í átt að æskilegri tilfinningu.
Þegar hljóðin og tilfinningin hafa verið dregin út úr inntakstextanum er kominn tími til að búa til tal.
Raddklónun og raddmyndun
Texta-til-tal líkön eins og 15.ai eru þekkt sem fjölhátalara líkön. Þessi líkön eru byggð til að geta lært hvernig á að tala með mismunandi röddum. Til þess að þjálfa líkanið okkar á réttan hátt verðum við að finna leið til að draga út einstaka raddaeiginleika og tákna það á þann hátt að tölva geti skilið. Þetta ferli er þekkt sem innfelling hátalara.
Núverandi texta-til-tal líkan nota taugakerfi til að búa til raunverulegt hljóðúttak. Tauganetið samanstendur venjulega af tveimur meginhlutum: kóðara og afkóðara.
Kóðarinn reynir að smíða einn yfirlitsvektor sem byggist á ýmsum inntaksvögrum. Upplýsingar um hljóðmerki, tilfinningaþætti og raddþætti eru settar inn í kóðarann til að búa til framsetningu á því hvað úttakið ætti að vera. Afkóðarinn breytir síðan þessari framsetningu í hljóð og gefur frá sér öryggi.
15.ai vefforritið skilar síðan þremur efstu niðurstöðunum með besta sjálfstraustseinkunnina.
Issues
Með uppgangi gervigreindarmyndaðs efnis eins og deepfakes, að þróa háþróaða gervigreind sem getur líkt eftir raunverulegu fólki getur verið alvarlegt siðferðilegt vandamál.
Eins og er eru raddirnar sem þú getur valið úr 15.ai vefforritinu allar skáldaðar persónur. Það kom þó ekki í veg fyrir að appið vakti nokkra deilur á netinu.
Nokkrir raddleikarar hafa þrýst aftur á notkun raddklónunartækni. Áhyggjur af þeim eru ma eftirlíking, notkun rödd þeirra í skýru efni og möguleikann á því að tæknin gæti gert hlutverk raddleikarans úrelt.
Önnur ágreiningur kom upp fyrr árið 2022 þegar fyrirtæki sem heitir Voiceverse NFT var uppgötvað að nota 15.ai til að búa til efni fyrir markaðsherferð sína.
Niðurstaða
Texti í tal er nú þegar nokkuð ríkjandi í daglegu lífi. Raddaðstoðarmenn, GPS siglingar. og sjálfvirk símtöl eru þegar orðin algeng. Hins vegar eru þessi forrit greinilega ekki nógu mannleg til að við getum sagt að þau séu vélsmíðað tal.
Náttúruleg og tilfinningaþrungin TTS tækni gæti opnað dyrnar fyrir ný forrit. Hins vegar er siðfræði raddklónunar enn vafasamt í besta falli. Það er vissulega skynsamlegt hvers vegna margir þessara vísindamanna hafa verið tregir til að deila reikniritinu með almenningi.
Skildu eftir skilaboð