Qatt xtaqt tisma' l-karattru favorit tiegħek jitkellem miegħek? Test-to-speech b'ħoss naturali qed isir realtà bil-mod bl-għajnuna tat-tagħlim tal-magni.
Pereżempju, il-mudell NAT TTS ta 'Google qed jintuża biex iħaddem il-ġdid tagħhom Voice Custom servizz. Dan is-servizz juża netwerks newrali biex jiġġenera vuċi mħarrġa minn reġistrazzjonijiet. Apps tal-web bħal Uberduck ipprovdi mijiet ta' vuċijiet għalik minn fejn tagħżel biex toħloq it-test sintetizzat tiegħek stess.
F'dan l-artikolu, aħna ser inħarsu fuq il-mudell AI impressjonanti u ugwalment enigmatiku magħruf bħala 15.ai. Maħluq minn żviluppatur anonimu, jista 'jkun wieħed mill-aktar effiċjenti u emottivi mudelli test-to-speech s'issa.
X'inhu 15.ai?
15.ai hija applikazzjoni tal-web AI li kapaċi tiġġenera vuċijiet emottivi ta' fedeltà għolja mit-test għal diskors. L-utenti jistgħu jagħżlu minn varjetà ta’ vuċijiet minn SpongeBob Squarepants sa HAL 9000 mill-2001: A Space Odyssey.
Il-programm ġie żviluppat minn riċerkatur anonimu tal-MIT li jaħdem taħt l-isem 15. L-iżviluppatur iddikjara li l-proġett inizjalment kien maħsub bħala parti mill-Programm ta 'Opportunitajiet ta' Riċerka Undergraduate tal-università.
Ħafna mill-vuċijiet disponibbli f'15.ai huma mħarrġa fuq settijiet ta' dejta pubbliċi ta' karattri minn My Little Pony: Friendship is Magic. Fannijiet ħżiena tal-ispettaklu ffurmaw sforz kollaborattiv biex jiġbru, jittraskrivu, u jipproċessaw sigħat ta’ djalogu bil-għan li joħolqu ġeneraturi preċiżi ta’ test-to-speech tal-karattri favoriti tagħhom.
X'jista' jagħmel 15.ai?
L-applikazzjoni tal-web 15.ai taħdem billi tagħżel waħda minn għexieren ta’ karattri fittizji li l-mudell ġie mħarreġ fuqhom u tissottometti test ta’ input. Wara li tikklikkja fuq Iġġenera, l-utent għandu jirċievi tliet klipps awdjo tal-karattru fittizju li jitkellem il-linji mogħtija.
Peress li l- tagħlim fil-fond mudell użat huwa nondeterministiku, 15.ai joħroġ diskors kemmxejn differenti kull darba. Simili għal kif attur jista 'jeħtieġ teħid multipli biex jikseb il-kunsinna t-tajba, 15.ai jiġġenera stili ta' kunsinna differenti kull darba sakemm l-utent isib output li jħobb.
Il-proġett jinkludi karatteristika unika li tippermetti lill-utenti jibdlu manwalment l-emozzjoni tal-linja ġġenerata bl-użu ta 'contextualizers emozzjonali. Dawn il-parametri jistgħu jiddeduċu s-sentiment tal-emojis input tal-utent bl-użu tal-MIT's DeepMoji mudell.
Skont l-iżviluppatur, dak li jiddistingwi 15.ai minn programmi TTS simili oħra huwa li l-mudell jiddependi fuq ftit li xejn data biex tikklona b'mod preċiż il-vuċijiet filwaqt li "jżomm l-emozzjonijiet u n-naturalità intatti".
Kif jaħdem 15.ai?
Ejja nħarsu lejn it-teknoloġija wara 15.ai.
L-ewwel, l-iżviluppatur ewlieni ta '15.ai jgħid li l-programm juża mudell tad-dwana biex jiġġenera vuċijiet bi stati differenti ta' emozzjoni. Peress li l-awtur għad irid jippubblika dokument dettaljat dwar il-proġett, nistgħu biss nagħmlu suppożizzjonijiet wesgħin ta 'dak li qed jiġri wara l-kwinti.
Irkupru tal-Fonemi
L-ewwel, ejja nħarsu lejn kif il-programm janalizza t-test tal-input. Qabel ma l-programm ikun jista’ jiġġenera diskors, irid jikkonverti kull kelma individwali fil-kollezzjoni rispettiva tiegħu ta’ fonemi. Pereżempju, il-kelma "kelb" hija magħmula minn tliet fonemi: /d/, /ɒ/, u /ɡ/.
Imma 15.ai kif jaf liema fonemi juża għal kull kelma?
Skont il-paġna Dwar 15.ai, il-programm juża tabella ta' tiftix fid-dizzjunarju. It-tabella tuża l-Oxford Dictionaries API, Wiktionary, u d-CMU Pronouncing Dictionary bħala sorsi. 15.ai juża websajts oħra bħal Reddit u Urban Dictionary bħala sorsi għal termini u frażijiet li għadhom kif ġew maħluqa.
Jekk xi kelma partikolari ma teżistix fid-dizzjunarju, il-pronunzja tagħha tiġi dedotta permezz ta’ regoli fonoloġiċi li l-mudell tgħallem mill- LibriTTS sett tad-dejta. Dan is-sett tad-dejta huwa corpus—sett tad-dejta ta' kliem miktub jew mitkellem f'lingwa nattiva jew djalett — ta' madwar 585 siegħa ta' nies jitkellmu bl-Ingliż.
Emozzjonijiet Inkorporati
Skont l-iżviluppatur, il-mudell jipprova raden l-emozzjoni perċepita tat-test tal-input. Il-mudell iwettaq dan il-kompitu permezz tal-DeepMoji analiżi ta 'sentiment mudell. Dan il-mudell partikolari ġie mħarreġ fuq biljuni ta’ tweets b’emojis bil-għan li jifhem kif il-lingwa tintuża biex tesprimi l-emozzjonijiet. Ir-riżultat tal-mudell huwa inkorporat fil-mudell TTS biex jimmanipula l-output lejn l-emozzjoni mixtieqa.
Ladarba l-fonemi u s-sentiment ikunu ġew estratti mit-test tal-input, issa wasal iż-żmien li jiġi sintetizzat id-diskors.
Klonazzjoni tal-Vuċi u Sinteżi
Mudelli text-to-speech bħal 15.ai huma magħrufa bħala mudelli multi-speaker. Dawn il-mudelli huma mibnija biex ikunu jistgħu jitgħallmu kif jitkellmu b'vuċijiet differenti. Sabiex inħarrġu sew il-mudell tagħna, irridu nsibu mod kif nieħdu l-karatteristiċi uniċi tal-vuċi u nirrappreżentawh b'mod li kompjuter jista 'jifhem. Dan il-proċess huwa magħruf bħala inkorporazzjoni tal-kelliem.
Mudelli attwali test-to-speech użu netwerks newrali biex toħloq l-output awdjo attwali. In-netwerk newrali tipikament jikkonsisti f'żewġ partijiet ewlenin: encoder u decoder.
L-encoder jipprova jibni vettur sommarju wieħed ibbażat fuq diversi vettori ta 'input. L-informazzjoni dwar il-fonemi, l-aspetti emottivi, u l-karatteristiċi tal-vuċi jitqiegħdu fl-encoder biex tinħoloq rappreżentazzjoni ta 'dak li għandu jkun l-output. Id-decoder imbagħad jikkonverti din ir-rappreżentazzjoni f'awdjo u joħroġ punteġġ ta' kunfidenza.
L-applikazzjoni tal-web 15.ai mbagħad tirritorna l-aqwa tliet riżultati bl-aħjar punteġġ ta’ kunfidenza.
Kwistjonijiet
Biż-żieda tal-kontenut iġġenerat mill-AI bħal deepfakes, l-iżvilupp ta 'AI avvanzata li tista' timita nies reali tista 'tkun kwistjoni etika serja.
Bħalissa, l-ilħna li tista' tagħżel mill-applikazzjoni tal-web 15.ai huma kollha karattri fittizji. Madankollu, dan ma waqqafx l-app milli tiġbor xi kontroversja onlajn.
Ftit atturi tal-vuċi imbuttaw lura fuq l-użu tat-teknoloġija tal-klonazzjoni tal-vuċi. It-tħassib minnhom jinkludi l-impersonifikazzjoni, l-użu tal-vuċi tagħhom f'kontenut espliċitu, u l-possibbiltà li t-teknoloġija tista' tagħmel ir-rwol tal-attur tal-vuċi skadut.
Kontroversja oħra seħħet aktar kmieni fl-2022 meta kumpanija msejħa Voiceverse NFT ġiet skoperta li kienet qed tuża 15.ai biex tiġġenera kontenut għall-kampanja ta 'kummerċjalizzazzjoni tagħha.
konklużjoni
Test-to-speech diġà huwa pjuttost prevalenti fil-ħajja ta 'kuljum. Assistenti tal-vuċi, navigaturi GPS. u telefonati awtomatizzati diġà saru komuni. Madankollu, dawn l-applikazzjonijiet huma distintament mhux umani biżżejjed li nistgħu ngħidu li huma diskors magħmul bil-magni.
It-teknoloġija TTS li tinstema’ naturali u emottiva tista’ tiftaħ il-bieb għal applikazzjonijiet ġodda. Madankollu, l-etika tal-klonazzjoni tal-vuċi għadha dubjuża fl-aħjar. Ċertament jagħmel sens għaliex ħafna minn dawn ir-riċerkaturi kienu riluttanti li jaqsmu l-algoritmu mal-pubbliku.
Ħalli Irrispondi