Inhaltsverzeechnes[Verstoppen][Show]
Hutt Dir jeemools wollt Äre Liiblingsfigur mat Iech schwätzen héieren? Natierlech klingende Text-zu-Ried gëtt lues a lues eng Realitéit mat der Hëllef vu Maschinnléieren.
Zum Beispill gëtt dem Google säin NAT TTS Modell benotzt fir hiren neien ze stäerken Benotzerdefinéiert Stëmm Service. Dëse Service benotzt neural Netzwierker fir eng Stëmm ze generéieren déi aus Opzeechnunge trainéiert gëtt. Web Apps wéi z Uberduck liwwert Honnerte vu Stëmmen fir Iech ze wielen fir Ären eegene synthetiséierte Text ze kreéieren.
An dësem Artikel kucke mir den beandrockenden an gläich enigmateschen AI Modell bekannt als 15.ai. Erstellt vun engem anonymen Entwéckler, et kann ee vun den effizientesten an emotionalsten sinn Text-zu-Ried Modeller sou wäit.
Wat ass 15.ai?
15.ai ass eng AI Webapplikatioun déi fäeg ass emotiv High-Fidelity Text-to-Speech Stëmmen ze generéieren. D'Benotzer kënnen aus enger Rei vu Stëmmen aus Spongebob Squarepants bis HAL 9000 aus 2001 wielen: A Space Odyssey.
De Programm gouf vun engem anonyme fréiere MIT Fuerscher entwéckelt, deen ënner dem Numm schafft 15. Den Entwéckler huet uginn datt de Projet am Ufank als Deel vum Undergraduate Research Opportunities Programm vun der Uni konzipéiert gouf.
Vill vun de Stëmmen, déi am 15.ai verfügbar sinn, ginn op ëffentleche Datesätz vu Personnagen aus My Little Pony trainéiert: Friendship is Magic. Begeeschterten Fans vun der Show hunn e kollaborativen Effort geformt fir Stonnen Dialog ze sammelen, ze transkriptéieren an ze veraarbecht mam Zil genee Text-zu-Ried Generatore vun hire Liiblingsfiguren ze kreéieren.
Wat kann 15.ai maachen?
D'15.ai Webapplikatioun funktionnéiert andeems Dir ee vun Dosende vu fiktive Personnagen auswielt, op deenen de Modell trainéiert gouf an den Input Text ofginn. Nodeems Dir op Generéiere geklickt hutt, sollt de Benotzer dräi Audioclips vum fiktive Charakter kréien, deen déi gegebene Linnen schwätzt.
zanter der ze léieren Modell benotzt ass nondeterministic, 15.ai Output eng liicht aner Ried all Kéier. Ähnlech wéi e Schauspiller e puer Take brauch fir déi richteg Liwwerung ze kréien, generéiert 15.ai all Kéier verschidde Liwwerstiler bis de Benotzer en Output fënnt deen se gär hunn.
De Projet enthält eng eenzegaarteg Feature déi d'Benotzer erlaabt d'Emotioun vun der generéierter Linn manuell z'änneren mat emotionalen Kontextualiséierungen. Dës Parameteren sinn fäeg d'Gefill vu Benotzerinput Emojis mat MIT's ofzeleeën DeepMoji Modell.
Laut dem Entwéckler, wat 15.ai vun aneren ähnlechen TTS Programmer ënnerscheet, ass datt de Modell op ganz wéineg Donnéeën hänkt fir d'Stëmmen präzis ze klonen, während "Emotiounen an d'Naturlechkeet intakt halen".
Wéi funktionnéiert 15.ai?
Loosst eis d'Technologie hannert 15.ai kucken.
Als éischt seet den Haaptentwéckler vun 15.ai datt de Programm e personaliséierte Modell benotzt fir Stëmmen mat ënnerschiddlechen Emotiounen ze generéieren. Well den Auteur nach en detailléierte Pabeier iwwer de Projet publizéiert huet, kënne mir nëmme breet Viraussetzunge maachen, wat hannert de Kulissen geschitt.
D'Phonemes zréckzéien
Als éischt kucke mer wéi de Programm den Inputtext parséiert. Ier de Programm Ried generéiere kann, muss en all eenzel Wuert a seng jeweileg Sammlung vu Phoneme ëmsetzen. Zum Beispill ass d'Wuert "Hond" aus dräi Phonemen zesummegesat: /d/, /ɒ/, an /ɡ/.
Awer wéi weess 15.ai wéi eng Phoneme fir all Wuert ze benotzen?
Laut 15.ai's About Säit benotzt de Programm eng Wierderbuch Lookup Tabell. D'Tabell benotzt den Oxford Dictionaries API, Wiktionary, an de CMU Pronouncing Dictionary als Quellen. 15.ai benotzt aner Websäite wéi Reddit an Urban Dictionary als Quelle fir nei geprägte Begrëffer a Sätze.
Wann e bestëmmt Wuert net am Wierderbuch existéiert, gëtt seng Aussprooch ofgeleet mat phonologesche Reegelen de Modell aus dem LibriTTS dataset. Dësen Dataset ass e Corpus - en Dataset vu schrëftlechen oder geschwate Wierder an enger Mammesprooch oder Dialekt - vu ronn 585 Stonnen vu Leit déi Englesch schwätzen.
Embedding Emotiounen
Laut dem Entwéckler probéiert de Modell déi erkannt Emotioun vum Input Text ze roden. De Modell erfëllt dës Aufgab duerch den DeepMoji sentimentanalyse Modell. Dëse spezielle Modell gouf op Milliarden Tweets mat Emojis trainéiert mam Zil ze verstoen wéi Sprooch benotzt gëtt fir Emotiounen auszedrécken. D'Resultat vum Modell ass an den TTS Modell agebonnen fir d'Ausgab op déi gewënscht Emotioun ze manipuléieren.
Wann d'Phoneme an d'Gefill aus dem Inputtext extrahéiert goufen, ass et elo Zäit fir Ried ze synthetiséieren.
Stëmm Klonen a Synthese
Text-zu-Ried Modeller wéi 15.ai sinn als Multi-Speaker Modeller bekannt. Dës Modeller si gebaut fir ze léieren wéi een a verschiddene Stëmmen schwätzt. Fir eise Modell richteg ze trainéieren, musse mir e Wee fannen fir déi eenzegaarteg Stëmmfeatures ze extrahieren an et op eng Manéier ze representéieren déi e Computer kann verstoen. Dëse Prozess ass bekannt als Speaker Embedding.
Aktuell Text-zu-Ried Modeller benotzen neural Netzwierker fir den aktuellen Audioausgang ze kreéieren. Den neurale Netzwierk besteet normalerweis aus zwee Haaptdeeler: en Encoder an en Decoder.
Den Encoder probéiert en eenzege Resumévektor ze bauen baséiert op verschiddenen Inputvektoren. Informatioun iwwer d'Phoneme, emotional Aspekter a Stëmmfeatures ginn an den Encoder gesat fir eng Duerstellung ze kreéieren wat d'Ausgab soll sinn. Den Decoder konvertéiert dann dës Representatioun an Audio a gëtt e Vertrauensscore eraus.
D'15.ai Webapplikatioun gëtt dann déi Top dräi Resultater mat dem beschte Vertrauensscore zréck.
Problemer
Mat dem Opstig vun AI-generéierten Inhalt wéi Deepfill, Entwécklung vun fortgeschratt AI, déi richteg Leit mimiéiere kann, kann e seriöse etheschen Thema sinn.
De Moment sinn d'Stëmmen, déi Dir aus der 15.ai Webapplikatioun kënnt wielen, all fiktiv Charaktere. Wéi och ëmmer, dat huet d'App net gestoppt fir e puer Kontrovers online ze sammelen.
E puer Stëmmakteuren hunn d'Benotzung vu Stëmmklonentechnologie zréckgedréckt. Bedenken vun hinnen enthalen d'Impersonatioun, d'Benotzung vun hirer Stëmm an expliziten Inhalter, an d'Méiglechkeet datt d'Technologie d'Roll vum Stëmmakteur obsolet ka maachen.
Eng aner Kontrovers ass fréier am Joer 2022 geschitt wéi eng Firma mam Numm Voiceverse NFT entdeckt gouf 15.ai ze benotzen fir Inhalt fir hir Marketingkampagne ze generéieren.
Konklusioun
Text-zu-Ried ass schonn zimlech heefeg am Alldag. Stëmmassistenten, GPS Navigatoren. an automatiséiert Telefonsgespréicher si scho gewéinlech ginn. Wéi och ëmmer, dës Uwendungen sinn däitlech net-mënschlech genuch datt mir kënne soen datt se maschinn gemaachte Ried sinn.
Natierlech klingend an emotional TTS Technologie kéint d'Dier fir nei Uwendungen opmaachen. Wéi och ëmmer, d'Ethik vum Stëmmklonen ass am beschten nach ëmmer a Fro. Et mécht sécherlech Sënn firwat vill vun dëse Fuerscher sech zréckbehalen hunn den Algorithmus mat de Public ze deelen.
Hannerlooss eng Äntwert