15.ai – Naturalny i emocjonalny zamiana tekstu na mowę za pomocą sieci neuronowych

Spis treści[Ukryć][Pokazać]

Co to jest 15.ai?+-
- Co może zrobić 15.ai?
Jak działa 15.ai?+-
Zagadnienia
Wnioski

Czy kiedykolwiek chciałeś usłyszeć, jak twoja ulubiona postać rozmawia z tobą? Naturalnie brzmiąca zamiana tekstu na mowę powoli staje się rzeczywistością dzięki uczeniu maszynowemu.

Na przykład model NAT TTS firmy Google jest używany do zasilania ich nowego Niestandardowy głos usługa. Usługa ta wykorzystuje sieci neuronowe do generowania głosu wytrenowanego z nagrań. Aplikacje internetowe, takie jak Uberkacz udostępnij setki głosów do wyboru, aby stworzyć własny syntetyczny tekst.

W tym artykule przyjrzymy się imponującemu i równie zagadkowemu modelowi sztucznej inteligencji, znanemu jako 15.ai. Stworzony przez anonimowego programistę, może być jednym z najbardziej wydajnych i wzbudzających emocje modele zamiany tekstu na mowę do tej pory.

Co to jest 15.ai?

15.ai to aplikacja internetowa AI, która jest zdolna do generowania emocjonalnych głosów o wysokiej wierności tekstu na mowę. Użytkownicy mogą wybierać spośród różnych głosów, od Spongebob Squarepants do HAL 9000 z 2001: A Space Odyssey.

Program został opracowany przez anonimowego byłego badacza MIT pracującego pod nazwą 15. Deweloper oświadczył, że projekt był początkowo pomyślany jako część uniwersyteckiego programu studiów licencjackich.

Wiele głosów dostępnych w 15.ai jest wyszkolonych na publicznych zbiorach danych postaci z My Little Pony: Friendship is Magic. Zapaleni fani serialu podjęli wspólny wysiłek, aby zbierać, transkrybować i przetwarzać godziny dialogów w celu stworzenia dokładnych generatorów tekstu na mowę swoich ulubionych postaci.

Co może zrobić 15.ai?

Aplikacja internetowa 15.ai działa, wybierając jedną z kilkudziesięciu fikcyjnych postaci, na których model został wyszkolony, i przesyłając tekst wejściowy. Po kliknięciu na Generuj, użytkownik powinien otrzymać trzy klipy audio fikcyjnej postaci wypowiadającej dane wersy.

główna aplikacja internetowa 15.ai

Ponieważ głęboka nauka Zastosowany model jest niedeterministyczny, 15.ai za każdym razem generuje nieco inną mowę. Podobnie jak aktor może wymagać wielu ujęć, aby uzyskać odpowiednią prezentację, 15.ai generuje różne style wyświetlania za każdym razem, dopóki użytkownik nie znajdzie wyników, które mu się podobają.

Projekt zawiera unikalną funkcję, która pozwala użytkownikom ręcznie zmieniać emocje generowanej linii za pomocą kontekstualizatorów emocjonalnych. Te parametry są w stanie wywnioskować sentyment emotikonów wprowadzanych przez użytkownika za pomocą MIT GłębokieMoji model.

Według dewelopera to, co odróżnia 15.ai od innych podobnych programów TTS, polega na tym, że model opiera się na bardzo małej ilości danych, aby dokładnie klonować głosy, jednocześnie „zachowując nienaruszone emocje i naturalność”.

Jak działa 15.ai?

Przyjrzyjmy się technologii stojącej za 15.ai.

Po pierwsze, główny twórca 15.ai twierdzi, że program wykorzystuje niestandardowy model do generowania głosów o różnych stanach emocjonalnych. Ponieważ autor nie opublikował jeszcze szczegółowego artykułu na temat projektu, możemy jedynie przyjąć ogólne założenia tego, co dzieje się za kulisami.

Pobieranie fonemów

Najpierw spójrzmy, jak program analizuje tekst wejściowy. Zanim program będzie mógł generować mowę, musi przekształcić każde słowo w odpowiedni zbiór fonemów. Na przykład słowo „pies” składa się z trzech fonemów: /d/, /ɒ/ i /ɡ/.

Ale skąd 15.ai wie, których fonemów użyć dla każdego słowa?

Według strony About 15.ai, program używa tabeli wyszukiwania słownika. Tabela wykorzystuje jako źródła API Oxford Dictionaries, Wiktionary i CMU Pronuncing Dictionary. 15.ai wykorzystuje inne strony internetowe, takie jak Reddit i Urban Dictionary, jako źródła nowo wymyślonych terminów i fraz.

Jeśli dane słowo nie istnieje w słowniku, jego wymowa jest wyprowadzana z reguł fonologicznych, których model nauczył się od LibritTTS zbiór danych. Ten zbiór danych to korpus — zbiór danych pisanych lub mówionych słów w języku ojczystym lub dialekcie — obejmujący około 585 godzin osób mówiących po angielsku.

Umieszczanie emocji

Model 15.ai wyodrębnia odczuwane emocje z tekstu

Według autora model próbuje odgadnąć odczuwaną emocję tekstu wejściowego. Model realizuje to zadanie poprzez DeepMoji Analiza nastrojów Model. Ten konkretny model został przeszkolony na miliardach tweetów z emotikonami, aby zrozumieć, w jaki sposób język jest używany do wyrażania emocji. Wynik modelu jest osadzony w modelu TTS, aby manipulować danymi wyjściowymi w kierunku pożądanej emocji.

Po wyodrębnieniu fonemów i sentymentów z tekstu wejściowego nadszedł czas na syntezę mowy.

Klonowanie i synteza głosu

Modele zamiany tekstu na mowę, takie jak 15.ai, są znane jako modele wielogłośnikowe. Modele te są zbudowane, aby móc nauczyć się mówić różnymi głosami. Aby właściwie wytrenować nasz model, musimy znaleźć sposób na wyodrębnienie unikalnych cech głosu i przedstawienie ich w sposób zrozumiały dla komputera. Proces ten nazywa się osadzaniem głośnika.

Obecne modele zamiany tekstu na mowę sieci neuronowe aby stworzyć rzeczywiste wyjście audio. Sieć neuronowa zazwyczaj składa się z dwóch głównych części: kodera i dekodera.

przykładowy system wielogłośnikowy

Koder próbuje zbudować pojedynczy wektor podsumowujący na podstawie różnych wektorów wejściowych. Informacje o fonemach, aspektach emocjonalnych i cechach głosowych są umieszczane w koderze, aby stworzyć reprezentację tego, jaki powinien być wynik. Dekoder następnie konwertuje tę reprezentację na dźwięk i wyświetla wynik ufności.

Aplikacja internetowa 15.ai zwraca następnie trzy najlepsze wyniki z najlepszym wynikiem zaufania.

wyjścia audio i ich odpowiednie wyniki ufności

Zagadnienia

Wraz z rozwojem treści generowanych przez sztuczną inteligencję, takich jak deepfakes, rozwój zaawansowanej sztucznej inteligencji, która może naśladować prawdziwych ludzi, może być poważnym problemem etycznym.

Obecnie głosy, które możesz wybrać z aplikacji internetowej 15.ai, to wszystkie postacie fikcyjne. Jednak to nie powstrzymało aplikacji przed gromadzeniem kontrowersji w Internecie.

Kilku aktorów głosowych wycofało się z używania technologii klonowania głosu. Obawy z ich strony obejmują podszywanie się pod inne osoby, używanie ich głosu w wyraźnych treściach oraz możliwość, że technologia może sprawić, że rola aktora głosowego stanie się przestarzała.

Kolejne kontrowersje pojawiły się wcześniej w 2022 r., Kiedy odkryto, że firma Voiceverse NFT używa 15.ai do generowania treści do swojej kampanii marketingowej.

Wnioski

Zamiana tekstu na mowę jest już dość rozpowszechniona w życiu codziennym. Asystenci głosowi, nawigatorzy GPS. a automatyczne rozmowy telefoniczne stały się już na porządku dziennym. Jednak te aplikacje są na tyle nieludzkie, że możemy stwierdzić, że są to mowa maszynowa.

Naturalnie brzmiąca i pełna emocji technologia TTS może otworzyć drzwi dla nowych zastosowań. Jednak etyka klonowania głosu jest w najlepszym razie wątpliwa. Z pewnością ma sens, dlaczego wielu z tych badaczy niechętnie dzieli się algorytmem z opinią publiczną.

15.ai – Naturalny i emocjonalny zamiana tekstu na mowę za pomocą sieci neuronowych