Czy kiedykolwiek chciałeś usłyszeć, jak twoja ulubiona postać rozmawia z tobą? Naturalnie brzmiąca zamiana tekstu na mowę powoli staje się rzeczywistością dzięki uczeniu maszynowemu.
Na przykład model NAT TTS firmy Google jest używany do zasilania ich nowego Niestandardowy głos usługa. Usługa ta wykorzystuje sieci neuronowe do generowania głosu wytrenowanego z nagrań. Aplikacje internetowe, takie jak Uberkacz udostępnij setki głosów do wyboru, aby stworzyć własny syntetyczny tekst.
W tym artykule przyjrzymy się imponującemu i równie zagadkowemu modelowi sztucznej inteligencji, znanemu jako 15.ai. Stworzony przez anonimowego programistę, może być jednym z najbardziej wydajnych i wzbudzających emocje modele zamiany tekstu na mowę do tej pory.
Co to jest 15.ai?
15.ai to aplikacja internetowa AI, która jest zdolna do generowania emocjonalnych głosów o wysokiej wierności tekstu na mowę. Użytkownicy mogą wybierać spośród różnych głosów, od Spongebob Squarepants do HAL 9000 z 2001: A Space Odyssey.
Program został opracowany przez anonimowego byłego badacza MIT pracującego pod nazwą 15. Deweloper oświadczył, że projekt był początkowo pomyślany jako część uniwersyteckiego programu studiów licencjackich.
Wiele głosów dostępnych w 15.ai jest wyszkolonych na publicznych zbiorach danych postaci z My Little Pony: Friendship is Magic. Zapaleni fani serialu podjęli wspólny wysiłek, aby zbierać, transkrybować i przetwarzać godziny dialogów w celu stworzenia dokładnych generatorów tekstu na mowę swoich ulubionych postaci.
Co może zrobić 15.ai?
Aplikacja internetowa 15.ai działa, wybierając jedną z kilkudziesięciu fikcyjnych postaci, na których model został wyszkolony, i przesyłając tekst wejściowy. Po kliknięciu na Generuj, użytkownik powinien otrzymać trzy klipy audio fikcyjnej postaci wypowiadającej dane wersy.
Ponieważ głęboka nauka Zastosowany model jest niedeterministyczny, 15.ai za każdym razem generuje nieco inną mowę. Podobnie jak aktor może wymagać wielu ujęć, aby uzyskać odpowiednią prezentację, 15.ai generuje różne style wyświetlania za każdym razem, dopóki użytkownik nie znajdzie wyników, które mu się podobają.
Projekt zawiera unikalną funkcję, która pozwala użytkownikom ręcznie zmieniać emocje generowanej linii za pomocą kontekstualizatorów emocjonalnych. Te parametry są w stanie wywnioskować sentyment emotikonów wprowadzanych przez użytkownika za pomocą MIT GłębokieMoji model.
Według dewelopera to, co odróżnia 15.ai od innych podobnych programów TTS, polega na tym, że model opiera się na bardzo małej ilości danych, aby dokładnie klonować głosy, jednocześnie „zachowując nienaruszone emocje i naturalność”.
Jak działa 15.ai?
Przyjrzyjmy się technologii stojącej za 15.ai.
Po pierwsze, główny twórca 15.ai twierdzi, że program wykorzystuje niestandardowy model do generowania głosów o różnych stanach emocjonalnych. Ponieważ autor nie opublikował jeszcze szczegółowego artykułu na temat projektu, możemy jedynie przyjąć ogólne założenia tego, co dzieje się za kulisami.
Pobieranie fonemów
Najpierw spójrzmy, jak program analizuje tekst wejściowy. Zanim program będzie mógł generować mowę, musi przekształcić każde słowo w odpowiedni zbiór fonemów. Na przykład słowo „pies” składa się z trzech fonemów: /d/, /ɒ/ i /ɡ/.
Ale skąd 15.ai wie, których fonemów użyć dla każdego słowa?
Według strony About 15.ai, program używa tabeli wyszukiwania słownika. Tabela wykorzystuje jako źródła API Oxford Dictionaries, Wiktionary i CMU Pronuncing Dictionary. 15.ai wykorzystuje inne strony internetowe, takie jak Reddit i Urban Dictionary, jako źródła nowo wymyślonych terminów i fraz.
Jeśli dane słowo nie istnieje w słowniku, jego wymowa jest wyprowadzana z reguł fonologicznych, których model nauczył się od LibritTTS zbiór danych. Ten zbiór danych to korpus — zbiór danych pisanych lub mówionych słów w języku ojczystym lub dialekcie — obejmujący około 585 godzin osób mówiących po angielsku.
Umieszczanie emocji
Według autora model próbuje odgadnąć odczuwaną emocję tekstu wejściowego. Model realizuje to zadanie poprzez DeepMoji Analiza nastrojów Model. Ten konkretny model został przeszkolony na miliardach tweetów z emotikonami, aby zrozumieć, w jaki sposób język jest używany do wyrażania emocji. Wynik modelu jest osadzony w modelu TTS, aby manipulować danymi wyjściowymi w kierunku pożądanej emocji.
Po wyodrębnieniu fonemów i sentymentów z tekstu wejściowego nadszedł czas na syntezę mowy.
Klonowanie i synteza głosu
Modele zamiany tekstu na mowę, takie jak 15.ai, są znane jako modele wielogłośnikowe. Modele te są zbudowane, aby móc nauczyć się mówić różnymi głosami. Aby właściwie wytrenować nasz model, musimy znaleźć sposób na wyodrębnienie unikalnych cech głosu i przedstawienie ich w sposób zrozumiały dla komputera. Proces ten nazywa się osadzaniem głośnika.
Obecne modele zamiany tekstu na mowę sieci neuronowe aby stworzyć rzeczywiste wyjście audio. Sieć neuronowa zazwyczaj składa się z dwóch głównych części: kodera i dekodera.
Koder próbuje zbudować pojedynczy wektor podsumowujący na podstawie różnych wektorów wejściowych. Informacje o fonemach, aspektach emocjonalnych i cechach głosowych są umieszczane w koderze, aby stworzyć reprezentację tego, jaki powinien być wynik. Dekoder następnie konwertuje tę reprezentację na dźwięk i wyświetla wynik ufności.
Aplikacja internetowa 15.ai zwraca następnie trzy najlepsze wyniki z najlepszym wynikiem zaufania.
Zagadnienia
Wraz z rozwojem treści generowanych przez sztuczną inteligencję, takich jak deepfakes, rozwój zaawansowanej sztucznej inteligencji, która może naśladować prawdziwych ludzi, może być poważnym problemem etycznym.
Obecnie głosy, które możesz wybrać z aplikacji internetowej 15.ai, to wszystkie postacie fikcyjne. Jednak to nie powstrzymało aplikacji przed gromadzeniem kontrowersji w Internecie.
Kilku aktorów głosowych wycofało się z używania technologii klonowania głosu. Obawy z ich strony obejmują podszywanie się pod inne osoby, używanie ich głosu w wyraźnych treściach oraz możliwość, że technologia może sprawić, że rola aktora głosowego stanie się przestarzała.
Kolejne kontrowersje pojawiły się wcześniej w 2022 r., Kiedy odkryto, że firma Voiceverse NFT używa 15.ai do generowania treści do swojej kampanii marketingowej.
Wnioski
Zamiana tekstu na mowę jest już dość rozpowszechniona w życiu codziennym. Asystenci głosowi, nawigatorzy GPS. a automatyczne rozmowy telefoniczne stały się już na porządku dziennym. Jednak te aplikacje są na tyle nieludzkie, że możemy stwierdzić, że są to mowa maszynowa.
Naturalnie brzmiąca i pełna emocji technologia TTS może otworzyć drzwi dla nowych zastosowań. Jednak etyka klonowania głosu jest w najlepszym razie wątpliwa. Z pewnością ma sens, dlaczego wielu z tych badaczy niechętnie dzieli się algorytmem z opinią publiczną.
Dodaj komentarz