Pregled sadržaja[Sakriti][Pokazati]
Jeste li ikada željeli čuti kako vaš omiljeni lik razgovara s vama? Tekst-u-govor koji zvuči prirodno polako postaje stvarnost uz pomoć strojnog učenja.
Na primjer, Googleov NAT TTS model koristi se za pokretanje njihovog novog Prilagođeni glas servis. Ova usluga koristi neuronske mreže za generiranje glasa uvježbanog iz snimaka. Web aplikacije kao što su Uberduck pružiti stotine glasova među kojima možete birati kako biste stvorili vlastiti sintetizirani tekst.
U ovom ćemo članku pogledati impresivan i jednako zagonetan AI model poznat kao 15.ai. Stvoren od strane anonimnog programera, možda je jedan od najučinkovitijih i najemotivnijih modeli pretvaranja teksta u govor do sada.
Što je 15.ai?
15.ai je AI web aplikacija koja je sposobna generirati emotivne glasove visoke vjernosti teksta u govor. Korisnici mogu birati između raznih glasova od Spužve Boba Skockanog do HAL 9000 iz 2001: Odiseja u svemiru.
Program je razvio anonimni bivši istraživač MIT-a koji radi pod imenom 15. Programer je izjavio da je projekt prvotno zamišljen kao dio sveučilišnog Programa mogućnosti za dodiplomsko istraživanje.
Mnogi glasovi dostupni u 15.ai uvježbani su na javnim skupovima podataka o likovima iz My Little Pony: Friendship is Magic. Zagriženi obožavatelji serije zajednički su pokušali prikupiti, prepisati i obraditi sate dijaloga s ciljem stvaranja točnih generatora pretvaranja teksta u govor svojih omiljenih likova.
Što 15.ai može?
Web aplikacija 15.ai radi odabirom jednog od desetaka izmišljenih likova na kojima je model treniran i slanjem teksta za unos. Nakon klika na Generiraj, korisnik bi trebao dobiti tri audio isječka fiktivnog lika koji govori zadane retke.
Budući da duboko učenje korišteni model je nedeterministički, 15.ai svaki put ispisuje malo drugačiji govor. Slično kao što glumcu može biti potrebno više puta da dobije pravu isporuku, 15.ai generira različite stilove isporuke svaki put dok korisnik ne pronađe izlaz koji mu se sviđa.
Projekt uključuje jedinstvenu značajku koja korisnicima omogućuje ručno mijenjanje emocija generirane linije pomoću emocionalnih kontekstualizatora. Ovi parametri mogu zaključiti osjećaje emojija koje unose korisnici pomoću MIT-a DeepMoji Model.
Prema programeru, ono što izdvaja 15.ai od drugih sličnih TTS programa je to što se model oslanja na vrlo malo podataka kako bi točno klonirao glasove dok "čuva emocije i prirodnost netaknutima".
Kako radi 15.ai?
Pogledajmo tehnologiju iza 15.ai.
Prvo, glavni programer 15.ai kaže da program koristi prilagođeni model za generiranje glasova s različitim stanjima emocija. Budući da autor tek treba objaviti detaljan rad o projektu, možemo napraviti samo široke pretpostavke o tome što se događa iza kulisa.
Dohvaćanje fonema
Prvo, pogledajmo kako program analizira ulazni tekst. Prije nego što program može generirati govor, mora svaku pojedinačnu riječ pretvoriti u odgovarajuću zbirku fonema. Na primjer, riječ "pas" sastoji se od tri fonema: /d/, /ɒ/ i /ɡ/.
Ali kako 15.ai zna koje foneme koristiti za svaku riječ?
Prema stranici About 15.ai, program koristi tablicu pretraživanja rječnika. Tablica kao izvore koristi Oxford Dictionaries API, Wiktionary i CMU Pronouncing Dictionary. 15.ai koristi druge web stranice kao što su Reddit i Urban Dictionary kao izvore za nove izraze i fraze.
Ako neka navedena riječ ne postoji u rječniku, njezin se izgovor izvodi pomoću fonoloških pravila koja je model naučio iz LibriTTS skup podataka. Ovaj skup podataka je korpus – skup podataka pisanih ili izgovorenih riječi na materinjem jeziku ili dijalektu – otprilike 585 sati ljudi koji govore engleski.
Ugradnja emocija
Prema programeru, model pokušava pogoditi percipiranu emociju unesenog teksta. Model ispunjava ovaj zadatak kroz DeepMoji sentiment analiza model. Ovaj određeni model uvježban je na milijardama tweetova s emotikonima s ciljem razumijevanja načina na koji se jezik koristi za izražavanje emocija. Rezultat modela ugrađen je u TTS model kako bi se manipulirao izlazom prema željenoj emociji.
Nakon što su fonemi i osjećaji izdvojeni iz ulaznog teksta, sada je vrijeme za sintetiziranje govora.
Kloniranje i sinteza glasa
Modeli za pretvaranje teksta u govor kao što je 15.ai poznati su kao modeli s više zvučnika. Ovi su modeli napravljeni kako bi mogli naučiti govoriti različitim glasovima. Kako bismo ispravno obučili naš model, moramo pronaći način da izvučemo jedinstvene glasovne značajke i predstavimo ih na način koji računalo može razumjeti. Ovaj postupak je poznat kao ugradnja zvučnika.
Trenutačni modeli pretvaranja teksta u govor koriste neuronske mreže za stvaranje stvarnog audio izlaza. Neuronska mreža obično se sastoji od dva glavna dijela: kodera i dekodera.
Koder pokušava izgraditi jedan sumarni vektor na temelju različitih ulaznih vektora. Informacije o fonemima, emotivnim aspektima i značajkama glasa stavljaju se u koder kako bi se stvorio prikaz onoga što bi trebao biti izlaz. Dekoder zatim pretvara ovaj prikaz u zvuk i daje ocjenu pouzdanosti.
Web aplikacija 15.ai tada vraća prva tri rezultata s najboljim rezultatom pouzdanosti.
Pitanja
S porastom sadržaja generiranog umjetnom inteligencijom kao što je deepfakes, razvoj napredne umjetne inteligencije koja može oponašati stvarne ljude može biti ozbiljan etički problem.
Trenutačno su svi glasovi koje možete odabrati iz web aplikacije 15.ai izmišljeni likovi. Međutim, to nije spriječilo aplikaciju da izazove kontroverze na internetu.
Nekoliko glasovnih glumaca odustalo je od upotrebe tehnologije kloniranja glasa. Njihova zabrinutost uključuje lažno predstavljanje, korištenje njihova glasa u eksplicitnom sadržaju i mogućnost da bi tehnologija mogla ulogu glasovnog glumca učiniti zastarjelom.
Još jedna kontroverza dogodila se ranije 2022. kada je otkriveno da tvrtka pod nazivom Voiceverse NFT koristi 15.ai za generiranje sadržaja za svoju marketinšku kampanju.
Zaključak
Pretvaranje teksta u govor već je prilično rašireno u svakodnevnom životu. Glasovni pomoćnici, GPS navigatori. a automatizirani telefonski pozivi već su postali uobičajena pojava. Međutim, te su aplikacije očito dovoljno neljudske da možemo reći da su strojno stvoreni govor.
TTS tehnologija koja zvuči prirodno i emotivno mogla bi otvoriti vrata za nove primjene. Međutim, etika kloniranja glasa još uvijek je u najboljem slučaju upitna. Svakako ima smisla zašto mnogi od ovih istraživača nisu bili voljni podijeliti algoritam s javnošću.
Ostavi odgovor