Da li ste ikada poželeli da čujete kako vaš omiljeni lik razgovara sa vama? Pretvaranje teksta u govor prirodnog zvučanja polako postaje stvarnost uz pomoć mašinskog učenja.
Na primjer, Googleov NAT TTS model se koristi za napajanje njihovog novog Custom Voice usluga. Ova usluga koristi neuronske mreže za generiranje glasa obučenog iz snimaka. Web aplikacije kao što su Uberduck nudi stotine glasova za odabir kako biste kreirali vlastiti sintetizirani tekst.
U ovom članku ćemo se osvrnuti na impresivan i jednako zagonetan AI model poznat kao 15.ai. Kreiran od strane anonimnog programera, može biti jedan od najefikasnijih i najemotivnijih modeli pretvaranja teksta u govor do sada.
Šta je 15.ai?
15.ai je AI web aplikacija koja je sposobna generirati emotivne glasove visoke vjernosti za pretvaranje teksta u govor. Korisnici mogu birati između različitih glasova od Sunđer Boba Squarepantsa do HAL 9000 iz 2001: Odiseja u svemiru.
Program je razvio anonimni bivši istraživač MIT-a koji radi pod imenom 15. Programer je naveo da je projekat prvobitno zamišljen kao dio univerzitetskog Programa mogućnosti dodiplomskih istraživanja.
Mnogi glasovi dostupni u 15.ai su obučeni na javnim skupovima podataka likova iz My Little Pony: Friendship is Magic. Strastveni obožavatelji serije zajednički su nastojali prikupiti, transkribovati i obraditi sate dijaloga s ciljem stvaranja preciznih generatora pretvaranja teksta u govor svojih omiljenih likova.
Šta može 15.ai?
Web aplikacija 15.ai radi odabirom jednog od desetina izmišljenih likova za koje je model obučen i podnošenjem unosnog teksta. Nakon klika na Generiraj, korisnik bi trebao dobiti tri audio klipa izmišljenog lika koji izgovara zadate redove.
S obzirom da je duboko učenje model koji se koristi je nedeterministički, 15.ai svaki put daje nešto drugačiji govor. Slično kao što glumac može zahtijevati višestruke snimke da bi dobio pravu isporuku, 15.ai generiše različite stilove isporuke svaki put dok korisnik ne pronađe rezultat koji mu se sviđa.
Projekat uključuje jedinstvenu funkciju koja omogućava korisnicima da ručno mijenjaju emociju generirane linije koristeći emocionalne kontekstualizatore. Ovi parametri mogu zaključiti osjećaj emojija koje unose korisnik koristeći MIT-ove DeepMoji Model.
Prema programeru, ono što 15.ai izdvaja od drugih sličnih TTS programa je to što se model oslanja na vrlo malo podataka za precizno kloniranje glasova, a da pritom „održava emocije i prirodnost netaknutima“.
Kako radi 15.ai?
Pogledajmo tehnologiju iza 15.ai.
Prvo, glavni programer 15.ai kaže da program koristi prilagođeni model za generiranje glasova s različitim stanjima emocija. Pošto autor tek treba da objavi detaljan rad o projektu, možemo samo da damo široke pretpostavke o tome šta se dešava iza kulisa.
Preuzimanje fonema
Prvo, pogledajmo kako program analizira ulazni tekst. Prije nego što program može generirati govor, mora svaku pojedinačnu riječ pretvoriti u odgovarajuću kolekciju fonema. Na primjer, riječ "pas" sastoji se od tri fonema: /d/, /ɒ/ i /ɡ/.
Ali kako 15.ai zna koje foneme treba koristiti za svaku riječ?
Prema stranici About 15.ai, program koristi tabelu za pretraživanje rječnika. Tabela koristi Oxford Dictionaries API, Wiktionary i CMU Pronouncing Dictionary kao izvore. 15.ai koristi druge web stranice kao što su Reddit i Urban Dictionary kao izvore za novostvorene termine i fraze.
Ako bilo koja data riječ ne postoji u rječniku, njen izgovor se zaključuje korištenjem fonoloških pravila koja je model naučio iz LibriTTS skup podataka. Ovaj skup podataka je korpus – skup podataka pisanih ili izgovorenih riječi na maternjem jeziku ili dijalektu – od otprilike 585 sati ljudi koji govore engleski.
Embedding Emotions
Prema rečima programera, model pokušava da pogodi percipiranu emociju unesenog teksta. Model ostvaruje ovaj zadatak kroz DeepMoji analiza raspoloženja model. Ovaj model je obučen na milijardama tvitova sa emojijima s ciljem razumijevanja načina na koji se jezik koristi za izražavanje emocija. Rezultat modela je ugrađen u TTS model kako bi se manipulirao izlazom prema željenoj emociji.
Nakon što su fonemi i sentiment izvučeni iz ulaznog teksta, sada je vrijeme da se sintetiše govor.
Kloniranje i sinteza glasa
Modeli pretvaranja teksta u govor kao što je 15.ai poznati su kao modeli sa više zvučnika. Ovi modeli su napravljeni tako da mogu naučiti kako govoriti različitim glasovima. Da bismo pravilno obučili naš model, moramo pronaći način da izdvojimo jedinstvene glasovne karakteristike i predstavimo ih na način koji kompjuter može razumjeti. Ovaj proces je poznat kao ugrađivanje zvučnika.
Koriste se trenutni modeli pretvaranja teksta u govor neuronske mreže da kreirate stvarni audio izlaz. Neuronska mreža se obično sastoji od dva glavna dijela: kodera i dekodera.
Koder pokušava da izgradi jedan sumarni vektor na osnovu različitih ulaznih vektora. Informacije o fonemima, emotivnim aspektima i glasovnim karakteristikama stavljaju se u koder kako bi se stvorila reprezentacija onoga što bi trebao biti izlaz. Dekoder zatim pretvara ovu reprezentaciju u audio i daje rezultat pouzdanosti.
Web aplikacija 15.ai zatim vraća prva tri rezultata sa najboljim rezultatom samopouzdanja.
pitanja
Sa porastom sadržaja generisanog umjetnom inteligencijom kao što su deepfakes, razvoj napredne umjetne inteligencije koja može oponašati stvarne ljude može biti ozbiljan etički problem.
Trenutno su svi glasovi koje možete izabrati iz web aplikacije 15.ai izmišljeni likovi. Međutim, to nije spriječilo aplikaciju da izazove neke kontroverze na mreži.
Nekoliko glasovnih glumaca odustalo je od upotrebe tehnologije kloniranja glasa. Zabrinutost njih uključuje lažno predstavljanje, upotrebu njihovog glasa u eksplicitnom sadržaju i mogućnost da bi tehnologija mogla učiniti ulogu glumca zastarjelom.
Još jedna kontroverza dogodila se ranije 2022. godine kada je otkriveno da kompanija pod nazivom Voiceverse NFT koristi 15.ai za generiranje sadržaja za svoju marketinšku kampanju.
zaključak
Pretvaranje teksta u govor je već prilično rasprostranjeno u svakodnevnom životu. Glasovni asistenti, GPS navigatori. a automatizirani telefonski pozivi su već postali uobičajeno mjesto. Međutim, ove aplikacije su izrazito neljudske dovoljno da možemo reći da je riječ o strojnom govoru.
Prirodna i emotivna TTS tehnologija mogla bi otvoriti vrata za nove primjene. Međutim, etika kloniranja glasa je u najboljem slučaju još uvijek upitna. Svakako ima smisla zašto mnogi od ovih istraživača nerado podijele algoritam s javnošću.
Ostavite odgovor