A keni dashur ndonjëherë të dëgjoni personazhin tuaj të preferuar duke folur me ju? Teksti në të folur me tingull natyral po bëhet ngadalë realitet me ndihmën e mësimit të makinerive.
Për shembull, modeli NAT TTS i Google po përdoret për të fuqizuar të riun e tyre Zëri i personalizuar shërbimi. Ky shërbim përdor rrjetet nervore për të gjeneruar një zë të trajnuar nga regjistrimet. Ueb aplikacione si p.sh Uberduck siguroni qindra zëra nga të cilët mund të zgjidhni për të krijuar tekstin tuaj të sintetizuar.
Në këtë artikull, ne do të shohim modelin mbresëlënës dhe po aq enigmatik të AI të njohur si 15.ai. Krijuar nga një zhvillues anonim, mund të jetë një nga më efikasët dhe më emocionues modelet e tekstit në të folur deri tani.
Çfarë është 15.ai?
15.ai është një aplikacion ueb i AI që është i aftë të gjenerojë zëra emocionues të tekstit në të folur me besnikëri të lartë. Përdoruesit mund të zgjedhin nga një shumëllojshmëri zërash nga SpongeBob SquarePants deri në HAL 9000 nga 2001: A Space Odyssey.
Programi u zhvillua nga një ish-kërkues anonim i MIT-it që punon me emrin 15. Zhvilluesi ka deklaruar se projekti fillimisht ishte konceptuar si pjesë e Programit të Mundësive Kërkimore të Universitetit të Universitetit.
Shumë nga zërat e disponueshëm në 15.ai janë trajnuar në grupe të dhënash publike të personazheve nga My Little Pony: Friendship is Magic. Adhuruesit e zjarrtë të shfaqjes kanë krijuar një përpjekje bashkëpunuese për të mbledhur, transkriptuar dhe përpunuar orë të tëra dialogu me qëllimin për të krijuar gjeneratorë të saktë tekst-në-fjalë të personazheve të tyre të preferuar.
Çfarë mund të bëjë 15.ai?
Aplikacioni ueb 15.ai funksionon duke zgjedhur një nga dhjetëra personazhe imagjinar për të cilët modeli është trajnuar dhe duke dërguar tekstin hyrës. Pasi të klikoni mbi Generate, përdoruesi duhet të marrë tre audio klipe të personazhit imagjinar që flet rreshtat e dhënë.
Që nga të mësuarit e thellë modeli i përdorur nuk është përcaktues, 15.ai nxjerr çdo herë një fjalim paksa të ndryshëm. Ngjashëm me mënyrën se si një aktor mund të kërkojë disa veprime për të marrë dorëzimin e duhur, 15.ai gjeneron stile të ndryshme shpërndarjeje çdo herë derisa përdoruesi të gjejë një rezultat që i pëlqen.
Projekti përfshin një veçori unike që lejon përdoruesit të ndryshojnë manualisht emocionet e linjës së krijuar duke përdorur kontekstualizues emocionalë. Këta parametra janë në gjendje të deduktojnë ndjenjën e emoji-ve të dhëna nga përdoruesi duke përdorur MIT DeepMoji model.
Sipas zhvilluesit, ajo që e veçon 15.ai nga programet e tjera të ngjashme TTS është se modeli mbështetet në shumë pak të dhëna për të klonuar me saktësi zërat duke "mbajtur të paprekura emocionet dhe natyralitetin".
Si funksionon 15.ai?
Le të shohim teknologjinë pas 15.ai.
Së pari, zhvilluesi kryesor i 15.ai thotë se programi përdor një model të personalizuar për të gjeneruar zëra me gjendje të ndryshme emocionesh. Meqenëse autori nuk ka publikuar ende një dokument të detajuar mbi projektin, ne mund të bëjmë vetëm supozime të gjera për atë që po ndodh prapa skenave.
Marrja e telefonave
Së pari, le të shohim se si programi analizon tekstin e hyrjes. Përpara se programi të gjenerojë fjalim, ai duhet të konvertojë çdo fjalë individuale në koleksionin e tij përkatës të fonemave. Për shembull, fjala "qen" përbëhet nga tre fonema: /d/, /ɒ/ dhe /ɡ/.
Por si e di 15.ai cilat fonema të përdorë për secilën fjalë?
Sipas faqes Rreth të 15.ai, programi përdor një tabelë të kërkimit të fjalorit. Tabela përdor Oxford Dictionaries API, Wiktionary dhe CMU Pronouncing Dictionary si burim. 15.ai përdor faqe të tjera interneti si Reddit dhe Urban Dictionary si burime për termat dhe frazat e krijuara rishtazi.
Nëse ndonjë fjalë e dhënë nuk ekziston në fjalor, shqiptimi i saj nxirret duke përdorur rregullat fonologjike që modeli ka mësuar nga LibriTTS grup i të dhënave. Ky grup të dhënash është një korpus – një grup të dhënash fjalësh të shkruara ose të folura në një gjuhë ose dialekt amtare – prej rreth 585 orë njerëzish që flasin anglisht.
Përfshirja e emocioneve
Sipas zhvilluesit, modeli përpiqet të marrë me mend emocionin e perceptuar të tekstit të hyrjes. Modeli e realizon këtë detyrë përmes DeepMoji Analiza ndjenjë model. Ky model i veçantë u trajnua në miliarda cicërima me emoji me qëllimin për të kuptuar se si përdoret gjuha për të shprehur emocionet. Rezultati i modelit është i ngulitur në modelin TTS për të manipuluar rezultatin drejt emocionit të dëshiruar.
Pasi fonemat dhe ndjenjat janë nxjerrë nga teksti hyrës, tani është koha për të sintetizuar fjalimin.
Klonimi dhe sinteza e zërit
Modelet e tekstit në të folur si 15.ai njihen si modele me shumë altoparlantë. Këto modele janë ndërtuar për të qenë në gjendje të mësojnë se si të flasin me zëra të ndryshëm. Për të trajnuar siç duhet modelin tonë, ne duhet të gjejmë një mënyrë për të nxjerrë veçoritë unike të zërit dhe për ta paraqitur atë në një mënyrë që një kompjuter mund ta kuptojë. Ky proces njihet si futja e altoparlantëve.
Përdorimi i modeleve aktuale tekst-në-fjalë rrjetet nervore për të krijuar daljen aktuale të audios. Rrjeti nervor zakonisht përbëhet nga dy pjesë kryesore: një kodues dhe një dekoder.
Enkoderi përpiqet të ndërtojë një vektor të vetëm përmbledhës bazuar në vektorë të ndryshëm hyrës. Informacioni rreth fonemave, aspekteve emocionale dhe veçorive të zërit vendosen në kodues për të krijuar një paraqitje të asaj që duhet të jetë dalja. Më pas, dekoderi e konverton këtë paraqitje në audio dhe nxjerr një rezultat besimi.
Aplikacioni ueb 15.ai kthen më pas tre rezultatet e para me rezultatin më të mirë të besimit.
Çështjet
Me rritjen e përmbajtjes së gjeneruar nga AI si p.sh deepfakes, zhvillimi i inteligjencës artificiale të avancuar që mund të imitojë njerëzit e vërtetë mund të jetë një çështje serioze etike.
Aktualisht, zërat që mund të zgjidhni nga aplikacioni në internet 15.ai janë të gjithë personazhe të trilluar. Sidoqoftë, kjo nuk e ndaloi aplikacionin të grumbullonte disa polemika në internet.
Disa aktorë zanorë kanë refuzuar përdorimin e teknologjisë së klonimit të zërit. Shqetësimet prej tyre përfshijnë imitimin, përdorimin e zërit të tyre në përmbajtje eksplicite dhe mundësinë që teknologjia ta bëjë të vjetëruar rolin e aktorit zanor.
Një tjetër polemikë ndodhi më herët në vitin 2022 kur një kompani e quajtur Voiceverse NFT u zbulua se po përdorte 15.ai për të gjeneruar përmbajtje për fushatën e tyre të marketingut.
Përfundim
Tekst-në-fjalë është tashmë mjaft e përhapur në jetën e përditshme. Asistentë zanor, navigatorë GPS. dhe telefonatat e automatizuara tashmë janë bërë të zakonshme. Megjithatë, këto aplikacione janë dukshëm jo-njerëzore aq sa mund të themi se janë të folur të bërë nga makina.
Teknologjia TTS me tingull natyral dhe emocionues mund të hapë derën për aplikacione të reja. Sidoqoftë, etika e klonimit të zërit është ende e diskutueshme në rastin më të mirë. Sigurisht që ka kuptim pse shumë nga këta studiues kanë hezituar të ndajnë algoritmin me publikun.
Lini një Përgjigju