Вы калі-небудзь хацелі пачуць, як ваш любімы персанаж размаўляе з вамі? Натуральнае гучанне тэксту ў маўленне паступова становіцца рэальнасцю з дапамогай машыннага навучання.
Напрыклад, мадэль Google NAT TTS выкарыстоўваецца для харчавання іх новага Нестандартны голас абслугоўванне. Гэты сэрвіс выкарыстоўвае нейронавыя сеткі для стварэння голасу, навучанага з запісаў. Вэб-праграмы, такія як Убердак забяспечыць сотні галасоў для вас на выбар, каб стварыць свой уласны сінтэзаваны тэкст.
У гэтым артыкуле мы разгледзім уражлівую і не менш загадкавую мадэль штучнага інтэлекту, вядомую як 15.ai. Створаны ананімным распрацоўшчыкам, ён можа быць адным з самых эфектыўных і эмацыйных мадэлі пераўтварэння тэксту ў маўленне да гэтага часу.
Што такое 15.ai?
15.ai гэта вэб-прыкладанне са штучным інтэлектам, здольнае генераваць эмацыйныя галасы высокай дакладнасці тэксту ў маўленне. Карыстальнікі могуць выбіраць з мноства галасоў ад Губкі Боба Квадратных Штанаў да HAL 9000 з 2001: Касмічная Адысея.
Праграма была распрацавана ананімным былым даследчыкам Масачусецкага тэхналагічнага інстытута, які працуе пад імем 15. Распрацоўшчык заявіў, што першапачаткова праект быў задуманы як частка ўніверсітэцкай праграмы бакалаўрыяту даследаванняў.
Многія з галасоў, даступных у 15.ai, навучаны на агульнадаступных наборах даных персанажаў з My Little Pony: Friendship is Magic. Заўзятыя фанаты шоу стварылі сумесныя намаганні для збору, транскрыпцыі і апрацоўкі гадзін дыялогаў з мэтай стварэння дакладных генератараў тэксту ў маўленне сваіх любімых персанажаў.
Што можа зрабіць 15.ai?
Вэб-дадатак 15.ai працуе, выбіраючы аднаго з дзясяткаў выдуманых персанажаў, на якіх навучалася мадэль, і адпраўляе ўведзены тэкст. Пасля націску на «Стварыць» карыстальнік павінен атрымаць тры аўдыязапісы выдуманага персанажа, які прамаўляе зададзеныя радкі.
З глыбокае вывучэнне мадэль, якая выкарыстоўваецца, недэтэрмінаваная, 15.ai кожны раз выдае трохі іншую гаворку. Падобна таму, як акцёру можа спатрэбіцца некалькі дубляў, каб атрымаць правільную дастаўку, 15.ai стварае розныя стылі падачы кожны раз, пакуль карыстальнік не знойдзе выхад, які яму падабаецца.
Праект уключае ў сябе унікальную функцыю, якая дазваляе карыстальнікам уручную змяняць эмоцыі згенераванага радка з дапамогай эмацыйных кантэкстуалізатараў. Гэтыя параметры дазваляюць вызначыць настроі эмодзі, якія ўводзяць карыстальнікі, з дапамогай MIT DeepMoji мадэль.
Па словах распрацоўшчыка, тое, што адрознівае 15.ai ад іншых падобных праграм TTS, заключаецца ў тым, што мадэль абапіраецца на вельмі мала дадзеных для дакладнага кланавання галасоў, «захоўваючы пры гэтым эмоцыі і натуральнасць».
Як працуе 15.ai?
Давайце паглядзім на тэхналогію 15.ai.
Па-першае, галоўны распрацоўшчык 15.ai кажа, што праграма выкарыстоўвае нестандартную мадэль для стварэння галасоў з рознымі станамі эмоцый. Паколькі аўтар яшчэ не апублікаваў падрабязную артыкул аб праекце, мы можам зрабіць толькі агульныя здагадкі аб тым, што адбываецца за кадрам.
Атрыманне фанем
Спачатку давайце паглядзім, як праграма аналізуе ўведзены тэкст. Перш чым праграма зможа генераваць маўленне, яна павінна пераўтварыць кожнае асобнае слова ў адпаведную калекцыю фанем. Напрыклад, слова «сабака» складаецца з трох фанем: /d/, /ɒ/ і /ɡ/.
Але як 15.ai ведае, якія фанемы выкарыстоўваць для кожнага слова?
Згодна са старонкай About 15.ai, праграма выкарыстоўвае табліцу пошуку ў слоўніку. У якасці крыніц у табліцы выкарыстоўваюцца Oxford Dictionaries API, Вікіслоўнік і CMU Pronouncing Dictionary. 15.ai выкарыстоўвае іншыя вэб-сайты, такія як Reddit і Urban Dictionary, у якасці крыніц для новых тэрмінаў і фраз.
Калі якое-небудзь дадзенае слова не існуе ў слоўніку, яго вымаўленне вызначаецца з дапамогай фаналагічных правілаў, якія мадэль даведалася з LibriTTS набор дадзеных. Гэты набор даных уяўляе сабой корпус — набор даных пісьмовых або вусных слоў на роднай мове або дыялекце — прыкладна 585 гадзін людзей, якія размаўляюць па-ангельску.
Убудаванне эмоцый
Па словах распрацоўніка, мадэль спрабуе адгадаць адчуваную эмоцыю ўводнага тэксту. Мадэль выконвае гэтую задачу праз DeepMoji аналіз настрояў мадэль. Гэтая канкрэтная мадэль навучалася на мільярдах твітаў з эмодзі з мэтай зразумець, як мова выкарыстоўваецца для выражэння эмоцый. Вынік мадэлі ўбудоўваецца ў мадэль TTS, каб маніпуляваць выхадам у напрамку жаданай эмоцыі.
Пасля таго, як фанемы і пачуццё былі вынятыя з уваходнага тэксту, прыйшоў час сінтэзаваць маўленне.
Кланаванне і сінтэз голасу
Мадэлі пераўтварэння тэксту ў маўленне, такія як 15.ai, вядомыя як мадэлі з некалькімі дынамікамі. Гэтыя мадэлі створаны для таго, каб навучыцца размаўляць рознымі галасамі. Каб належным чынам навучыць нашу мадэль, мы павінны знайсці спосаб атрымаць унікальныя галасавыя асаблівасці і прадставіць іх так, каб іх зразумеў кампутар. Гэты працэс вядомы як убудаванне дынаміка.
Сучасныя мадэлі пераўтварэння тэксту ў маўленне выкарыстоўваюць нейронавыя сеткі для стварэння фактычнага аўдыявыхаду. Нейронная сетка звычайна складаецца з дзвюх асноўных частак: кадавальнік і дэкодэр.
Кадавальнік спрабуе пабудаваць адзіны зводны вектар на аснове розных уваходных вектараў. Інфармацыя аб фанемах, эмацыйных аспектах і асаблівасцях галасы змяшчаецца ў кадавальнік, каб стварыць уяўленне аб тым, якім павінен быць вынік. Затым дэкодэр пераўтворыць гэтае прадстаўленне ў аўдыя і выдасць ацэнку даверу.
Затым вэб-дадатак 15.ai вяртае тры лепшыя вынікі з найлепшым паказчыкам даверу.
Пытанні
З ростам кантэнту, створанага штучным інтэлектам, напрыклад deepfakes, распрацоўка прасунутага штучнага інтэлекту, які можа імітаваць рэальных людзей, можа быць сур'ёзнай этычнай праблемай.
У цяперашні час галасы, якія вы можаце выбраць з вэб-праграмы 15.ai, з'яўляюцца выдуманымі персанажамі. Аднак гэта не перашкодзіла дадатку выклікаць спрэчкі ў інтэрнэце.
Некалькі акцёраў галасавання адмовіліся ад выкарыстання тэхналогіі кланавання голасу. Іх непакой выклікае выдаванне сябе за іншую асобу, выкарыстанне іх голасу ў нецэнзурным змесціве і магчымасць таго, што гэтая тэхналогія можа зрабіць ролю акцёра голасу састарэлай.
Яшчэ адна спрэчка адбылася раней у 2022 годзе, калі было выяўлена, што кампанія пад назвай Voiceverse NFT выкарыстоўвае 15.ai для стварэння кантэнту для сваёй маркетынгавай кампаніі.
заключэнне
Тэкст у маўленне ўжо даволі шырока распаўсюджаны ў паўсядзённым жыцці. Галасавыя памочнікі, GPS-навігатары. і аўтаматызаваныя тэлефонныя званкі ўжо сталі звычайнай справай. Тым не менш, гэтыя прыкладанні відавочна настолькі нечалавечыя, што мы можам сказаць, што гэта маўленне, створанае машынай.
Натуральнае гучанне і эмацыйная тэхналогія TTS можа адкрыць дзверы для новых прыкладанняў. Тым не менш, этычнасць кланавання голасу ўсё яшчэ застаецца ў лепшым выпадку сумніўнай. Вядома, мае сэнс, чаму многія з гэтых даследчыкаў не жадаюць дзяліцца алгарытмам з грамадскасцю.
Пакінуць каментар