Сіз өзіңіздің сүйікті кейіпкеріңіздің сізбен сөйлескенін естігіңіз келді ме? Табиғи дыбысты мәтіннен сөйлеуге машиналық оқытудың көмегімен баяу шындыққа айналады.
Мысалы, Google-дың NAT TTS моделі олардың жаңасын қуаттандыру үшін пайдаланылады Арнаулы дауыс қызмет көрсету. Бұл қызмет жазбалардан үйретілген дауысты жасау үшін нейрондық желілерді пайдаланады. сияқты веб-қосымшалар Убердак Өзіңіздің синтезделген мәтініңізді жасау үшін таңдау үшін жүздеген дауысты қамтамасыз етіңіз.
Бұл мақалада біз 15.ai деп аталатын әсерлі және бірдей жұмбақ AI моделін қарастырамыз. Анонимді әзірлеуші жасаған ол ең тиімді және эмоционалдылардың бірі болуы мүмкін мәтіннен сөйлеуге арналған модельдер әлі күнге дейін.
15.ai дегеніміз не?
15.ai эмоционалды жоғары дәлдіктегі мәтіннен сөйлеуге дауыстарды жасауға қабілетті AI веб-қосымшасы. Пайдаланушылар Sponge Bob Squarepants және 9000 жылғы HAL 2001: A Space Odyssey дыбыстарының алуан түрін таңдай алады.
Бағдарламаны 15 деген атпен жұмыс істейтін MIT-тің анонимді бұрынғы зерттеушісі әзірлеген. Әзірлеуші жобаның бастапқыда университеттің бакалавриат зерттеу мүмкіндіктері бағдарламасының бір бөлігі ретінде ойластырылғанын айтты.
15.ai нұсқасында қол жетімді көптеген дауыстар My Little Pony: Достық - сиқырлы кейіпкерлердің жалпыға қолжетімді деректер жиынында оқытылады. Шоудың жанкүйерлері өздерінің сүйікті кейіпкерлерінің дәл мәтіннен дыбысқа генераторларын жасау мақсатында диалог сағаттарын жинау, транскрипциялау және өңдеу бойынша бірлескен күш-жігерді қалыптастырды.
15.ai не істей алады?
15.ai веб-қосымшасы модель үйретілген ондаған ойдан шығарылған кейіпкерлердің бірін таңдау және енгізу мәтінін жіберу арқылы жұмыс істейді. «Жасау» түймесін басқаннан кейін пайдаланушы берілген жолдармен сөйлейтін ойдан шығарылған кейіпкердің үш аудиоклипін алуы керек.
содан бері терең білім алу Қолданылатын модель детерминирленген емес, 15.ai әр кезде сәл басқаша сөйлеуді шығарады. Актер дұрыс жеткізуді алу үшін бірнеше рет қабылдауды қажет ететін сияқты, 15.ai пайдаланушы ұнаған нәтижені тапқанша әр уақытта әртүрлі жеткізу мәнерлерін жасайды.
Жобада пайдаланушыларға эмоционалды контекстуализаторлар арқылы жасалған сызықтың эмоциясын қолмен өзгертуге мүмкіндік беретін бірегей мүмкіндік бар. Бұл параметрлер MIT көмегімен пайдаланушы енгізген эмодзилердің көңіл-күйін шығара алады DeepMoji Модель.
Әзірлеушінің айтуынша, 15.ai-ді басқа ұқсас TTS бағдарламаларынан ерекшелендіретін нәрсе - бұл модель «эмоциялар мен табиғилықты сақтай отырып» дауыстарды дәл клондау үшін өте аз деректерге сүйенеді.
15.ai қалай жұмыс істейді?
15.ai артындағы технологияны қарастырайық.
Біріншіден, 15.ai негізгі әзірлеушісі бағдарлама эмоцияның әртүрлі күйлері бар дауыстарды жасау үшін теңшелетін үлгіні қолданатынын айтады. Автор жоба туралы егжей-тегжейлі мақаланы әлі жарияламағандықтан, біз тек сахнаның артында не болып жатқаны туралы кең болжамдар жасай аламыз.
Фонемаларды шығарып алу
Алдымен бағдарлама енгізілген мәтінді қалай талдайтынын қарастырайық. Бағдарлама сөйлеуді тудырмас бұрын, ол әрбір жеке сөзді өзінің сәйкес фонемалар жинағына түрлендіруі керек. Мысалы, «ит» сөзі үш фонемадан тұрады: /d/, /ɒ/ және /ɡ/.
Бірақ 15.ai әр сөзге қандай фонемаларды қолдану керектігін қайдан біледі?
15.ai сайтының туралы бетіне сәйкес, бағдарлама сөздік іздеу кестесін пайдаланады. Кестеде дереккөз ретінде Oxford Dictionaries API, Wiktionary және CMU Pronouncing Dictionary пайдаланылады. 15.ai жаңадан жасалған терминдер мен сөз тіркестерінің көзі ретінде Reddit және Urban Dictionary сияқты басқа веб-сайттарды пайдаланады.
Егер сөздікте қандай да бір сөз жоқ болса, оның айтылуын модель үйренген фонологиялық ережелер арқылы шығарады. LibriTTS деректер жинағы. Бұл деректер жинағы – ағылшын тілінде сөйлейтін шамамен 585 сағатты қамтитын ана тілінде немесе диалектіде жазылған немесе ауызша сөздердің деректер жинағы.
Эмоцияларды енгізу
Әзірлеушінің айтуынша, модель енгізілген мәтіннің қабылданған эмоциясын болжауға тырысады. Модель бұл тапсырманы DeepMoji арқылы орындайды көңіл-күйді талдау үлгі. Бұл модель эмоцияларды білдіру үшін тілдің қалай қолданылатынын түсіну мақсатында эмодзилері бар миллиардтаған твиттерде оқытылды. Модельдің нәтижесі нәтижені қажетті эмоцияға қарай басқару үшін TTS үлгісіне енгізілген.
Енгізілген мәтіннен фонемалар мен сезімдер алынғаннан кейін, енді сөйлеуді синтездеу уақыты келді.
Дауысты клондау және синтездеу
15.ai сияқты мәтіннен сөйлеуге үлгілер көп динамикті үлгілер ретінде белгілі. Бұл модельдер әртүрлі дауыспен сөйлеуді үйрену үшін жасалған. Модельді дұрыс оқыту үшін біз бірегей дауыс мүмкіндіктерін шығарып, оны компьютер түсінетіндей етіп көрсетудің жолын табуымыз керек. Бұл процесс динамикті енгізу ретінде белгілі.
Ағымдағы мәтінді дыбысқа ауыстыру үлгілері қолданылады нейрондық желілер нақты аудио шығысын жасау үшін. Нейрондық желі әдетте екі негізгі бөліктен тұрады: кодер және декодер.
Кодер әртүрлі кіріс векторларына негізделген жалғыз жиынтық векторын құруға тырысады. Фонемалар, эмоционалдық аспектілер және дауыс мүмкіндіктері туралы ақпарат шығыстың қандай болуы керектігінің көрінісін жасау үшін кодтаушыға орналастырылады. Содан кейін декодер бұл көріністі дыбысқа түрлендіреді және сенімділік көрсеткішін шығарады.
Содан кейін 15.ai веб-қосымшасы ең жақсы сенімділік көрсеткішімен үздік үш нәтижені қайтарады.
мәселелері
сияқты AI жасалған мазмұнның өсуімен deepfakes, нақты адамдарға еліктейтін озық AI әзірлеу маңызды этикалық мәселе болуы мүмкін.
Қазіргі уақытта 15.ai веб-қосымшасынан таңдауға болатын дауыстардың барлығы ойдан шығарылған кейіпкерлер. Дегенмен, бұл қолданбаның желіде біраз дау тудыруына кедергі болмады.
Бірнеше дауыс актерлері дауысты клондау технологиясын пайдаланудан бас тартты. Олардың алаңдаушылығына еліктеу, олардың дауысын ашық мазмұнда пайдалану және технологияның дауыс актер рөлін ескіруі мүмкін.
Тағы бір дау 2022 жылдың басында Voiceverse NFT деп аталатын компания маркетингтік науқанына мазмұн жасау үшін 15.ai қолданатыны анықталған кезде орын алды.
қорытынды
Мәтіннен сөйлеуге күнделікті өмірде қазірдің өзінде кең таралған. Дауыстық көмекшілер, GPS навигаторлары. және автоматтандырылған телефон қоңыраулары қазірдің өзінде үйреншікті орынға айналды. Дегенмен, бұл қолданбалар адам емес, сондықтан олардың машинада жасалған сөйлеу екенін айта аламыз.
Табиғи дыбысты және эмоционалды TTS технологиясы жаңа қолданбаларға есік ашуы мүмкін. Дегенмен, дауысты клондау этикасы әлі де күмәнді. Бұл зерттеушілердің көпшілігі алгоритмді жұртшылықпен бөліскісі келмейтіні сөзсіз.
пікір қалдыру