Содержание[Скрывать][Показывать]
Вы когда-нибудь хотели услышать, как ваш любимый персонаж разговаривает с вами? Естественное преобразование текста в речь постепенно становится реальностью с помощью машинного обучения.
Например, модель Google NAT TTS используется для питания их нового Пользовательский голос оказание услуг. Этот сервис использует нейронные сети для создания голоса, обученного на основе записей. Веб-приложения, такие как Убердак предоставить вам сотни голосов на выбор для создания собственного синтезированного текста.
В этой статье мы рассмотрим впечатляющую и столь же загадочную модель ИИ, известную как 15.ai. Созданный анонимным разработчиком, он может быть одним из самых эффективных и эмоциональных модели преобразования текста в речь до сих пор.
Что такое 15.ai?
15.ай — это веб-приложение с искусственным интеллектом, способное генерировать эмоциональные высококачественные голоса для преобразования текста в речь. Пользователи могут выбирать из множества голосов от Губки Боба Квадратные Штаны до HAL 9000 из 2001: Космическая одиссея.
Программа была разработана анонимным бывшим исследователем Массачусетского технологического института, работавшим под именем 15. Разработчик заявил, что проект изначально задумывался как часть университетской программы исследований возможностей бакалавриата.
Многие голоса, доступные в 15.ai, обучены общедоступным наборам данных персонажей из My Little Pony: Friendship is Magic. Заядлые поклонники сериала объединились для сбора, расшифровки и обработки часов диалогов с целью создания точных генераторов речи своих любимых персонажей.
Что может 15.ai?
Веб-приложение 15.ai работает, выбирая одного из десятков вымышленных персонажей, на которых была обучена модель, и отправляя входной текст. После нажатия на кнопку «Создать» пользователь должен получить три аудиоклипа вымышленного персонажа, произносящего заданные строки.
С глубокое обучение используемая модель недетерминирована, 15.ai каждый раз выводит немного другую речь. Подобно тому, как актеру может потребоваться несколько дублей, чтобы получить правильную подачу, 15.ai каждый раз генерирует разные стили подачи, пока пользователь не найдет результат, который ему нравится.
Проект включает в себя уникальную функцию, которая позволяет пользователям вручную изменять эмоцию сгенерированной строки с помощью эмоциональных контекстуализаторов. Эти параметры могут определить настроение введенных пользователем смайликов с использованием MIT. ДипМоджи модели.
По словам разработчика, что отличает 15.ai от других подобных программ TTS, так это то, что модель использует очень мало данных для точного клонирования голосов, «сохраняя эмоции и естественность».
Как работает 15.ai?
Давайте рассмотрим технологию, лежащую в основе 15.ai.
Во-первых, главный разработчик 15.ai говорит, что программа использует специальную модель для генерации голосов с различными эмоциональными состояниями. Поскольку автору еще предстоит опубликовать подробную статью о проекте, мы можем делать только общие предположения о том, что происходит за кулисами.
Извлечение фонем
Во-первых, давайте посмотрим, как программа анализирует входной текст. Прежде чем программа сможет генерировать речь, она должна преобразовать каждое отдельное слово в соответствующий набор фонем. Например, слово «собака» состоит из трех фонем: /d/, /ɒ/ и /ɡ/.
Но как 15.ai узнает, какие фонемы использовать для каждого слова?
Согласно странице «О программе» 15.ai, программа использует таблицу поиска по словарю. В качестве источников в таблице используются API Оксфордских словарей, Викисловарь и Произносящий словарь CMU. 15.ai использует другие веб-сайты, такие как Reddit и Urban Dictionary, в качестве источников новых терминов и фраз.
Если какое-либо заданное слово не существует в словаре, его произношение выводится с использованием фонологических правил, которые модель усвоила из словаря. ЛибриТТС набор данных. Этот набор данных представляет собой корпус — набор данных письменных или устных слов на родном языке или диалекте — примерно 585 часов людей, говорящих по-английски.
Встраивание эмоций
По словам разработчика, модель пытается угадать воспринимаемую эмоцию вводимого текста. Модель выполняет эту задачу через DeepMoji. анализ настроений модель. Эта конкретная модель была обучена на миллиардах твитов с эмодзи с целью понять, как язык используется для выражения эмоций. Результат модели встраивается в модель TTS, чтобы манипулировать выводом в направлении желаемой эмоции.
После того, как фонемы и тональность извлечены из входного текста, пришло время синтезировать речь.
Клонирование и синтез голоса
Модели преобразования текста в речь, такие как 15.ai, известны как модели с несколькими динамиками. Эти модели созданы для того, чтобы научиться говорить разными голосами. Чтобы правильно обучить нашу модель, мы должны найти способ извлечь уникальные особенности голоса и представить их так, чтобы их мог понять компьютер. Этот процесс известен как встраивание динамика.
Текущие модели преобразования текста в речь используют нейронные сети для создания фактического аудиовыхода. Нейронная сеть обычно состоит из двух основных частей: кодера и декодера.
Кодер пытается построить единый суммарный вектор на основе различных входных векторов. Информация о фонемах, эмоциональных аспектах и характеристиках голоса помещается в кодировщик, чтобы создать представление о том, каким должен быть результат. Затем декодер преобразует это представление в звук и выводит оценку достоверности.
Затем веб-приложение 15.ai возвращает первые три результата с наилучшей оценкой достоверности.
Темы
С появлением контента, созданного искусственным интеллектом, такого как deepfakes, разработка передового ИИ, который может имитировать реальных людей, может стать серьезной этической проблемой.
В настоящее время все голоса, которые вы можете выбрать в веб-приложении 15.ai, являются вымышленными персонажами. Однако это не помешало приложению вызвать споры в сети.
Несколько актеров озвучки отказались от использования технологии клонирования голоса. Их опасения включают выдачу себя за другое лицо, использование их голоса в откровенном контенте и возможность того, что технология может сделать роль актера озвучивания устаревшей.
Другой спор произошел ранее в 2022 году, когда было обнаружено, что компания Voiceverse NFT использует 15.ai для создания контента для своей маркетинговой кампании.
Заключение
Преобразование текста в речь уже довольно распространено в повседневной жизни. Голосовые помощники, GPS-навигаторы. и автоматические телефонные звонки уже стали обычным явлением. Тем не менее, эти приложения явно не являются человеческими, чтобы мы могли сказать, что они созданы машиной.
Естественно звучащая и эмоциональная технология TTS может открыть двери для новых приложений. Однако этичность клонирования голоса по-прежнему в лучшем случае сомнительна. Конечно, понятно, почему многие из этих исследователей не хотят делиться алгоритмом с общественностью.
Оставьте комментарий