Чи хотіли ви коли-небудь почути, як ваш улюблений персонаж розмовляє з вами? Синтез мовлення з природним звучанням поступово стає реальністю за допомогою машинного навчання.
Наприклад, модель Google NAT TTS використовується для забезпечення їх нового Спеціальний голос обслуговування. Цей сервіс використовує нейронні мережі для створення голосу, навченого із записів. Веб-додатки, такі як Убердак надати сотні голосів для вибору для створення власного синтезованого тексту.
У цій статті ми розглянемо вражаючу та не менш загадкову модель ШІ, відому як 15.ai. Створений анонімним розробником, він може бути одним із найефективніших та емоційних моделі перетворення тексту в мову до сих пір.
Що таке 15.ai?
15.ai це веб-додаток зі штучним інтелектом, який здатний генерувати емоційні високоякісні голосові перетворення тексту в мовлення. Користувачі можуть вибирати з різноманітних голосів від Губки Боба Квадратних Штанів до HAL 9000 з 2001: Космічна Одіссея.
Програму розробив анонімний колишній дослідник Массачусетського технологічного інституту, який працює під псевдонімом 15. Розробник заявив, що спочатку проект був задуманий як частина університетської Програми бакалаврату дослідницьких можливостей.
Багато голосів, доступних у 15.ai, тренуються на загальнодоступних наборах даних персонажів з My Little Pony: Friendship is Magic. Завзяті шанувальники серіалу створили спільні зусилля, щоб зібрати, транскрибувати та опрацювати години діалогів з метою створення точних генераторів тексту в мовлення своїх улюблених персонажів.
Що може зробити 15.ai?
Веб-додаток 15.ai працює, вибираючи одного з десятків вигаданих персонажів, на яких навчалася модель, і надсилає вхідний текст. Після натискання «Створити» користувач має отримати три аудіозаписи, на яких вигаданий персонаж говорить задані репліки.
З глибоке навчання використана модель недетермінована, 15.ai щоразу виводить дещо інше мовлення. Подібно до того, як акторові може знадобитися кілька дублів, щоб отримати правильну подачу, 15.ai щоразу генерує різні стилі подачі, поки користувач не знайде результат, який йому подобається.
Проект містить унікальну функцію, яка дозволяє користувачам вручну змінювати емоцію створеного рядка за допомогою емоційних контекстуалізаторів. Ці параметри можуть визначити настрій емодзі, введених користувачем, за допомогою MIT DeepMoji модель.
За словами розробника, те, що відрізняє 15.ai від інших подібних програм TTS, полягає в тому, що модель покладається на дуже мало даних для точного клонування голосів, «зберігаючи емоції та природність недоторканими».
Як працює 15.ai?
Давайте розглянемо технологію, що лежить в основі 15.ai.
По-перше, головний розробник 15.ai каже, що програма використовує спеціальну модель для генерації голосів із різними станами емоцій. Оскільки автор ще не опублікував докладну статтю про проект, ми можемо робити лише загальні припущення про те, що відбувається за лаштунками.
Відновлення фонем
Спочатку подивимося, як програма аналізує введений текст. Перш ніж програма зможе генерувати мовлення, вона має перетворити кожне окреме слово у відповідну колекцію фонем. Наприклад, слово «собака» складається з трьох фонем: /d/, /ɒ/ і /ɡ/.
Але як 15.ai знає, які фонеми використовувати для кожного слова?
Відповідно до сторінки About 15.ai, програма використовує таблицю пошуку словника. У таблиці використовуються Oxford Dictionaries API, Wiktionary і CMU Pronouncing Dictionary як джерела. 15.ai використовує інші веб-сайти, такі як Reddit і Urban Dictionary, як джерела для нових термінів і фраз.
Якщо певне слово не існує в словнику, його вимова визначається за допомогою фонологічних правил, які модель дізналася з LibriTTS набір даних. Цей набір даних є корпусом — набором даних письмових або усних слів рідною мовою чи діалектом — приблизно 585 годин людей, які розмовляють англійською.
Вбудовування емоцій
За словами розробника, модель намагається вгадати сприйману емоцію введеного тексту. Модель виконує це завдання за допомогою DeepMoji аналіз настроїв модель. Цю конкретну модель тренували на мільярдах твітів із емодзі з метою зрозуміти, як мова використовується для вираження емоцій. Результат моделі вбудовується в модель TTS, щоб маніпулювати результатом у напрямку бажаної емоції.
Після виділення фонем і настроїв із вхідного тексту настав час синтезувати мовлення.
Клонування та синтез голосу
Моделі синтезу мовлення, такі як 15.ai, відомі як моделі з кількома динаміками. Ці моделі створені, щоб мати можливість навчитися говорити різними голосами. Щоб належним чином навчити нашу модель, ми повинні знайти спосіб витягти унікальні голосові особливості та представити їх у спосіб, який може зрозуміти комп’ютер. Цей процес відомий як вбудовування динаміка.
Використовуються поточні моделі синтезу мовлення нейронні мережі щоб створити фактичний аудіовихід. Нейронна мережа зазвичай складається з двох основних частин: кодера та декодера.
Кодер намагається побудувати єдиний підсумковий вектор на основі різних вхідних векторів. Інформація про фонеми, емоційні аспекти та особливості голосу поміщається в кодер, щоб створити представлення того, яким має бути результат. Потім декодер перетворює це представлення в аудіо та виводить оцінку достовірності.
Потім веб-програма 15.ai повертає три найкращі результати з найкращим показником достовірності.
Питання
З ростом вмісту, створеного ШІ, наприклад deepfakes, розробка вдосконаленого ШІ, який може імітувати реальних людей, може бути серйозною етичною проблемою.
Наразі всі голоси, які ви можете вибрати у веб-додатку 15.ai, є вигаданими персонажами. Однак це не завадило додатку викликати деякі суперечки в Інтернеті.
Кілька акторів голосу відмовилися від використання технології клонування голосу. Їх побоювання включають видавання себе за іншу особу, використання свого голосу в відвертому контенті та ймовірність того, що технологія може зробити роль актора голосу застарілою.
Ще одна суперечка виникла на початку 2022 року, коли було виявлено, що компанія під назвою Voiceverse NFT використовує 15.ai для створення контенту для своєї маркетингової кампанії.
Висновок
Синтез мовлення вже досить поширений у повсякденному житті. Голосові помічники, GPS навігатори. і автоматичні телефонні дзвінки вже стали звичним явищем. Однак ці додатки достатньо нелюдські, тому ми можемо сказати, що вони створені машиною.
Технологія TTS із природнім звучанням і емоційністю може відкрити двері для нових застосувань. Однак етичність клонування голосу залишається в кращому випадку сумнівною. Безсумнівно, є сенс, чому багато з цих дослідників не бажають ділитися алгоритмом з громадськістю.
залишити коментар