目录[隐藏][展示]
你有没有想听你最喜欢的角色和你说话? 在机器学习的帮助下,听起来自然的文本转语音正在慢慢成为现实。
例如,谷歌的 NAT TTS 模型正被用于为他们的新 自定义语音 服务。 该服务使用神经网络生成从录音中训练出来的语音。 网络应用程序,例如 优步鸭 提供数百种声音供您选择,以创建自己的合成文本。
在本文中,我们将研究令人印象深刻且同样神秘的 AI 模型 15.ai。 由匿名开发人员创建,它可能是最有效和最感人的之一 文字转语音模型 到目前为止。
什么是 15.ai?
15.人工智能 是一个人工智能网络应用程序,能够生成情感高保真文本到语音的语音。 用户可以从 Spongebob Squarepants 到 HAL 9000 from 2001: A Space Odyssey 的各种声音中进行选择。
该计划是由一位匿名的前麻省理工学院研究员以 15 的名义开发的。开发人员表示,该项目最初是作为该大学本科生研究机会计划的一部分而构思的。
15.ai 中可用的许多声音都是在 My Little Pony: Friendship is Magic 中的角色公共数据集上训练的。 该节目的狂热粉丝已经形成了一个协作的努力来收集、转录和处理数小时的对话,目标是为他们最喜欢的角色创建准确的文本到语音生成器。
15.ai能做什么?
15.ai Web 应用程序的工作原理是选择模型已经训练过的数十个虚构角色之一并提交输入文本。 单击“生成”后,用户应该会收到三个虚构人物说出给定台词的音频片段。
由于 深入学习 使用的模型是不确定的,15.ai 每次输出的语音都略有不同。 与演员可能需要多次拍摄才能获得正确的交付类似,15.ai 每次都会生成不同的交付方式,直到用户找到他们喜欢的输出。
该项目包括一个独特的功能,允许用户使用情绪上下文化器手动更改生成的线条的情绪。 这些参数能够使用 MIT's 推断用户输入表情符号的情绪 深莫吉 模型。
根据开发者的说法,15.ai 与其他类似的 TTS 程序的不同之处在于,该模型依赖于非常少的数据来准确地克隆声音,同时“保持情感和自然性完好无损”。
15.ai 是如何工作的?
让我们看看 15.ai 背后的技术。
首先,15.ai 的主要开发人员表示,该程序使用自定义模型来生成具有不同情绪状态的声音。 由于作者尚未发表关于该项目的详细论文,我们只能对幕后发生的事情做出广泛的假设。
检索音素
首先,让我们看看程序是如何解析输入文本的。 在程序可以生成语音之前,它必须将每个单词转换为其各自的音素集合。 例如,“狗”这个词由三个音素组成:/d/、/ɒ/和/ɡ/。
但是 15.ai 是如何知道每个单词使用哪些音素的呢?
根据 15.ai 的 About 页面,该程序使用字典查找表。 该表使用牛津词典 API、维基词典和 CMU 发音词典作为来源。 15.ai 使用 Reddit 和 Urban Dictionary 等其他网站作为新创造的术语和短语的来源。
如果字典中不存在任何给定单词,则使用模型从 图书馆 数据集。 该数据集是一个语料库——一个以母语或方言书写或口语的数据集——包含大约 585 小时的英语人士。
嵌入情感
根据开发人员的说法,该模型试图猜测输入文本的感知情绪。 该模型通过 DeepMoji 完成这项任务 情绪分析 模型。 这个特定的模型在数十亿条带有表情符号的推文上进行了训练,目的是了解语言是如何用来表达情感的。 模型的结果被嵌入到 TTS 模型中,以将输出操纵到所需的情绪。
一旦从输入文本中提取了音素和情感,现在就可以合成语音了。
语音克隆和合成
文本转语音模型(例如 15.ai)被称为多说话者模型。 这些模型旨在能够学习如何用不同的声音说话。 为了正确训练我们的模型,我们必须找到一种方法来提取独特的语音特征并以计算机可以理解的方式表示它。 这个过程被称为说话人嵌入。
当前的文本转语音模型使用 神经网络 创建实际的音频输出。 神经网络通常由两个主要部分组成:编码器和解码器。
编码器尝试基于各种输入向量构建单个摘要向量。 有关音素、情感方面和语音特征的信息被放入编码器中,以创建输出应该是什么的表示。 然后解码器将此表示转换为音频并输出置信度分数。
然后,15.ai Web 应用程序会返回置信度最高的前三个结果。
问题
随着人工智能生成内容的兴起,例如 deepfakes,开发可以模仿真人的高级人工智能可能是一个严重的道德问题。
目前,您可以从 15.ai 网络应用程序中选择的声音都是虚构的角色。 然而,这并没有阻止该应用在网上引起一些争议。
一些配音演员反对使用语音克隆技术。 他们的担忧包括模仿、在明确的内容中使用他们的声音,以及该技术可能会使配音演员的角色过时。
另一场争议发生在 2022 年初,当时一家名为 Voiceverse NFT 的公司被发现使用 15.ai 为其营销活动生成内容。
结论
文字转语音在日常生活中已经相当普遍。 语音助手、GPS 导航器。 自动电话呼叫已经变得司空见惯。 然而,这些应用程序显然是非人类的,我们可以判断它们是机器制造的语音。
听起来自然而富有情感的 TTS 技术可能会为新的应用打开大门。 然而,语音克隆的伦理问题充其量仍然值得怀疑。 为什么这些研究人员中的许多人一直不愿与公众分享该算法,这当然是有道理的。
发表评论