你能用人工智能从你最喜欢的艺术家那里创造新的记录吗?
机器学习的最新突破表明,模型现在能够理解文本和图像等复杂数据。 OpenAI 的 Jukebox 证明,即使是音乐也可以通过神经网络精确建模。
音乐是一个复杂的建模对象。 您必须考虑节奏、响度和音高等简单特征和歌词、乐器和音乐结构等更复杂的特征。
使用进阶 机器学习 技术,OpenAI 找到了一种将原始音频转换为其他模型可以使用的表示的方法。
本文将解释 Jukebox 可以做什么、它是如何工作的以及该技术的当前限制。
什么是自动点唱机 AI?
点唱机 是 OpenAI 的一个神经网络模型,可以用歌声生成音乐。 该模型可以制作各种流派和艺术家风格的音乐。
例如,自动点唱机可以制作埃尔维斯普雷斯利风格的摇滚歌曲或 Kanye West 风格的嘻哈曲调。 你可以访问这个 官网 探索该模型在捕捉您最喜爱的音乐艺术家和流派的声音方面的有效性。
该模型需要流派、艺术家和歌词作为输入。 这个输入指导了一个基于数百万艺术家和歌词数据训练的模型。
自动点唱机是如何工作的?
让我们看看 Jukebox 如何从经过数百万首歌曲训练的模型生成新颖的原始音频。
编码过程
虽然一些音乐生成模型使用 MIDI 训练数据,但 Jukebox 是在实际的原始音频文件上进行训练的。 为了将音频压缩到离散空间中,Jukebox 使用了一种称为 VQ-VAE 的自动编码器方法。
VQ-VAE 代表 Vector Quantized Variational Autoencoder,听起来可能有点复杂,所以让我们分解一下。
首先,让我们尝试了解我们想要在这里做什么。 与歌词或乐谱相比,原始音频文件要复杂得多。 如果我们希望我们的模型从歌曲中“学习”,我们必须将其转换为更压缩和简化的表示。 在 机器学习,我们称这个底层表示为 潜在空间.
An 自动编码器 是一种无监督学习技术,它使用 神经网络 找到给定数据分布的非线性潜在表示。 自编码器由两部分组成:编码器和解码器。
- 编码器 试图从一组原始数据中找到潜在空间,而 解码器 使用潜在表示尝试将其重建回其原始格式。 自编码器本质上是学习如何以最小化重构误差的方式压缩原始数据。
现在我们知道了自动编码器的作用,让我们尝试理解“变分”自动编码器的含义。 与典型的自动编码器相比,变分自动编码器在潜在空间之前添加了一个先验。
在不深入研究数学的情况下,添加概率先验可以使潜在分布紧密紧凑。 VAE 和 VQ-VAE 之间的主要区别在于后者使用离散的潜在表示而不是连续的潜在表示。
每个 VQ-VAE 级别独立地对输入进行编码。 底层编码产生最高质量的重建。 顶级编码保留了基本的音乐信息。
使用变形金刚
现在我们有了 VQ-VAE 编码的音乐代码,我们可以尝试 生成音乐 在这个压缩的离散空间中。
点唱机用途 自回归变压器 创建输出音频。 Transformers 是一种最适合处理序列数据的神经网络。 给定一系列token,transformer模型将尝试预测下一个token。
Jukebox 使用 Sparse Transformers 的简化变体。 一旦所有先前的模型都经过训练,转换器会生成压缩代码,然后使用 VQ-VAE 解码器将其解码回原始音频。
点唱机中的艺术家和流派调节
通过在训练步骤中提供额外的条件信号,Jukebox 的生成模型变得更加可控。
第一个模型由每首歌曲的艺术家和流派标签提供。 这减少了音频预测的熵并允许模型获得更好的质量。 这些标签还使我们能够以特定的风格引导模型。
除了艺术家和流派之外,还在训练期间添加了计时信号。 这些信号包括歌曲的长度、特定样本的开始时间以及歌曲已播放的部分。 这些附加信息有助于模型理解依赖于整体结构的音频模式。
例如,模型可能会了解到现场音乐的掌声发生在歌曲的结尾。 例如,该模型还可以学习某些类型的器乐部分比其他类型更长。
歌词
上一节中提到的条件模型能够生成各种歌声。 然而,这些声音往往不连贯且无法辨认。
为了在歌词生成方面控制生成模型,研究人员在训练时提供了更多上下文。 为了帮助将歌词数据映射到实际音频的时间,研究人员使用 ple 提取人声和 新加坡国立大学 AutoLyricsAlign 以获得歌词的单词级对齐方式。
点唱机模型的局限性
Jukebox 的主要限制之一是它对更大的音乐结构的理解。 例如,一段 20 秒的短片输出可能听起来令人印象深刻,但听众会注意到,在最终输出中没有重复合唱和诗句的典型音乐结构。
该模型的渲染速度也很慢。 完全渲染一分钟的音频大约需要 9 个小时。 这限制了可以生成的歌曲数量,并阻止了该模型在交互式应用程序中的使用。
最后,研究人员注意到样本数据集主要是英语,主要显示西方音乐惯例。 人工智能研究人员可以将未来的研究重点放在生成其他语言和非西方音乐风格的音乐上。
结语
Jukebox 项目强调了机器学习模型在创建复杂数据(如原始音频)的准确潜在表示方面的不断增长的能力。 类似的突破正在文本中发生,如项目中所见 GPT-3和图像,如 OpenAI 中所见 达尔-E 2.
尽管这一领域的研究令人印象深刻,但人们仍然担心知识产权以及这些模型可能对整个创意产业产生的影响。 研究人员和创意人员应继续密切合作,以确保这些模型能够继续改进。
未来的生成音乐模型可能很快就能够作为音乐家的工具或作为需要为项目定制音乐的创意人员的应用程序。
发表评论