目录[隐藏][展示]
一般来说,像 GAN、VAE 和自回归模型这样的深度生成模型可以处理图像合成问题。
鉴于它们创建的数据质量很高,生成对抗网络(GAN)近年来受到了很多关注。
扩散模型是另一个已经确立的引人入胜的研究领域。 图像、视频和语音生成领域都得到了广泛的应用。
扩散模型与 GAN:哪个产生更好的结果? 自然,这引发了持续的讨论。
在称为 GAN 的计算架构中,有两个 神经网络 相互竞争以生成新合成的数据实例,这些实例可以传递为真实数据。
扩散模型越来越受欢迎,因为它们为制作音乐和图形提供了训练稳定性和高结果。
本文将详细介绍扩散模型和 GAN,以及它们之间的区别以及其他一些事情。
那么,什么是生成对抗网络?
为了创建可能被误认为是真实数据的新的人工数据实例,生成对抗网络 (GAN) 采用了两个神经网络并将它们相互对抗(因此名称中的“对抗性”)。
它们广泛用于语音、视频和图片创建。
GAN 的目标是从特定数据集中创建以前未被发现的数据。 试图从样本中推断出实际的、未识别的基础数据分布的模型,这样做。
或者说,这些网络是试图学习特定统计分布的隐式模型。
GAN 用来发现如何实现这一目标的方法是新颖的。 事实上,他们通过玩两人游戏来开发隐式模型来生成数据。
下面对结构进行说明:
- 能够区分真实数据和虚假数据的鉴别器
- 采用新方法创建数据的生成器可以欺骗鉴别器。
鉴别器构成一个神经网络。 因此,生成器需要创建高质量的图片来欺骗它。
这些生成器没有使用任何输出分布进行训练这一事实是自动编码器模型和其他模型之间的显着区别。
分解模型的损失函数有两种方式:
- 量化鉴别器是否准确预见真实数据的能力
- 生成的数据由一部分准确预测。
在最佳可行鉴别器上,该损失函数被最小化:
因此,通用模型可以被认为是距离最小化模型,如果判别器是理想的,则可以认为是真实分布和生成分布之间的散度最小化。
实际上,可以采用不同的分歧并导致各种 GAN 训练方法。
尽管调整 GAN 的损失函数很简单,但学习动态(包括生成器和判别器之间的权衡)很难遵循。
也不能保证学习会收敛。 因此,训练 GAN 模型很困难,因为通常会遇到梯度消失和模式崩溃等问题(当生成的样本没有多样性时)。
现在,是时候使用扩散模型了
GAN 的训练收敛问题已通过扩散模型的发展得到解决。
这些模型假设扩散过程等效于由噪声的渐进干扰带来的信息丢失(在扩散过程的每个时间步添加高斯噪声)。
这种模型的目的是确定噪声如何影响样本中存在的信息,或者换句话说,由于扩散而丢失了多少信息。
如果模型能够解决这个问题,它应该能够检索原始样本并消除发生的信息丢失。
这是通过去噪扩散模型完成的。 正向扩散过程和反向扩散过程构成了这两个步骤。
前向扩散过程涉及逐渐添加高斯噪声(即扩散过程),直到数据完全被噪声污染。
随后使用反向扩散方法对神经网络进行训练,以学习条件分布概率来反转噪声。
在这里您可以了解更多关于 扩散模型.
扩散模型与 GAN
与扩散模型一样,GAN 从噪声中生成图片。
该模型由一个生成器神经网络组成,它从一些信息条件变量的噪声开始,例如类标签或文本编码。
结果应该是类似于真实图像的东西。
为了创建逼真的高保真图片生成,我们使用了 GAN。 使用扩散模型可以产生比 GAN 更逼真的视觉效果。
在某种程度上,扩散模型更准确地描述了事实。
虽然 GAN 将随机噪声或类条件变量作为输入并输出真实样本,但扩散模型通常较慢、迭代且需要更多指导。
当重复应用去噪以从噪声中恢复到原始图像时,没有太大的误差空间。
每个检查点贯穿整个创建阶段,每一步,图片可能会获得越来越多的信息。
结论
总之,由于仅在 2020 年代和 2021 年发表的重要研究很少,扩散模型现在在图片合成方面可以胜过 GAN。
今年,OpenAI 推出 达尔-E 2,一种图像制作模型,允许从业者使用扩散模型。
尽管 GAN 是最先进的,但它们的限制使得在新环境中扩展和使用它们具有挑战性。
为了使用基于似然的模型实现类似 GAN 的样本质量,已经投入了大量工作。
发表评论