您很可能知道计算机可以描述图片。
例如,一张狗和孩子玩耍的照片可以翻译为“花园里的狗和孩子”。 但是你知道相反的方法现在也是可行的吗? 你输入一些单词,机器就会生成一张新图片。
与搜索现有照片的谷歌搜索不同,这一切都是新鲜的。 近年来,OpenAI 一直是领先的组织之一,报告了惊人的成果。
他们在海量文本和图片数据库上训练算法。 他们发表了一篇关于他们的 GLIDE 图像模型的论文,该模型接受了数亿张照片的训练。 在照片写实方面,它优于他们之前的“DALL-E”模型。
在这篇文章中,我们将介绍 OpenAI 的 GLIDE,它是旨在使用文本引导的扩散模型生成和更改逼真图片的几个引人入胜的举措之一。 让我们开始。
什么是 打开人工智能滑翔?
虽然大多数图像可以用文字描述,但从文本输入创建图像需要专业知识和大量时间。
允许 AI 代理根据自然语言提示生成逼真的图片,不仅可以让人们以前所未有的轻松方式创建丰富多样的视觉材料,还可以更简单地迭代细化和对创建的图像进行细粒度控制。
GLIDE 可用于编辑现有照片,利用自然语言文本提示插入新对象、创建阴影和反射、执行 图像修复,等等。
它还可以将基本的线条图变成逼真的照片,并且对于复杂情况具有出色的零样本制造和修复能力。
最近的研究表明,基于可能性的扩散模型也可以产生高质量的合成图片,特别是当与平衡多样性和保真度的指导方法结合使用时。
OpenAI 发布了一个 引导扩散模型 五月,它允许扩散模型以分类器的标签为条件。 GLIDE 通过将引导扩散引入文本条件图像创建问题来改进这一成功。
在使用文本编码器以自然语言描述为条件训练了一个 3.5 亿参数的 GLIDE 扩散模型后,研究人员测试了两种替代指导策略:CLIP 指导和无分类器指导。
CLIP 是一种可扩展的技术,用于学习文本和图片的联合表示,它根据图像与标题的接近程度来提供分数。
该团队在他们的扩散模型中使用了这种策略,将分类器替换为“引导”模型的 CLIP 模型。 同时,无分类器指导是一种指导扩散模型的策略,不涉及单独分类器的训练。
滑翔架构
GLIDE 架构由三个组件组成:经过训练以生成 64 × 64 图像的消融扩散模型 (ADM)、通过文本提示影响图像生成的文本模型(转换器)以及将我们的小型 64 × 64 图像转换为上采样模型图像更易于解释的 256 x 256 像素。
前两个组件共同控制图片生成过程,使其适当地反映文本提示,而后一个组件用于使我们创建的图像更易于理解。 GLIDE 项目的灵感来自于 2021年发表的报告 这表明 ADM 技术在图片样本质量方面优于目前流行的、最先进的生成模型。
对于 ADM,GLIDE 作者使用了与 Dhariwal 和 Nichol 相同的 ImageNet 64 x 64 模型,但使用 512 个通道而不是 64 个通道。因此,ImageNet 模型具有大约 2.3 亿个参数。
与 Dhariwal 和 Nichol 不同,GLIDE 团队希望对图片生成过程有更大的直接控制,因此他们将视觉模型与启用注意力的转换器相结合。 GLIDE 通过处理文本输入提示,使您可以对图片生成过程输出进行一些控制。
这是通过在适当大的照片和标题数据集(类似于 DALL-E 项目中使用的数据集)上训练转换器模型来完成的。
文本最初被编码为一系列 K 标记以对其进行调节。 之后,令牌被加载到转换器模型中。 然后可以以两种方式使用变压器的输出。 对于 ADM 模型,使用最终的令牌嵌入而不是类嵌入。
其次,令牌嵌入的最后一层——一系列特征向量——被独立投影到 ADM 模型中每个注意力层的维度,并连接到每个注意力上下文。
实际上,这使 ADM 模型能够基于其对输入单词及其相关图像的学习理解,以独特且逼真的方式从相似文本标记的新组合中生成图片。 这个文本编码转换器包含 1.2 亿个参数,并使用了 24 个剩余块,宽度为 2048。
最后,上采样器扩散模型包括大约 1.5 亿个参数,与基本模型不同,与基本模型相比,它的文本编码器更小,宽度为 1024 和 384 个基本通道。 顾名思义,该模型有助于升级样本,以提高机器和人类的可解释性。
扩散模型
GLIDE 使用自己的 ADM 版本(ADM-G 表示“引导”)生成图像。 ADM-G 模型是对扩散 U-net 模型的修改。 扩散 U-net 模型与更常见的图像合成技术(如 VAE、GAN 和转换器)有很大不同。
他们构建了一个马尔可夫扩散步骤链,逐渐将随机噪声注入数据中,然后学习逆向扩散过程,并仅从噪声中重建所需的数据样本。 它分两个阶段运行:正向扩散和反向扩散。
前向扩散方法,给定来自样本真实分布的数据点,在预设的一系列步骤中向样本添加少量噪声。 随着步长的增加和接近无穷大,样本失去了所有可识别的特征,序列开始类似于各向同性的高斯曲线。
在反向扩散期间 阶段,扩散模型 通过尝试与原始输入样本分布相似,学会逆转添加的噪声对图片的影响,并引导生成的图像恢复其原始形状。
一个完整的模型可以通过真正的高斯噪声输入和提示来完成。 ADM-G 方法与前一种方法的不同之处在于,模型(CLIP 或自定义转换器)通过使用输入的文本提示标记来影响反向扩散阶段。
滑翔能力
1. 图像的生成
GLIDE 最流行和最广泛使用的用途可能是图像合成。 虽然图片很普通,而且 GLIDE 很难处理动物/人类形式,但一次性图像制作的潜力几乎是无穷无尽的。
它可以创建动物、名人、风景、建筑物等的照片,并且可以以各种艺术风格以及照片般逼真的方式进行。 研究人员的作者断言,GLIDE 能够将各种文本输入解释和调整为视觉格式,如下面的示例所示。
2. 滑行修复
GLIDE 的自动照片修复可以说是最迷人的用途。 GLIDE 可以将现有图片作为输入,根据需要更改的位置的文本提示对其进行处理,然后轻松地对这些部分进行主动修改。
它必须与 SDEdit 等编辑模型结合使用,才能产生更好的结果。 将来,利用这些功能的应用程序可能对开发无代码图片更改方法至关重要。
结论
现在我们已经完成了这个过程,您应该掌握 GLIDE 工作原理的基本原理,以及它在图片创建和图像内修改方面的广泛能力。
发表评论