近年来,深度学习模型在理解人类语言方面变得更加有效。
想想像这样的项目 GPT-3,现在可以创建整个文章和网站。 GitHub 最近推出了 GitHub 副驾驶,一种通过简单描述您需要的代码类型来提供完整代码片段的服务。
OpenAI、Facebook 和 Google 的研究人员一直在研究如何使用深度学习来处理另一项任务:为图像添加字幕。 使用包含数百万条目的大型数据集,他们提出了一些 奇怪 结果.
最近,这些研究人员试图执行相反的任务:根据标题创建图像。 现在可以根据描述创建一个全新的图像吗?
本指南将探讨两种最先进的文本到图像模型:OpenAI 的 DALL-E 2 和 Google 的 Imagen AI。 这些项目中的每一个都引入了可能改变我们所知道的社会的开创性方法。
但首先,让我们了解文本到图像生成的含义。
什么是文本到图像生成?
文本到图像模型 允许计算机根据提示创建新的和独特的图像。 人们现在可以提供他们想要生成的图像的文本描述,并且模型将尝试创建尽可能匹配该描述的视觉效果。
机器学习模型利用包含图像-标题对的大型数据集来进一步提高性能。
大多数文本到图像 模型使用转换器语言模型 解释提示。 这种类型的模型是 神经网络 它试图学习自然语言的上下文和语义。
接下来,生成模型,例如 扩散模型 生成对抗网络用于图像合成。
什么是 DALLE 2?
达尔-E 2 是 OpenAI 于 2022 年 XNUMX 月发布的计算机模型。该模型在包含数百万张标记图片的数据库上进行了训练,以将单词和短语与图像相关联。
用户可以输入一个简单的短语,例如“a cat eating lasagna”,DALL-E 2 将生成对短语试图描述的内容的自己的解释。
除了从头开始创建图像,DALL-E 2 还可以编辑现有图像。 在下面的示例中,DALL-E 能够生成添加了沙发的房间的修改图像。
DALL-E 2 只是 OpenAI 在过去几年中发布的众多类似项目之一。 当 OpenAI 的 GPT-3 似乎可以生成不同风格的文本时,它变得有新闻价值。
目前,DALL-E 2 仍处于 beta 测试阶段。 有兴趣的用户可以注册他们的 等候名单 并等待访问。
它是如何工作的?
虽然 DALL-E 2 的结果令人印象深刻,但您可能想知道它是如何工作的。
DALL-E 2 是 OpenAI 的 GPT-3 项目的多模式实施示例。
首先,用户的文本提示被放置到一个文本编码器中,该编码器将提示映射到一个表示空间。 DALL-E 2 使用另一种称为 CLIP(对比语言-图像预训练)的 OpenAI 模型从自然语言中获取语义信息。
接下来,一个模型被称为 先 将文本编码映射到图像编码。 这种图像编码应该捕获在文本编码步骤中找到的语义信息。
为了创建实际图像,DALL-E 2 使用图像解码器使用语义信息和图像编码细节生成视觉效果。 OpenAI 使用了一个修改版本的 滑行 模型来执行图像生成。 GLIDE 依赖于 扩散模型 创建图像。
将 GLIDE 添加到 DALL-E 2 模型可以实现更逼真的输出。 由于 GLIDE 模型是随机或随机确定的,因此 DALL-E 2 模型可以通过反复运行模型轻松创建变化。
限制
尽管 DALL-E 2 模型取得了令人印象深刻的结果,但它仍然面临一些限制。
拼写文本
尝试让 DALL-E 2 生成文本的提示显示它难以拼写单词。 专家认为这可能是因为拼写信息不是 训练数据集.
组合推理
研究人员观察到 DALL-E 2 在成分推理方面仍然存在一些困难。 简而言之,该模型可以理解图像的各个方面,但仍然难以弄清楚这些方面之间的关系。
例如,如果给出提示“red cube on top of a blue cube”,DALL-E 将准确生成一个蓝色立方体和一个红色立方体,但无法正确放置它们。 还观察到该模型难以处理需要提取特定数量对象的提示。
数据集中的偏差
如果提示不包含其他细节,则观察到 DALL-E 描绘了白人或西方人和环境。 由于数据集中存在大量以西方为中心的图像,因此会出现这种代表性偏差。
该模型也被观察到遵循性别刻板印象。 例如,输入提示“空姐”大多会生成女性空姐的图像。
什么是 Google Imagen AI?
谷歌的 影像人工智能 是一个旨在从输入文本创建逼真图像的模型。 与 DALL-E 类似,该模型也使用 Transformer 语言模型来理解文本,并依靠使用扩散模型来创建高质量的图像。
除了 Imagen,谷歌还发布了一个名为 DrawBench 的文本到图像模型基准。 使用 DrawBench,他们能够观察到人类评分者更喜欢 Imagen 输出而不是其他模型,包括 DALL-E 2。
它是如何工作的?
与 DALL-E 类似,Imagen 首先通过冻结文本编码器将用户提示转换为文本嵌入。
Imagen 使用扩散模型,该模型学习如何将噪声模式转换为图像。 这些图像的初始输出是低分辨率的,然后通过另一个称为超分辨率扩散模型的模型来提高最终图像的分辨率。 第一个扩散模型输出一个 64×64 像素的图像,然后被放大为一个高分辨率的 1024×1024 图像。
根据 Imagen 团队的研究,仅在文本数据上训练的大型冻结语言模型仍然是用于文本到图像生成的高效文本编码器。
该研究还引入了动态阈值的概念。 此方法通过在生成图像时增加引导权重,使图像看起来更逼真。
DALLE 2 与 Imagen 的性能对比
谷歌基准测试的初步结果表明,人类受访者更喜欢 Imagen 生成的图像,而不是 DALL-E 2 和其他文本到图像模型,如 Latent Diffusion 和 VQGAN+CLIP。
Imagen 团队的输出还表明,他们的模型在拼写文本方面表现更好,这是 DALL-E 2 模型的一个已知弱点。
然而,由于谷歌尚未向公众发布该模型,谷歌的基准测试有多准确还有待观察。
结论
逼真的文本到图像模型的兴起是有争议的,因为这些模型已经成熟,可以不道德地使用。
该技术可能会导致创建明确的内容或作为虚假信息的工具。 谷歌和 OpenAI 的研究人员都意识到了这一点,这也是为什么这些技术仍然无法为所有人所用的部分原因。
文本到图像模型也具有重要的经济意义。 如果DALL-E等模特成为主流,模特、摄影师、艺术家等职业会受到影响吗?
目前,这些模型仍然存在局限性。 对任何 AI 生成的图像进行审查都会发现其缺陷。 随着 OpenAI 和 Google 都在争夺最有效的模型,生成真正完美的输出可能只是时间问题:与真实事物无法区分的图像。
您认为当技术发展到那么远时会发生什么?
发表评论