近年来,经过训练用于语言识别和生成的大型神经网络在各种任务中表现出出色的成果。 GPT-3 证明,大型语言模型 (LLM) 可用于小样本学习并获得出色的结果,而无需大量特定于任务的数据或更改模型参数。
硅谷科技巨头谷歌已将 PaLM 或 Pathways 语言模型作为下一代 AI 语言模型引入全球科技行业。 谷歌已经加入了一个新的 人工智能 架构到 PaLM 的战略目标是提高 AI 语言模型的质量。
在这篇文章中,我们将详细研究 Palm 算法,包括用于训练它的参数、它解决的问题等等。
什么是 谷歌的PaLM算法?
Pathways 语言模型是什么 棕榈 代表。 这是谷歌为加强 Pathways AI 架构而开发的一种新算法。 该结构的主要目标是一次执行一百万个不同的活动。
这些包括从破译复杂数据到演绎推理的所有内容。 PaLM 有能力在语言和推理任务上超越当前最先进的 AI 以及人类。
这包括 Few-Shot 学习,它模仿人类如何学习新事物并结合各种知识来应对前所未有的新挑战,而机器可以利用其所有知识来解决新挑战; PaLM 中这种技能的一个例子是它能够解释一个以前从未听过的笑话。
PaLM 在各种具有挑战性的任务中展示了许多突破性技能,包括语言理解和创造、多步算术代码相关活动、常识推理、翻译等等。
它已经展示了使用多语言 NLP 集解决复杂问题的能力。 全球科技市场可以使用 PaLM 来区分因果、概念组合、独特的游戏和许多其他事物。
它还可以使用多步逻辑推理、深度语言、全球知识和其他技术为许多上下文生成深入的解释。
Google 是如何开发 PaLM 算法的?
对于 Google 在 PaLM 中的突破性表现,路径计划扩展到 540 亿个参数。 它被公认为可以在众多领域中高效且有效地泛化的一种模型。 Google Pathways 致力于为加速器开发分布式计算。
PaLM 是一个仅解码器的变压器模型,已使用 Pathways 系统进行了训练。 据 Google 称,PaLM 已经成功地在多个工作负载中实现了最先进的小样本性能。 PaLM 首次使用 Pathways 系统将训练扩展到最大的基于 TPU 的系统配置,即 6144 芯片。
AI 语言模型的训练数据集由英语和其他多语言数据集组成。 凭借“无损”词汇,它包含高质量的网络内容、讨论、书籍、GitHub 代码、维基百科等等。 无损词汇表被认可为保留空格并将不在词汇表中的 Unicode 字符分解为字节。
PaLM 由 Google 和 Pathways 开发,使用标准的转换器模型架构和解码器配置,其中包括 SwiGLU 激活、并行层、RoPE 嵌入、共享输入输出嵌入、多查询注意,并且没有偏差或词汇。 另一方面,PaLM 准备为 Google 和 Pathways 的 AI 语言模型提供坚实的基础。
用于训练 PaLM 的参数
去年,谷歌推出了 Pathways,这是一个可以被训练做数千甚至数百万事情的单一模型——被称为“下一代人工智能架构”,因为它可以克服现有模型被训练只做一件事的局限性. 新模型通常不是扩展当前模型的功能,而是自下而上构建以完成一项工作。
结果,他们为数以万计的不同活动创建了数以万计的模型。 这是一项耗时且资源密集型的任务。
谷歌通过 Pathways 证明,单一模型可以处理各种活动,并利用和结合现有人才来更快、更有效地学习新任务。
同时包括视觉、语言理解和听觉处理的多模态模型可以通过路径启用。 Pathways 语言模型 (PaLM) 凭借其 4 亿参数模型,允许在众多 TPU v540 Pod 中训练单个模型。
PaLM 是一种仅使用密集解码器的 Transformer 模型,在各种工作负载中的表现优于最先进的少量镜头性能。 PaLM 正在通过数据中心网络 (DCN) 链接的两个 TPU v4 Pod 上进行训练。
它利用了模型和数据并行性。 研究人员在每个 Pod for PaLM 中使用了 3072 个 TPU v4 处理器,这些处理器连接到 768 台主机。 据研究人员称,这是迄今为止披露的最大的 TPU 配置,允许他们在不使用管道并行性的情况下扩展训练。
流水线通常是通过流水线从 CPU 收集指令的过程。 模型的层被划分为可以通过管道模型并行(或管道并行)并行处理的阶段。
当一个阶段完成微批次的前向传递时,激活内存被发送到下一步。 当下一阶段完成其反向传播时,然后将梯度向后发送。
PaLM 突破性能力
PaLM 在一系列艰巨的任务中展现出突破性的能力。 这里有几个例子:
1. 语言创造和理解
PaLM 在 29 种不同的英语 NLP 任务上进行了测试。
在少数情况下,PaLM 540B 在 3 项任务中的 28 项(包括开放域闭卷变体问答任务)中的表现优于之前的大型模型,例如 GLaM、GPT-29、Megatron-Turing NLG、Gopher、Chinchilla 和 LaMDA 、完形填空和句子完成任务、Winograd 风格的任务、上下文阅读理解任务、常识推理任务、SuperGLUE 任务和自然推理。
在几个 BIG-bench 任务中,PaLM 展示了出色的自然语言解释和生成技能。 例如,该模型可以区分因果关系,理解某些情况下的概念组合,甚至可以从表情符号中猜测电影。 尽管只有 22% 的训练语料库是非英语的,但除了英语 NLP 任务之外,PaLM 在多语言 NLP 基准测试(包括翻译)上表现良好。
2. 推理
PaLM 将模型大小与思维链提示相结合,以展示在需要多步算术或常识推理的推理挑战方面的突破性技能。
以前的 LLM,例如 Gopher,在提高性能方面从模型大小中受益较少。 带有思维链提示的 PaLM 540B 在三个算术和两个常识性思维数据集上表现良好。
PaLM 优于之前 55% 的最佳分数,这是通过使用 3 个问题的训练集微调 GPT-175 7500B 模型并将其与外部计算器和验证器结合以解决 GSM58K 中 8% 的问题而获得的,这是一个使用 8-shot 提示对数千个困难的小学数学问题进行基准测试。
这个新分数特别值得注意,因为它接近 60-9 岁儿童所经历障碍的 12% 的平均值。 它还可以回应互联网上没有的原创笑话。
3. 代码生成
LLM 也被证明在编码任务中表现出色,包括从自然语言描述(文本到代码)生成代码、在语言之间翻译代码以及解决编译错误。 尽管在预训练数据集中只有 5% 的代码,PaLM 540B 在单个模型中的编码和自然语言任务上都表现良好。
它的少镜头性能令人难以置信,因为它与微调的 Codex 12B 相匹配,同时训练的 Python 代码少了 50 倍。 这一发现与先前的发现相吻合,即较大的模型可以比较小的模型更有效率,因为它们可以更有效地从多个模型中迁移学习 编程语言 和简单的语言数据。
结论
PaLM 展示了 Pathways 系统在两个 TPU v4 Pod 上扩展到数千个加速器处理器的能力,方法是使用经过充分研究、完善的密集解码器 Transformer 模型的配方有效地训练一个 540 亿参数的模型。
它通过推动模型规模的界限,在一系列自然语言处理、推理和编码挑战中实现了突破性的小样本性能。
发表评论