大型语言模型：你需要知道的一切

目录[隐藏][展示]

什么是大型语言模型？
法学硕士是如何接受培训的？+ -
- 使用 Transformer 架构进行预训练
- 微调
大型语言模型的局限性+ -
结论

人工智能中的一个经典问题是追求能够理解人类语言的机器。

例如，当在您最喜欢的搜索引擎上搜索“附近的意大利餐馆”时，算法必须分析您查询中的每个词并输出相关结果。一个像样的翻译应用程序必须理解特定英语单词的上下文，并以某种方式解释语言之间的语法差异。

所有这些任务以及更多任务都属于计算机科学的子领域，称为 自然语言处理 或自然语言处理。 NLP 的进步带来了广泛的实际应用，从亚马逊的 Alexa 等虚拟助手到检测恶意电子邮件的垃圾邮件过滤器。

NLP 的最新突破是 大语言模型 或法学硕士。 GPT-3 等 LLM 变得如此强大，以至于它们似乎在几乎所有 NLP 任务或用例中都取得了成功。

在本文中，我们将研究 LLM 到底是什么，这些模型是如何训练的，以及它们目前的局限性。

什么是大型语言模型？

从本质上讲，语言模型只是一种算法，它知道单词序列是有效句子的可能性有多大。

在几百本书上训练的一个非常简单的语言模型应该能够说出“他回家了”比“他回家了”更有效。

如果我们用从互联网上抓取的大量数据集替换相对较小的数据集，我们就开始接近 大语言模型.

运用神经网络，研究人员可以在大量文本数据上训练 LLM。由于模型已经看到的文本数据量很大，LLM 变得非常擅长预测序列中的下一个单词。

该模型变得非常复杂，可以执行很多 NLP 任务。这些任务包括总结文本、创作新颖的内容，甚至模拟类人对话。

大型语言模型可以根据提示创建新颖的内容

例如，广受欢迎的 GPT-3 语言模型经过超过 175 亿个参数的训练，被认为是迄今为止最先进的语言模型。

它能够生成工作代码、撰写整篇文章，并且可以尝试回答有关任何主题的问题。

法学硕士是如何接受培训的？

我们已经简要地谈到了一个事实，即 LLM 的很多能力都归功于其训练数据的规模。毕竟我们称它们为“大型”语言模型是有原因的。

使用 Transformer 架构进行预训练

在预训练阶段，将 LLM 引入现有文本数据以学习语言的一般结构和规则。

在过去几年中，LLM 已经在覆盖公共互联网很大一部分的数据集上进行了预训练。例如，GPT-3 的语言模型是根据来自常见的抓取数据集，从超过 50 万个域中收集的网络帖子、网页和数字化书籍的语料库。

然后将庞大的数据集输入一个称为 变压器. 变形金刚是一种深度神经网络最适合顺序数据。

大型语言模型使用转换器

变压器使用 编码器-解码器架构 用于处理输入和输出。本质上，Transformer 包含两个神经网络：一个编码器和一个解码器。编码器可以提取输入文本的含义并将其存储为向量。解码器然后接收向量并产生其对文本的解释。

然而，让 Transformer 架构运行良好的关键概念是添加了一个 自注意力机制. 自注意力的概念允许模型关注给定句子中最重要的词。该机制甚至考虑了顺序相距较远的单词之间的权重。

self-attention 的另一个好处是这个过程可以并行化。 Transformer 模型可以一次处理所有输入，而不是按顺序处理顺序数据。与其他方法相比，这使 Transformer 能够相对快速地训练大量数据。

微调

在预训练阶段之后，您可以选择为基础 LLM 引入新文本进行训练。我们称这个过程微调并且通常用于进一步提高 LLM 在特定任务上的输出。

例如，您可能希望使用 LLM 为您的 Twitter 帐户生成内容。我们可以为模型提供您之前推文的几个示例，以使其了解所需的输出。

有几种不同类型的微调。

大型语言模型能够进行少量的学习

快速学习 指的是为模型提供少量示例的过程，期望语言模型能够弄清楚如何做出类似的输出。 一键式学习 是一个类似的过程，只是只提供了一个例子。

大型语言模型的局限性

即使没有微调，GPT-3 等 LLM 也能够执行大量用例。然而，这些模型仍然有其自身的局限性。

缺乏对世界的语义理解

从表面上看，法学硕士似乎展示了智慧。但是，这些模型的操作方式与人类的大脑做。 LLM 仅依靠统计计算来生成输出。他们没有能力自己推理出想法和概念。

正因为如此，LLM 可以简单地输出无意义的答案，因为当按照特定顺序放置这些词时，这些词看起来“正确”或“统计上可能”。

幻觉

像 GPT-3 这样的模型也有不准确的反应。法学硕士可能会遭受一种称为幻觉模型在没有意识到响应没有现实基础的情况下输出事实上不正确的响应。

例如，用户可能会要求模型解释史蒂夫·乔布斯 (Steve Jobs) 对最新款 iPhone 的想法。该模型可能会根据其训练数据凭空生成报价。

偏见和知识有限

与许多其他算法一样，大型语言模型很容易继承训练数据中存在的偏差。随着我们开始更多地依赖 LLM 来检索信息，这些模型的开发人员应该找到减轻偏见反应的潜在有害影响的方法。

以类似的能力，模型训练数据的盲点也会阻碍模型本身。目前，大型语言模型需要几个月的时间来训练。这些模型还依赖于范围有限的数据集。这就是为什么 ChatGPT 对 2021 年以后发生的事件的了解有限。

结论

大型语言模型有可能真正改变我们与技术和整个世界互动的方式。

互联网上可用的大量数据为研究人员提供了一种模拟语言复杂性的方法。然而，一路走来，这些语言模型似乎已经对世界的真实情况有了类似人类的理解。

随着公众开始相信这些语言模型能够提供准确的输出，研究人员和开发人员已经在寻找添加护栏的方法，以使该技术保持合乎道德。

您认为 LLM 的未来是什么？

大型语言模型：你需要知道的一切

什么是大型语言模型？