ChatGPT训练全过程详解

目录[隐藏][展示]

生成预训练+ -
- 对齐问题
监督微调+ -
- 监管局限性：分配转移
基于偏好，奖励学习
未来将会什么？

ChatGPT 是一种卓越的人工智能语言模型。我们都用它来协助我们完成各种任务。

你有没有质疑过它是如何被训练来产生看起来如此像人类的回复的？在本文中，我们将检查 ChatGPT 的训练。

我们将解释它如何发展成为最杰出的公司之一语言模型. 当我们探索 ChatGPT 的迷人世界时，请一起踏上发现之旅。

培训概览

ChatGPT 是一种自然语言处理模型。

借助 ChatGPT，我们可以进行交互式对话和类似人类的讨论。它采用类似于指导GPT，这是一个前沿的语言模型。它是在 ChatGPT 之前不久开发的。

它采用了一种更具吸引力的方法。这使得自然的用户交互成为可能。因此，它是聊天机器人和虚拟助手等各种应用程序的完美工具。

ChatGPT 的培训过程是一个多阶段过程。生成式预训练是 ChatGPT 训练的第一步。

在此阶段，使用大量文本数据对模型进行训练。然后，该模型会发现自然语言中的统计相关性和模式。因此，我们可以获得语法准确且连贯的响应。

然后我们遵循监督微调的步骤。在这一部分中，模型针对特定任务进行训练。例如，它可以进行语言翻译或问答。

最后，ChatGPT 使用从人类反馈中学习的奖励。

现在，让我们检查这些步骤。

生成预训练

训练的初始级别是生成预训练。是训练语言模型的常用方法。为了创建令牌序列，该方法应用了“下一步预测范式”。

这是什么意思？

每个令牌都是一个唯一的变量。它们代表一个词或一个词的一部分。该模型试图确定哪个词最有可能在给定它之前的词的情况下出现。它使用其序列中所有项的概率分布。

语言模型的目的是构建标记序列。这些序列应该代表人类语言的模式和结构。这可以通过在大量文本数据上训练模型来实现。

然后，这些数据用于了解单词如何在语言中分布。

在训练期间，模型会改变概率分布参数。

并且，它试图减少文本中单词的预期分布和实际分布之间的差异。这可以通过使用损失函数来实现。损失函数计算预期分布和实际分布之间的差异。

自然语言处理和计算机视觉是我们使用生成预训练的领域之一。

开爱2

对齐问题

对齐问题是生成式预训练的难点之一。这是指难以将模型的概率分布与实际数据的分布相匹配。
换句话说，模型生成的答案应该更像人类。

该模型有时可能会提供意外或不正确的响应。并且，这可能是由多种原因造成的，例如训练数据偏差或模型缺乏上下文感知。必须解决对齐问题以提高语言模型的质量。

为了克服这个问题，像 ChatGPT 这样的语言模型采用了微调技术。

监督微调

ChatGPT 训练的第二部分是有监督的微调。人类开发人员此时参与对话，同时充当人类用户和聊天机器人。

这些谈话被记录下来并汇总到一个数据集中。每个训练样本都包含一个独特的对话历史，与作为“聊天机器人”的人类开发人员的下一个答案相匹配。

监督微调的目的是最大化模型分配给相关答案中的标记序列的概率。这种方法被称为“模仿学习”或“行为克隆”。

通过这种方式，模型可以学习提供更自然、更连贯的响应。它正在复制人类承包商给出的答复。

监督微调是指可以针对特定任务调整语言模型的地方。

让我们举个例子。假设我们想教聊天机器人提供电影推荐。我们将训练语言模型以根据电影描述预测电影评级。而且，我们将使用电影描述和评级的数据集。

该算法最终会找出电影的哪些方面对应于高或低收视率。

经过训练后，我们可以使用我们的模型向人类用户推荐电影。用户可以描述他们喜欢的电影，聊天机器人会使用精炼的语言模型来推荐更多与其相当的电影。

监管局限性：分配转移

有监督的微调是教语言模型执行指定的目标。这可以通过给模型提供一个数据集然后训练它做出预测。但是，该系统确实具有称为“监督限制”的限制。

这些限制之一是“分配转移”。它指的是训练数据可能无法准确反映模型将遇到的真实世界输入分布的可能性。

让我们回顾一下前面的例子。在电影推荐示例中，用于训练模型的数据集可能无法准确反映聊天机器人会遇到的电影种类和用户偏好。聊天机器人的表现可能不如我们想要的那么好。

因此，它遇到的输入与它在训练期间观察到的输入不同。

对于监督学习，当模型只在给定的一组实例上进行训练时，就会出现这个问题。

此外，如果使用强化学习来帮助模型适应新环境并从错误中吸取教训，则该模型在面对分布变化时可能会表现得更好。

基于偏好，奖励学习

奖励学习是开发聊天机器人的第三个训练阶段。在奖励学习中，模型被教导最大化奖励信号。

它是一个分数，表示模型完成工作的效率。奖励信号基于评价或评估模型回复的人的输入。

奖励学习旨在开发一种聊天机器人，能够产生人类用户喜欢的高质量回复。为此，一种称为强化学习——包括从反馈中学习以奖励的形式——用于训练模型。

例如，聊天机器人会根据其当前对任务的掌握程度来回答用户的询问，这些任务是在奖励学习期间提供给它的。一旦人类法官评估了回复，就会根据聊天机器人的执行效率给出奖励信号。

聊天机器人使用此奖励信号来修改其设置。而且，它提高了任务性能。

奖励学习的一些限制

奖励学习的一个缺点是，由于奖励信号可能稀疏且延迟，聊天机器人回复的反馈可能会在一段时间后才会出现。因此，成功训练聊天机器人可能具有挑战性，因为它可能要到很久以后才能收到有关特定回复的反馈。

另一个问题是人类法官可能对什么是成功的反应有不同的看法或解释，这可能导致奖励信号的偏差。为了减少这种情况，一些法官经常使用它来提供更可靠的奖励信号。

未来将会什么？

未来有几个潜在的步骤可以进一步提高 ChatGPT 的性能。

为了增加模型的理解力，一个潜在的未来途径是包括更多的训练数据集和数据源。增强模型理解和考虑非文本输入的能力也是可能的。

例如，语言模型可以理解视觉或声音。

通过结合特定的培训技术，ChatGPT 也可以针对某些任务进行改进。例如，它可以执行情绪分析或自然语言生成。总之，ChatGPT 和相关语言模型显示出巨大的进步前景。

ChatGPT训练全过程详解

培训概览

生成预训练

对齐问题

监督微调

监管局限性：分配转移

基于偏好，奖励学习

奖励学习的一些限制

未来将会什么？

关于伊尔克·坎丹·本吉

更多关于 HashDork 的文章：

如何减少人工智能中的幻觉

科洛西恩 vs 海根

这份未来的科技通讯不烂

ChatGPT训练全过程详解

培训概览

生成预训练

对齐问题

监督微调

监管局限性：分配转移

基于偏好，奖励学习

奖励学习的一些限制

未来将会什么？

关于 伊尔克·坎丹·本吉

更多关于 HashDork 的文章：

如何减少人工智能中的幻觉

10 个最佳社交媒体人工智能工具

科洛西恩 vs 海根

10 个最佳 AI 动画视频制作工具

读者互动

发表评论 取消回复

这份未来的科技通讯不烂

关于伊尔克·坎丹·本吉

发表评论取消回复