目录[隐藏][展示]
当下的大型神经网络 GPT-3 于 2020 年 XNUMX 月由 OpenAI,由 Elon Musk 和 Sam Altman 共同创立的 AI 初创公司。 GPT-3 是一种尖端语言模型,具有 175 亿个参数,而其前身 GPT-1,5 中的参数为 2 亿个。
GPT-3 的表现优于微软的 NLG 图灵模型(图灵自然语言生成),该模型此前曾以 17 亿个参数保持最大神经网络的记录。
语言模型受到了赞扬、批评甚至审查; 它还产生了新的和有趣的用途。 现在有报道称,OpenAI 的下一版 GPT-4 语言模型,确实很快就会到来。
如果您想了解有关 GPT-4 的更多信息,那么您来对地方了。 我们将在本文中深入探讨 GPT-4,包括其参数、与其他模型的比较等。
那么,什么是 GPT-4?
要了解 GPT-4 的范围,首先要了解它的前身 GPT-3。 GPT-3(Generative Pre-trained Transformer,第三代)是一种自主的内容生成工具。
用户将数据输入到 机器学习 根据 OpenAI 的说法,该模型随后可以产生大量相关的写作作为回应。 GPT-4 在少镜头条件下的多任务处理方面会明显更好——一种 机器学习 – 使结果更接近人类。
GPT-3 的建造成本高达数亿英镑,但预计 GPT-4 的成本要高得多,因为它的规模将扩大五百倍。 从这个角度来看,
GPT-4 可能具有与大脑中的突触一样多的特征。 GPT-4 将主要采用与 GPT-3 相同的方法,因此 GPT-4 将扩展 GPT-3 当前完成的功能,而不是范式飞跃——但推理能力显着增强。
GPT-3 允许用户出于实际目的输入自然语言,但它仍然需要一些专业知识来设计能够产生良好结果的提示。 GPT-4 在预测用户意图方面会明显更好。
GPT-4 的参数是什么?
尽管 GPT-4 是最受期待的人工智能进步之一,但人们对 GPT-XNUMX 一无所知:它会是什么样子,它将具有什么特性,以及它将具有什么能力。
去年,Altman 做了一个问答,并透露了一些关于 OpenAI 对 GPT-4 的雄心壮志的细节。 根据 Altman 的说法,它不会比 GPT-3 大。 GPT-4 不太可能成为使用最广泛的 语言模型. 尽管与前几代相比,该模型将是巨大的 神经网络, 它的大小不会是它的显着特征。 GPT-3 和 Gopher 是最合理的候选者 (175B-280B)。
英伟达和微软的 Megatron-Turing NLG 保持了 最密集的神经网络 参数为 530B——是 GPT-3 的三倍——直到最近谷歌的 PaLM 才将其设为 540B。 令人惊讶的是,一系列较小的模型优于 MT-NLG。
根据幂律关系,OpenAI 的 Jared Kaplan 及其同事在 2020 年确定,当处理预算的增加主要用于增加参数数量时,性能提升最大。 谷歌、英伟达、微软、OpenAI、DeepMind 和其他语言建模公司都乖乖地遵守了规定。
Altman 表示,他们不再专注于构建大型模型,而是专注于最大化较小模型的性能。
OpenAI 研究人员是缩放假设的早期支持者,但他们可能已经发现,以前未发现的其他路径可能会导致更好的模型。 由于这些原因,GPT-4 不会比 GPT-3 大很多。
OpenAI 将更加关注其他方面,例如数据、算法、参数化和对齐,这些方面有可能更快地产生显着收益。 我们将不得不拭目以待,看看具有 100T 参数的模型可以做什么。
关键点:
- 模型尺寸:GPT-4 会比 GPT-3 大,但不会大很多(MT-NLG 530B 和 PaLM 540B)。 该模型的大小将是不起眼的。
- 最优性:GPT-4 将比 GPT-3 使用更多的资源。 它将对参数化(最佳超参数)和缩放方法(训练令牌的数量与模型大小一样重要)实现新的最优性见解。
- 多式联运:GPT-4 将只能发送和接收短信(不能多模式)。 OpenAI 试图在过渡到多模式模型之前将语言模型推向极限 戴尔 2,他们预测最终将超越单峰系统。
- 稀疏性:GPT-4 与其前身 GPT-2 和 GPT-3 一样,将是一个密集模型(所有参数都将用于处理任何给定的输入)。 未来,稀疏性将变得更加重要。
- 对准: GPT-4 将比 GPT-3 更接近我们。 它将把它从 InstructGPT 中学到的东西放进去,InstructGPT 是由人工输入开发的。 尽管如此,人工智能的融合还有很长的路要走,应该仔细评估而不是夸大其词。
结论
人工智能. 这是一个很大的目标,但 OpenAI 开发人员正在努力实现它。 AGI 的目标是创建一个模型或“代理”,该模型或“代理”能够理解和执行一个人可以进行的任何活动。
GPT-4 可能是实现这一目标的下一步,这听起来像是科幻电影中的东西。 您可能想知道获得 AGI 有多现实。
据 Google 工程总监 Ray Kurzweil 称,我们将在 2029 年实现这一里程碑。 考虑到这一点,随着我们越来越接近 AGI(通用人工智能),让我们更深入地了解 GPT-4 以及该模型的影响。
发表评论