차례[숨다][보여 주다]
현재의 큰 신경망인 GPT-3는 2020년 XNUMX월에 발행되었습니다. OpenAI, Elon Musk와 Sam Altman이 공동 설립한 AI 스타트업. GPT-3는 이전 GPT-175의 1,5억 매개변수에 비해 2억 매개변수를 가진 최첨단 언어 모델입니다.
GPT-3은 이전에 17억 개의 매개변수로 가장 큰 신경망 기록을 보유했던 Microsoft의 NLG Turing 모델(Turing Natural Language Generation)을 능가했습니다.
언어 모델은 칭찬과 비판을 받았으며 심지어 면밀한 조사를 받았습니다. 그것은 또한 새롭고 흥미로운 용도를 낳았습니다. 그리고 이제 OpenAI의 차기 버전인 GPT-4가 언어 모델, 실제로 곧 올 것입니다.
GPT-4에 대해 더 자세히 알고 싶다면 올바른 사이트에 오신 것입니다. 이 기사에서 GPT-4의 매개변수, 다른 모델과의 비교 등을 자세히 살펴보겠습니다.
그렇다면 GPT-4는 무엇입니까?
GPT-4의 범위를 이해하려면 먼저 GPT-3의 전구체인 GPT-3를 이해해야 합니다. GPT-XNUMX(Generative Pre-trained Transformer, XNUMX세대)는 자율적인 콘텐츠 생성 도구입니다.
사용자는 데이터를 기계 학습 OpenAI에 따르면, 이에 대한 응답으로 엄청난 양의 관련 글을 생성할 수 있는 모델입니다. GPT-4는 몇 번의 촬영 조건에서 멀티태스킹을 훨씬 더 잘할 것입니다. 기계 학습 – 결과를 인간의 결과에 더욱 가깝게 만듭니다.
GPT-3는 제작에 수억 파운드의 비용이 들지만 GPT-4는 규모가 XNUMX배 더 커질 것이기 때문에 훨씬 더 많은 비용이 들 것으로 예상됩니다. 이것을 관점에서 보자면,
GPT-4는 뇌의 시냅스만큼 많은 특성을 가질 수 있습니다. GPT-4는 주로 GPT-3과 동일한 방법을 사용하므로 패러다임의 도약이 아니라 GPT-4는 현재 GPT-3이 수행하는 것을 확장하지만 훨씬 더 뛰어난 추론 기능을 제공합니다.
GPT-3에서는 사용자가 실용적인 목적으로 자연어를 입력할 수 있었지만 좋은 결과를 얻을 수 있는 프롬프트를 디자인하려면 여전히 약간의 전문 지식이 필요했습니다. GPT-4는 사용자의 의도를 훨씬 더 잘 예측할 수 있습니다.
GPT-4 매개변수는 무엇입니까?
가장 널리 기다려지는 AI 발전 중 하나임에도 불구하고 GPT-4에 대해 알려진 바가 없습니다. 어떻게 생겼는지, 어떤 특성을 갖게 될지, 어떤 능력을 갖게 될지에 대해 말이죠.
작년에 Altman은 Q&A를 통해 GPT-4에 대한 OpenAI의 야망에 대한 몇 가지 세부 정보를 공개했습니다. Altman에 따르면 GPT-3보다 크지 않을 것입니다. GPT-4는 가장 널리 사용되지 않을 것입니다. 언어 모델. 모델은 이전 세대의 신경망, 그 크기는 구별되는 특성이 아닙니다. GPT-3 및 Gopher가 가장 그럴듯한 후보입니다(175B-280B).
Nvidia와 Microsoft의 Megatron-Turing NLG는 가장 밀도가 높은 신경망 GPT-530의 3배인 540B의 매개변수는 최근 Google의 PaLM이 XNUMXB로 측정했을 때까지였습니다. 놀랍게도 수많은 하위 모델이 MT-NLG를 능가했습니다.
거듭제곱 법칙 연결에 따르면 OpenAI의 Jared Kaplan과 동료들은 2020년에 처리 예산 증가가 대부분 매개변수 수를 늘리는 데 지출될 때 성능이 가장 크게 향상된다고 결정했습니다. Google, Nvidia, Microsoft, OpenAI, DeepMind 및 기타 언어 모델링 회사는 규정을 준수했습니다.
Altman은 더 이상 대규모 모델을 구성하는 데 집중하지 않고 보다 작은 모델의 성능을 극대화하는 데 집중하고 있음을 나타냅니다.
OpenAI 연구원은 스케일링 가설의 초기 지지자였지만 이전에 발견되지 않은 추가 경로가 우수한 모델로 이어질 수 있음을 발견했을 수 있습니다. 이러한 이유로 GPT-4는 GPT-3보다 훨씬 크지 않습니다.
OpenAI는 데이터, 알고리즘, 매개변수화 및 정렬과 같은 다른 측면에 더 중점을 두어 상당한 이점을 더 빨리 얻을 수 있습니다. 100T 매개변수가 있는 모델이 무엇을 할 수 있는지 기다려야 합니다.
핵심 포인트:
- 모델의 크기: GPT-4는 GPT-3보다 크지만 그다지 크지 않습니다(MT-NLG 530B 및 PaLM 540B). 모델의 크기는 눈에 띄지 않을 것입니다.
- 최적: GPT-4는 GPT-3보다 더 많은 리소스를 사용합니다. 매개변수화(최적 하이퍼파라미터) 및 스케일링 방법(훈련 토큰의 수는 모델 크기만큼 중요)에 대한 새로운 최적성 통찰력을 구현합니다.
- 멀티모달리티: GPT-4는 문자 메시지만 보내고 받을 수 있습니다(다중 모드 아님). OpenAI는 다음과 같은 다중 모드 모델로 전환하기 전에 언어 모델을 한계까지 밀어붙이려고 합니다. 달레 2, 그들은 궁극적으로 단일 모드 시스템을 능가할 것이라고 예측합니다.
- 희소성: GPT-4는 전임자 GPT-2 및 GPT-3과 마찬가지로 밀집 모델이 될 것입니다(모든 매개변수는 주어진 입력을 처리하는 데 사용됩니다). 미래에는 희소성이 더 중요해질 것입니다.
- 조정: GPT-4는 GPT-3보다 우리에게 더 가까이 다가갈 것입니다. 그것은 인간의 입력으로 개발 된 InstructGPT에서 배운 것을 넣을 것입니다. 그러나 AI 융합은 아직 갈 길이 멀고, 그 노력을 과장하기보다는 신중하게 평가해야 한다.
결론
인공 지능. 그것은 큰 목표이지만 OpenAI 개발자들은 그것을 달성하기 위해 노력하고 있습니다. AGI의 목표는 사람이 할 수 있는 모든 활동을 이해하고 수행할 수 있는 모델 또는 "에이전트"를 만드는 것입니다.
GPT-4는 이 목표를 달성하기 위한 다음 단계일 수 있으며 공상과학 영화에서나 나올 법한 소리입니다. AGI를 달성하는 것이 얼마나 현실적인지 궁금할 것입니다.
Google의 엔지니어링 이사인 Ray Kurzweil에 따르면 2029년까지 이 이정표에 도달할 것입니다. 이를 염두에 두고 AGI(Artificial General Intelligence)에 가까워짐에 따라 GPT-4와 이 모델의 파급 효과에 대해 자세히 살펴보겠습니다.
댓글을 남겨주세요.