언어 인식 및 생성을 위해 훈련된 대규모 신경망은 최근 몇 년 동안 다양한 작업에서 뛰어난 결과를 보여주었습니다. GPT-3은 대규모 언어 모델(LLM)이 몇 번의 학습에 사용될 수 있고 광범위한 작업별 데이터가 필요하거나 모델 매개변수를 변경하지 않고도 우수한 결과를 얻을 수 있음을 입증했습니다.
실리콘 밸리의 거대 기술 기업인 Google은 차세대 AI 언어 모델로 PaLM(Pathways Language Model)을 전 세계 기술 산업에 도입했습니다. 구글은 새로운 인공 지능 AI 언어 모델의 품질을 개선하기 위한 전략적 목표로 아키텍처를 PaLM에 통합합니다.
이 게시물에서는 Palm 알고리즘을 훈련하는 데 사용되는 매개변수, 해결하는 문제 등을 포함하여 자세히 살펴보겠습니다.
구글의 PaLM 알고리즘?
Pathways 언어 모델이란 손바닥 를 나타냅니다. Pathways AI 아키텍처를 강화하기 위해 Google에서 개발한 새로운 알고리즘입니다. 구조의 주요 목표는 한 번에 백만 개의 개별 활동을 수행하는 것입니다.
여기에는 복잡한 데이터 해독에서 연역적 추론에 이르는 모든 것이 포함됩니다. PaLM은 언어 및 추론 작업에서 현재의 AI와 인간을 능가하는 능력을 가지고 있습니다.
여기에는 인간이 새로운 것을 배우는 방식을 모방하고 다양한 지식을 결합하여 이전에는 볼 수 없었던 새로운 문제를 해결하는 Few-Shot Learning이 포함되며, 모든 지식을 사용하여 새로운 문제를 해결할 수 있는 기계의 이점이 있습니다. PaLM에서 이 기술의 한 예는 이전에 들어본 적이 없는 농담을 설명하는 능력입니다.
PaLM은 언어 이해 및 생성, 다단계 산술 코드 관련 활동, 상식 추론, 번역 등을 포함하여 다양한 도전적인 작업에서 많은 획기적인 기술을 보여주었습니다.
다국어 NLP 세트를 사용하여 복잡한 문제를 해결하는 능력을 입증했습니다. PaLM은 전 세계 기술 시장에서 원인과 결과, 개념적 조합, 독특한 게임 및 기타 여러 가지를 차별화하는 데 사용할 수 있습니다.
또한 다단계 논리적 추론, 심층 언어, 글로벌 지식 및 기타 기술을 사용하여 많은 컨텍스트에 대한 심층적인 설명을 생성할 수 있습니다.
Google은 PaLM 알고리즘을 어떻게 개발했나요?
PaLM에서 Google의 획기적인 성능을 위해 경로는 최대 540억 개의 매개변수로 확장될 예정입니다. 수많은 영역에 걸쳐 효율적이고 효과적으로 일반화할 수 있는 하나의 모델로 인정받고 있습니다. Google의 Pathways는 가속기용 분산 컴퓨팅 개발에 전념하고 있습니다.
PaLM은 Pathways 시스템을 사용하여 훈련된 디코더 전용 변환기 모델입니다. Google에 따르면 PaLM은 여러 워크로드에서 최첨단 퓨처샷 성능을 성공적으로 달성했습니다. PaLM은 Pathways 시스템을 사용하여 처음으로 6144 칩으로 알려진 가장 큰 TPU 기반 시스템 구성으로 교육을 확장했습니다.
AI 언어 모델에 대한 교육 데이터 세트는 영어 및 기타 다국어 데이터 세트의 혼합으로 구성됩니다. "무손실" 어휘를 사용하여 고품질 웹 콘텐츠, 토론, 책, GitHub 코드, Wikipedia 등을 포함합니다. 무손실 어휘는 공백을 유지하고 어휘에 없는 유니코드 문자를 바이트로 나누는 것으로 인식됩니다.
PaLM은 표준 변환기 모델 아키텍처와 SwiGLU 활성화, 병렬 레이어, RoPE 임베딩, 공유 입출력 임베딩, 다중 쿼리 주의, 편향 또는 어휘가 포함되지 않은 디코더 구성을 활용하여 Google과 Pathways에서 개발했습니다. 반면 PaLM은 Google과 Pathways의 AI 언어 모델에 대한 견고한 기반을 제공할 준비가 되어 있습니다.
PaLM 훈련에 사용되는 매개변수
작년에 Google은 수백만 가지가 아니라 수천 가지 일을 수행하도록 훈련할 수 있는 단일 모델인 Pathways를 출시했습니다. 이 모델은 한 가지만 수행하도록 훈련되는 기존 모델의 한계를 극복할 수 있기 때문에 "차세대 AI 아키텍처"라고 불립니다. . 현재 모델의 기능을 확장하는 대신 단일 작업을 수행하기 위해 새 모델이 아래에서 위로 구축되는 경우가 많습니다.
결과적으로 그들은 수만 가지의 다양한 활동에 대한 수만 개의 모델을 만들었습니다. 이것은 시간이 많이 걸리고 리소스를 많이 사용하는 작업입니다.
Google은 Pathways를 통해 단일 모델이 다양한 활동을 처리하고 현재 재능을 활용하고 결합하여 새로운 작업을 보다 빠르고 효율적으로 학습할 수 있음을 입증했습니다.
시각, 언어 이해 및 청각 처리를 동시에 포함하는 다중 모드 모델은 경로를 통해 활성화될 수 있습니다. PaLM(Pathways Language Model)은 4억 개의 매개변수 모델 덕분에 수많은 TPU v540 Pod에서 단일 모델을 교육할 수 있습니다.
고밀도 디코더 전용 Transformer 모델인 PaLM은 광범위한 워크로드에서 최첨단 퓨리샷 성능을 능가합니다. PaLM은 데이터 센터 네트워크(DCN)를 통해 연결된 4개의 TPU vXNUMX Pod에서 훈련되고 있습니다.
모델 및 데이터 병렬 처리를 모두 활용합니다. 연구원들은 3072개의 호스트에 연결된 PaLM용 각 Pod에 4개의 TPU v768 프로세서를 사용했습니다. 연구원에 따르면 이것은 지금까지 공개된 가장 큰 TPU 구성으로 파이프라인 병렬 처리를 사용하지 않고도 훈련을 확장할 수 있습니다.
파이프 라이닝은 일반적으로 파이프라인을 통해 CPU에서 명령을 수집하는 프로세스입니다. 모델의 계층은 파이프라인 모델 병렬 처리(또는 파이프라인 병렬 처리)를 통해 병렬로 처리할 수 있는 단계로 나뉩니다.
활성화 메모리는 한 단계가 마이크로 배치에 대한 순방향 통과를 완료하면 다음 단계로 전송됩니다. 그런 다음 다음 단계가 역전파를 완료하면 그라디언트가 후방으로 전송됩니다.
PaLM의 획기적인 기능
PaLM은 다양한 어려운 작업에서 획기적인 능력을 보여줍니다. 다음은 몇 가지 예입니다.
1. 언어 생성과 이해
PaLM은 영어로 된 29개의 다른 NLP 작업에 대한 테스트를 받았습니다.
PaLM 540B는 오픈 도메인 클로즈드 북 변형 질문 답변 작업을 포함하여 3개 작업 중 28개 작업에서 GLaM, GPT-29, Megatron-Turing NLG, Gopher, Chinchilla 및 LaMDA와 같은 이전 대형 모델을 몇 번의 샷 기준으로 능가했습니다. , 닫기 및 문장 완성 작업, Winograd 스타일 작업, 문맥 내 읽기 이해 작업, 상식 추론 작업, SuperGLUE 작업 및 자연 추론.
여러 BIG 벤치 작업에서 PaLM은 뛰어난 자연어 해석 및 생성 기술을 보여줍니다. 예를 들어, 모델은 원인과 결과를 구별하고, 특정 상황에서 개념적 조합을 이해하고, 이모티콘으로 영화를 추측할 수도 있습니다. 교육 코퍼스의 22%만이 영어가 아니지만 PaLM은 영어 NLP 작업 외에도 번역을 포함한 다국어 NLP 벤치마크에서 우수한 성능을 보입니다.
2. 추론
PaLM은 다단계 산술 또는 상식적인 추론을 필요로 하는 추론 과제에 대한 획기적인 기술을 보여주기 위해 모델 크기를 사고 사슬 프롬프트와 혼합합니다.
Gopher와 같은 이전 LLM은 성능 향상 측면에서 모델 크기의 이점이 적었습니다. 생각의 연쇄 촉진 기능이 있는 PaLM 540B는 XNUMX개의 산술 및 XNUMX개의 상식적인 사고 데이터 세트에서 좋은 결과를 얻었습니다.
PaLM은 55개의 문제로 구성된 훈련 세트로 GPT-3 175B 모델을 미세 조정하고 외부 계산기 및 검증기와 결합하여 GSM7500K의 문제 중 58%를 해결함으로써 얻은 이전 최고 점수인 8%를 능가합니다. 8번의 프롬프팅을 사용하여 수천 개의 어려운 초등학교 수준 수학 문제의 벤치마크.
이 새로운 점수는 60-9세 아동이 경험하는 장애의 평균 12%에 근접하기 때문에 특히 주목할 만합니다. 또한 인터넷에서 사용할 수 없는 독창적인 농담에도 응답할 수 있습니다.
3. 코드 생성
LLM은 자연어 설명에서 코드 생성(텍스트에서 코드로), 언어 간 코드 번역, 컴파일 오류 해결 등의 코딩 작업에서도 잘 수행되는 것으로 나타났습니다. 사전 훈련 데이터 세트에 5%의 코드만 있음에도 불구하고 PaLM 540B는 단일 모델에서 코딩 및 자연어 작업 모두에서 잘 수행됩니다.
12배 적은 Python 코드로 훈련하는 동안 미세 조정된 Codex 50B와 일치하기 때문에 몇 번의 촬영으로 수행되는 성능은 놀랍습니다. 이 발견은 큰 모델이 여러 모델에서 학습을 더 효과적으로 전달할 수 있기 때문에 작은 모델보다 더 효율적일 수 있다는 이전 발견을 뒷받침합니다. 프로그래밍 언어 및 일반 언어 데이터.
결론
PaLM은 고밀도 디코더 전용 Transformer 모델의 잘 연구되고 잘 정립된 레시피로 4억 매개변수 모델을 효과적으로 훈련함으로써 540개의 TPU vXNUMX Pod에서 수천 개의 가속기 프로세서로 확장할 수 있는 Pathways 시스템의 능력을 보여줍니다.
모델 규모의 한계를 뛰어넘어 다양한 자연어 처리, 추론 및 코딩 문제에 걸쳐 획기적인 퓨처샷 성능을 달성합니다.
댓글을 남겨주세요.