대규모 언어 모델: 알아야 할 모든 것

차례[숨다][보여 주다]

대규모 언어 모델이란 무엇입니까?
LLM은 어떻게 교육을 받나요?+-
- 트랜스포머 아키텍처로 사전 훈련
- 미세 조정
대규모 언어 모델의 한계+-
결론

인공 지능의 고전적인 문제는 인간의 언어를 이해할 수 있는 기계를 추구하는 것입니다.

예를 들어 즐겨 찾는 검색 엔진에서 "가까운 이탈리안 레스토랑"을 검색할 때 알고리즘은 쿼리의 각 단어를 분석하고 관련 결과를 출력해야 합니다. 괜찮은 번역 앱은 영어로 된 특정 단어의 맥락을 이해하고 어떻게든 언어 간의 문법 차이를 설명해야 합니다.

이러한 모든 작업과 훨씬 더 많은 작업은 다음과 같이 알려진 컴퓨터 과학의 하위 분야에 속합니다. 자연 언어 처리 또는 NLP. NLP의 발전으로 인해 Amazon의 Alexa와 같은 가상 비서부터 악성 이메일을 탐지하는 스팸 필터에 이르기까지 다양한 실용적인 애플리케이션이 생겨났습니다.

NLP의 가장 최근의 돌파구는 대형 언어 모델 또는 LLM. GPT-3와 같은 LLM은 매우 강력해져서 거의 모든 NLP 작업이나 사용 사례에서 성공하는 것처럼 보입니다.

이 기사에서는 LLM이 정확히 무엇인지, 이러한 모델이 어떻게 훈련되는지, 그리고 현재 제한 사항이 무엇인지 살펴보겠습니다.

대규모 언어 모델이란 무엇입니까?

언어 모델의 핵심은 단순히 일련의 단어가 유효한 문장일 가능성을 아는 알고리즘입니다.

수백 권의 책으로 훈련된 매우 간단한 언어 모델은 "집에 갔다"가 "집에 갔다"보다 더 타당하다고 말할 수 있어야 합니다.

상대적으로 작은 데이터 세트를 인터넷에서 스크랩한 방대한 데이터 세트로 대체하면 대형 언어 모델.

사용 신경망, 연구원은 대량의 텍스트 데이터에 대해 LLM을 교육할 수 있습니다. 모델이 본 텍스트 데이터의 양 때문에 LLM은 시퀀스의 다음 단어를 매우 잘 예측하게 됩니다.

모델이 매우 정교해져서 많은 NLP 작업을 수행할 수 있습니다. 이러한 작업에는 텍스트 요약, 참신한 콘텐츠 생성, 인간과 같은 대화 시뮬레이션이 포함됩니다.

대규모 언어 모델은 프롬프트를 기반으로 새로운 콘텐츠를 생성할 수 있습니다.

예를 들어, 매우 인기 있는 GPT-3 언어 모델은 175억 개 이상의 매개변수로 훈련되었으며 지금까지 가장 발전된 언어 모델로 간주됩니다.

작업 코드를 생성하고 전체 기사를 작성할 수 있으며 모든 주제에 대한 질문에 답할 수 있습니다.

LLM은 어떻게 교육을 받나요?

우리는 LLM이 훈련 데이터의 크기에 많은 힘을 쏟고 있다는 사실에 대해 간략하게 언급했습니다. 결국 "큰" 언어 모델이라고 부르는 이유가 있습니다.

트랜스포머 아키텍처로 사전 훈련

사전 훈련 단계에서 LLM은 기존 텍스트 데이터에 도입되어 언어의 일반적인 구조와 규칙을 학습합니다.

지난 몇 년 동안 LLM은 공용 인터넷의 상당 부분을 다루는 데이터 세트에 대해 사전 교육을 받았습니다. 예를 들어 GPT-3의 언어 모델은 일반적인 크롤링 50천만 개가 넘는 도메인에서 스크랩한 웹 게시물, 웹 페이지 및 디지털화된 책의 모음인 데이터 세트입니다.

방대한 데이터 세트는 다음으로 알려진 모델에 입력됩니다. 변압기. 트랜스포머는 일종의 심 신경 네트워크 순차 데이터에 가장 적합합니다.

대규모 언어 모델은 변환기를 사용합니다.

트랜스포머는 인코더-디코더 아키텍처 입력과 출력을 처리하기 위해. 기본적으로 변환기에는 인코더와 디코더라는 두 개의 신경망이 포함되어 있습니다. 인코더는 입력 텍스트의 의미를 추출하여 벡터로 저장할 수 있습니다. 그런 다음 디코더는 벡터를 수신하고 텍스트 해석을 생성합니다.

그러나 트랜스포머 아키텍처가 제대로 작동하도록 한 핵심 개념은 셀프 어텐션 메커니즘. self-attention의 개념은 모델이 주어진 문장에서 가장 중요한 단어에 주의를 기울일 수 있도록 합니다. 이 메커니즘은 멀리 떨어져 있는 단어 사이의 가중치도 순차적으로 고려합니다.

self-attention의 또 다른 이점은 프로세스를 병렬화할 수 있다는 것입니다. 순차적 데이터를 순서대로 처리하는 대신 변환기 모델은 모든 입력을 한 번에 처리할 수 있습니다. 이를 통해 변환기는 다른 방법에 비해 상대적으로 빠르게 방대한 양의 데이터를 훈련할 수 있습니다.

미세 조정

사전 훈련 단계 후에 기본 LLM이 훈련할 새 텍스트를 도입하도록 선택할 수 있습니다. 우리는 이 과정을 미세 조정 특정 작업에서 LLM의 출력을 추가로 개선하는 데 종종 사용됩니다.

예를 들어 LLM을 사용하여 Twitter 계정에 대한 콘텐츠를 생성할 수 있습니다. 원하는 출력에 대한 아이디어를 제공하기 위해 이전 트윗의 몇 가지 예를 모델에 제공할 수 있습니다.

미세 조정에는 몇 가지 유형이 있습니다.

대규모 언어 모델은 소수의 샷 학습이 가능합니다.

몇 번의 학습 언어 모델이 유사한 출력을 만드는 방법을 알아낼 것이라는 기대와 함께 모델에 적은 수의 예제를 제공하는 프로세스를 말합니다. 원샷 학습 하나의 예만 제공된다는 점을 제외하면 유사한 프로세스입니다.

대규모 언어 모델의 한계

GPT-3과 같은 LLM은 미세 조정 없이도 많은 사용 사례를 수행할 수 있습니다. 그러나 이러한 모델에는 여전히 고유한 제한 사항이 있습니다.

세계에 대한 의미론적 이해 부족

표면적으로 LLM은 지능을 표시하는 것으로 보입니다. 그러나 이러한 모델은 동일한 방식으로 작동하지 않습니다. 인간의 뇌 하다. LLM은 통계 계산에만 의존하여 결과를 생성합니다. 그들은 아이디어와 개념을 스스로 추론할 수 있는 능력이 없습니다.

이 때문에 LLM은 단어가 특정 순서로 배치될 때 "올바른" 또는 "통계적으로 가능성이 있는" 것처럼 보이기 때문에 무의미한 답변을 출력할 수 있습니다.

환각

GPT-3와 같은 모델도 부정확한 응답으로 어려움을 겪고 있습니다. LLM은 다음과 같은 현상을 겪을 수 있습니다. 환각 응답이 실제로 근거가 없다는 것을 인식하지 못한 채 모델이 사실적으로 잘못된 응답을 출력합니다.

예를 들어, 사용자는 모델에게 최신 iPhone에 대한 Steve Jobs의 생각을 설명해달라고 요청할 수 있습니다. 모델은 훈련 데이터를 기반으로 허공에서 견적을 생성할 수 있습니다.

편견과 제한된 지식

다른 많은 알고리즘과 마찬가지로 대규모 언어 모델은 훈련 데이터에 있는 편향을 물려받는 경향이 있습니다. 정보 검색을 위해 LLM에 더 많이 의존하기 시작함에 따라 이러한 모델의 개발자는 편향된 응답의 잠재적으로 유해한 영향을 완화하는 방법을 찾아야 합니다.

유사한 용량으로 모델 훈련 데이터의 사각지대도 모델 자체를 방해합니다. 현재 대규모 언어 모델을 훈련하는 데 몇 달이 걸립니다. 이러한 모델은 또한 범위가 제한된 데이터 세트에 의존합니다. 이것이 바로 ChatGPT가 2021년 이후에 발생한 이벤트에 대한 지식이 제한적인 이유입니다.

결론

대규모 언어 모델은 우리가 일반적으로 기술 및 세상과 상호 작용하는 방식을 진정으로 변화시킬 수 있는 잠재력을 가지고 있습니다.

인터넷에서 사용할 수 있는 방대한 양의 데이터는 연구자에게 언어의 복잡성을 모델링하는 방법을 제공했습니다. 그러나 그 과정에서 이러한 언어 모델은 있는 그대로의 세계에 대한 인간과 같은 이해를 포착한 것 같습니다.

대중이 정확한 출력을 제공하기 위해 이러한 언어 모델을 신뢰하기 시작함에 따라 연구자와 개발자는 이미 기술이 윤리적으로 유지되도록 가드레일을 추가하는 방법을 찾고 있습니다.

LLM의 미래는 무엇이라고 생각하십니까?

대규모 언어 모델: 알아야 할 모든 것

대규모 언어 모델이란 무엇입니까?