대형 언어 모델은 자연어 프로그래밍 및 신경망 분야에서 가장 인상적인 최근 개발 중 일부입니다.
OpenAI의 GPT-3은 최고의 성능을 발휘하는 모델 중 하나로 눈에 띕니다. 모델의 출력은 종종 사람의 텍스트와 구별할 수 없습니다.
그러나 GPT-3은 여전히 폐쇄 소스 모델입니다. 엄청나게 강력하지만 특정 사용 사례에 적합하지 않을 수 있는 특정 제한 사항이 있습니다.
이 기사에서 우리는 몇 가지 큰 언어 모델 GPT-3의 원시 성능과 경쟁할 수 있습니다.
OpenAI GPT-3 대안을 찾는 이유는 무엇입니까?
OpenAI의 GPT-3 모델은 고급 깊은 학습 인간과 유사한 텍스트를 생성하는 모델. OpenAI 연구소의 XNUMX세대 언어 예측 모델입니다.
이 모델은 OpenAI가 결국 2021년 말에 API를 대중에게 공개하기 전에 초기에 비공개 베타로 출시되었습니다.
현재 GPT-3에는 선택할 수 있는 0.0004가지 기본 모델이 있습니다. 가장 저렴하고 빠른 모델인 Ada는 토큰 1000개당 단돈 $0.02입니다. OpenAI의 가장 강력한 모델인 Davinci는 토큰 1000개당 50달러 또는 약 XNUMX배 더 비쌉니다.
OpenAI는 또한 개발자가 자신의 사용 지침. 개발자는 개발자의 애플리케이션이 수동 검토 프로세스를 통해 승인되면 늘릴 수 있는 제한된 사용 할당량도 제공합니다.
GPT-3 출력은 고품질 출력으로 잘 알려져 있지만 사용할 수 있는 유일한 언어 예측 모델은 아닙니다.
GPT-3의 대안으로 사용할 수 있는 몇 가지 경쟁 모델을 살펴보겠습니다.
1. GPT-J
GPT-J는 Eleuther AI 그룹의 오픈 소스 언어 모델입니다.
제로샷 성능은 대략 GPT-3과 동등하며 다른 많은 GPT 구현보다 성능면에서 훨씬 가깝습니다.
6억 매개변수 자동회귀 텍스트 생성 모델은 "더 파일(The Pile)"로 알려진 데이터 세트에 대해 학습되었습니다.
더미 실제로 함께 결합된 22개의 더 작은 데이터 세트의 조합입니다. 결합된 파일 크기는 825GiB이며 학술 및 전문 소스에 더 중점을 둔 것으로 관찰되었습니다.
이를 통해 모델을 직접 테스트할 수 있습니다. 무료 웹 애플리케이션.
간단한 프롬프트로 모델을 테스트할 수 있었습니다. GPT-J는 "오늘날 새로운 언어를 배우는 가장 좋은 방법"을 열거하는 데 성공했습니다.
그러나 자동회귀 텍스트 생성 모델이 무엇인지 설명하려고 했을 때 성능이 다소 불안정했습니다.
출력은 의미가 있었지만 실제로 의미 있는 방식으로 프롬프트에 응답하지 않았습니다.
가격 정책
GPT-J는 오픈 소스 모델이므로 실제로 직접 인스턴스를 실행할 수 있습니다. 에 따르면 공식 저장소, 모델은 텐서 처리 장치(TPU)에서 실행되도록 설계되었습니다. 최적이지만 Google에서 가장 저렴한 클라우드 TPU 비용 약 $4.50/시간.
장기적으로 자체 GPU를 사용하거나 다음과 같은 서비스를 통해 전용 GPU 서버를 임대하는 것이 더 저렴할 수 있습니다. Vast.ai or 플루이드스택.
2. 쥬라기-1
Jurassic-1은 NLP 전문 이스라엘 AI 기업 AI21 Labs에서 출시한 언어 모델입니다. OpenAI와 마찬가지로 언어 모델에 액세스할 수 있는 API도 제공합니다.
당신은 그들의 계정을 만들 수 있습니다 웹 사이트 플레이그라운드 웹 앱에 액세스하여 직접 모델을 테스트합니다.
AI21 Studio에는 Jurassic-1 모델의 사용자 지정 버전을 훈련하고 쿼리할 수 있는 기능도 포함되어 있습니다. 에 따르면 공식 블로그 게시물, XNUMX개 정도의 예제가 있는 사용자 지정 모델은 원래 모델을 사용하는 프롬프트 엔지니어링보다 성능이 뛰어납니다.
가격 정책
세 가지 기본 모델 각각에 대해 유연한 사용량 기반 가격 책정을 제공합니다. 예를 들어 모델에서 생성된 토큰 0.25개당 1000달러를 청구합니다. 평균적으로 각 토큰은 약 1단어 또는 XNUMX자입니다.
즉, AI21의 베스트 모델을 사용하여 단돈 4000달러로 1단어짜리 문서를 만들 수 있습니다. 그러나 기억해야 할 한 가지는 모델을 사용하려면 매월 최소 $29를 지불해야 한다는 것입니다.
3. 텍스트 신스
TextSynth는 텍스트를 생성하는 데 사용할 수 있는 또 다른 NLP 웹 서비스입니다. 앞의 두 가지 예와 달리 TextSynth는 독립 실행형 모델이 아닙니다. 이 서비스는 사용자에게 GPT-NeoX, M2M100 및 GPT-J와 같은 다양한 오픈 소스 대형 언어 모델에 대한 액세스를 제공함으로써 작동합니다.
개발자는 자신의 REST API 언어 모델을 자체 응용 프로그램에 통합합니다. 당신은 그들의 무료를 확인하려고 할 수 있습니다 놀이터 페이지 사용 가능한 각 모델의 성능을 확인합니다.
가격 정책
그들의 무료 플랜을 사용하면 일부 속도 제한이 있는 모든 언어 모델에 액세스할 수 있습니다. 서비스는 각 요청을 200개의 토큰 길이로 제한합니다.
표준 계획은 생성된 토큰 수에 대한 제한을 제거합니다. 가격 책정 모델은 예상치 못한 비용을 피하기 위해 신용 기반입니다. 구매할 수 있는 최소 크레딧 수는 $20입니다. 사용하지 않은 크레딧은 XNUMX년 후에 유효하지 않습니다.
각 요청의 가격은 입력 및 생성된 토큰 수를 기반으로 합니다. 공식 웹 사이트의 표를 기반으로 더 저렴한 모델을 사용하는 데 약 $0.75에서 $1.25를 지불할 것으로 예상할 수 있습니다.
결론
바라건대, 이 기사가 당신이 사용할 수 있는 저렴하고 효과적인 언어 모델을 찾는 데 도움이 되기를 바랍니다. OpenAI GPT-3 대안.
큰 언어 모델은 매우 강력하며 다양한 작업에 사용할 수 있습니다. 텍스트 생성, 언어 간 번역, 자연어 이해 및 응답에 사용할 수 있습니다.
우주에 대한 나의 연구와 내가 수행한 테스트를 기반으로 GPT-3는 여전히 다른 제품보다 성능이 우수합니다. 대형 언어 모델 난 노력 했어. 그러나 연구자가 새로운 모델을 개발하고 출시함에 따라 향후 변경될 수 있습니다.
Google, Facebook 및 기타 AI 연구소의 연구원은 계속해서 자체 LMM을 발전시키기 위해 노력할 것입니다. 이 AI 팀 중 하나가 GPT-3보다 우수한 모델을 내놓을 가능성은 확실히 있습니다.
댓글을 남겨주세요.