Índice del contenido[Esconder][Espectáculo]
Los modelos de lenguaje grande son algunos de los desarrollos recientes más impresionantes en el campo de la programación de lenguaje natural y las redes neuronales.
El GPT-3 de OpenAI se destaca como uno de los modelos con mejor rendimiento que existen. La salida del modelo a menudo es indistinguible del texto que proviene de humanos.
Sin embargo, GPT-3 sigue siendo un modelo de código cerrado. Si bien es increíblemente poderoso, existen ciertas limitaciones que podrían hacerlo inadecuado para ciertos casos de uso.
En este artículo, repasaremos algunos grandes modelos de lenguaje que puede competir con el rendimiento bruto de GPT-3.
¿Por qué buscar una alternativa de OpenAI GPT-3?
El modelo GPT-3 de OpenAI utiliza funciones avanzadas deep learning modelos para producir texto similar al humano. Es el modelo de predicción de lenguaje de tercera generación del laboratorio de investigación de OpenAI.
El modelo se lanzó inicialmente como una versión beta cerrada antes de que OpenAI finalmente abriera la API al público a fines de 2021.
Actualmente, GPT-3 tiene cuatro modelos básicos para que elijas. Ada, el modelo más barato y rápido cuesta solo $0.0004 por 1000 tokens. El modelo más poderoso de OpenAI, Davinci, cuesta $0.02 por 1000 tokens, o unas 50 veces más caro.
OpenAI también requiere que el desarrollador siga su propio pautas de uso. El desarrollador también proporcionará una cuota de uso limitada que se puede aumentar una vez que se apruebe la solicitud del desarrollador a través de un proceso de revisión manual.
Si bien la salida GPT-3 es bien conocida por su salida de alta calidad, no es el único modelo de predicción de idioma disponible para su uso.
Repasemos algunos modelos de la competencia que puede usar como alternativa a GPT-3.
1. GPT-J
GPT-J es un modelo de lenguaje de código abierto del grupo Eleuther AI.
El rendimiento de disparo cero está aproximadamente a la par con GPT-3 y tiene un rendimiento mucho más cercano que muchas otras implementaciones de GPT.
El modelo de generación de texto autorregresivo de 6 mil millones de parámetros ha sido entrenado en un conjunto de datos conocido como "The Pile".
La pila es en realidad una combinación de 22 conjuntos de datos más pequeños combinados. Tiene un tamaño de archivo combinado de 825 GiB y se ha observado que tiene un mayor énfasis en fuentes académicas y profesionales.
Puede probar el modelo usted mismo a través de este aplicación web gratuita.
Pude probar el modelo con un simple aviso. GPT-J logró enumerar las "mejores formas de aprender un nuevo idioma hoy".
Sin embargo, el rendimiento es algo irregular cuando traté de pedirle que explicara qué era un modelo de generación de texto autorregresivo.
Si bien la salida tenía sentido, en realidad no respondió al aviso de manera significativa.
Precios
Dado que GPT-J es un modelo de código abierto, usted mismo podría ejecutar su propia instancia. De acuerdo con la repositorio oficial, el modelo está diseñado para ejecutarse en una unidad de procesamiento de tensor (TPU). Si bien es óptima, es posible que esta no sea la opción más rentable ya que la opción más económica de Google costo de las TPU en la nube alrededor de $ 4.50 / hora.
A la larga, puede ser menos costoso usar su propia GPU o alquilar un servidor de GPU dedicado a través de servicios como Vasto.ai or pila de fluidos.
2. Jurásico-1
Jurassic-1 es un modelo de lenguaje lanzado por AI21 Labs, una empresa israelí de IA que se especializa en PNL. Al igual que OpenAI, también ofrecen una API que le permite acceder a su modelo de lenguaje.
Puede crear una cuenta en su página web del NDN Collective para acceder a una aplicación web de juegos para probar el modelo usted mismo.
AI21 Studio también incluye una función en la que puede entrenar y consultar sus propias versiones personalizadas de sus modelos Jurassic-1. Según un publicación oficial en el blog, los modelos personalizados con tan solo cincuenta ejemplos pueden superar la ingeniería rápida utilizando el modelo original.
Precios
Ofrecen precios flexibles basados en el uso para cada uno de sus tres modelos básicos. Por ejemplo, cobran $0.25 por cada 1000 tokens generados por el modelo. En promedio, cada ficha tiene aproximadamente 1 palabra o seis caracteres.
Esto significa que puede usar el mejor modelo de AI21 para crear un documento de 4000 palabras por solo $1. Sin embargo, una cosa que debe recordar es que aún debe pagar un mínimo de $ 29 cada mes para usar el modelo.
3. sintetizador de texto
TextSynth es otro servicio web de NLP que puede utilizar para generar texto. A diferencia de los dos ejemplos anteriores, TextSynth no es un modelo independiente. El servicio funciona dando al usuario acceso a varios otros modelos de lenguaje grande de código abierto como GPT-NeoX, M2M100 e incluso GPT-J.
Los desarrolladores pueden usar su REST API para integrar los modelos de lenguaje en sus propias aplicaciones. Puedes intentar revisar su libre página de juegos para ver cómo funciona cada modelo disponible.
Precios
Su plan gratuito le da acceso a todos sus modelos de idiomas con algunos límites de velocidad. El servicio restringe cada solicitud a una longitud de 200 tokens.
El plan estándar elimina la limitación en la cantidad de tokens generados. El modelo de precios se basa en el crédito para evitar gastos inesperados. El número mínimo de créditos para comprar es de $20. Los créditos no utilizados no son válidos después de un año.
El precio de cada solicitud se basa en la cantidad de entradas y tokens generados. Según la tabla en su sitio web oficial, puede esperar pagar entre $ 0.75 y $ 1.25 por usar sus modelos más baratos.
Conclusión
Con suerte, este artículo puede ayudarlo a encontrar un modelo de lenguaje asequible y efectivo que pueda usar como Alternativa OpenAI GPT-3.
Los modelos de lenguaje grande son muy poderosos y se pueden usar para una variedad de tareas. Se pueden usar para generar texto, traducir entre idiomas y comprender y responder al lenguaje natural.
Según mi investigación en el espacio y las pruebas que he realizado, GPT-3 sigue superando a todos los demás modelo de lenguaje grande He intentado. Sin embargo, esto podría cambiar en el futuro a medida que los investigadores desarrollen y publiquen nuevos modelos.
Los investigadores de Google, Facebook y otros laboratorios de IA seguirán trabajando en el avance de sus propios LMM. Ciertamente es posible que uno de estos equipos de IA presente un modelo superior a GPT-3.
Deje un comentario