Índice del contenido[Esconder][Espectáculo]
Un problema clásico de la inteligencia artificial es la búsqueda de una máquina que pueda entender el lenguaje humano.
Por ejemplo, al buscar "restaurantes italianos cercanos" en su motor de búsqueda favorito, un algoritmo tiene que analizar cada palabra en su consulta y generar los resultados relevantes. Una aplicación de traducción decente tendrá que comprender el contexto de una palabra en particular en inglés y de alguna manera tener en cuenta las diferencias gramaticales entre los idiomas.
Todas estas tareas y muchas más caen bajo el subcampo de la informática conocido como Procesamiento natural del lenguaje o PNL. Los avances en NLP han dado lugar a una amplia gama de aplicaciones prácticas, desde asistentes virtuales como Alexa de Amazon hasta filtros de spam que detectan correos electrónicos maliciosos.
El avance más reciente en la PNL es la idea de un modelo de lenguaje grande o LLM. Los LLM como GPT-3 se han vuelto tan poderosos que parecen tener éxito en casi cualquier tarea o caso de uso de NLP.
En este artículo, veremos qué son exactamente los LLM, cómo se entrenan estos modelos y las limitaciones actuales que tienen.
¿Qué es un modelo de lenguaje grande?
En esencia, un modelo de lenguaje es simplemente un algoritmo que sabe qué tan probable es que una secuencia de palabras sea una oración válida.
Un modelo de lenguaje muy simple entrenado en unos pocos cientos de libros debería poder decir que "Se fue a casa" es más válido que "Se fue a casa".
Si reemplazamos el conjunto de datos relativamente pequeño con un conjunto de datos masivo extraído de Internet, comenzamos a acercarnos a la idea de un modelo de lenguaje grande.
Usar redes neuronales, los investigadores pueden capacitar a los LLM en una gran cantidad de datos de texto. Debido a la cantidad de datos de texto que ha visto el modelo, el LLM se vuelve muy bueno para predecir la siguiente palabra en una secuencia.
El modelo se vuelve tan sofisticado que puede realizar muchas tareas de PNL. Estas tareas incluyen resumir texto, crear contenido novedoso e incluso simular una conversación similar a la humana.
Por ejemplo, el popular modelo de lenguaje GPT-3 se entrena con más de 175 XNUMX millones de parámetros y se considera el modelo de lenguaje más avanzado hasta el momento.
Es capaz de generar código de trabajo, escribir artículos completos y puede intentar responder preguntas sobre cualquier tema.
¿Cómo se capacitan los LLM?
Hemos mencionado brevemente el hecho de que los LLM deben mucho de su poder al tamaño de sus datos de entrenamiento. Después de todo, hay una razón por la que los llamamos modelos de lenguaje "grandes".
Pre-entrenamiento con una Arquitectura Transformadora
Durante la etapa previa a la capacitación, los LLM se introducen en los datos de texto existentes para aprender la estructura general y las reglas de un idioma.
En los últimos años, los LLM han recibido capacitación previa en conjuntos de datos que cubren una parte significativa de la Internet pública. Por ejemplo, el modelo de lenguaje de GPT-3 se entrenó con datos del Rastreo común conjunto de datos, un corpus de publicaciones web, páginas web y libros digitalizados extraídos de más de 50 millones de dominios.
El conjunto de datos masivo luego se introduce en un modelo conocido como transformador. Los transformadores son un tipo de red neuronal profunda que funciona mejor para datos secuenciales.
Los transformadores utilizan un arquitectura codificador-decodificador para el manejo de entrada y salida. Esencialmente, el transformador contiene dos redes neuronales: un codificador y un decodificador. El codificador puede extraer el significado del texto de entrada y almacenarlo como un vector. El decodificador luego recibe el vector y produce su interpretación del texto.
Sin embargo, el concepto clave que permitió que la arquitectura del transformador funcionara tan bien es la adición de un mecanismo de autoatención. El concepto de autoatención permitió al modelo prestar atención a las palabras más importantes de una oración dada. El mecanismo incluso considera los pesos entre palabras que están muy separadas secuencialmente.
Otro beneficio de la autoatención es que el proceso se puede paralelizar. En lugar de procesar datos secuenciales en orden, los modelos de transformadores pueden procesar todas las entradas a la vez. Esto permite que los transformadores entrenen con grandes cantidades de datos con relativa rapidez en comparación con otros métodos.
Sintonia FINA
Después de la etapa de precapacitación, puede optar por introducir un nuevo texto para que el LLM básico se capacite. A este proceso lo llamamos sintonia FINA y a menudo se usa para mejorar aún más el resultado del LLM en una tarea específica.
Por ejemplo, es posible que desee utilizar un LLM para generar contenido para su cuenta de Twitter. Podemos proporcionarle al modelo varios ejemplos de sus tweets anteriores para darle una idea del resultado deseado.
Hay algunos tipos diferentes de ajuste fino.
Aprendizaje de pocas oportunidades se refiere al proceso de dar a un modelo una pequeña cantidad de ejemplos con la expectativa de que el modelo de lenguaje descubra cómo hacer un resultado similar. Aprendizaje de una sola vez es un proceso similar, excepto que solo se proporciona un ejemplo.
Limitaciones de los modelos de lenguaje grande
Los LLM como GPT-3 son capaces de realizar una gran cantidad de casos de uso, incluso sin un ajuste fino. Sin embargo, estos modelos todavía vienen con su propio conjunto de limitaciones.
Falta de una comprensión semántica del mundo
En la superficie, los LLM parecen mostrar inteligencia. Sin embargo, estos modelos no funcionan de la misma manera que los cerebro humano hace. Los LLM se basan únicamente en cálculos estadísticos para generar resultados. No tienen la capacidad de razonar ideas y conceptos por sí mismos.
Debido a esto, un LLM puede generar respuestas sin sentido simplemente porque las palabras parecen "correctas" o "estadísticamente probables" cuando se colocan en ese orden en particular.
Alucinaciones
Los modelos como GPT-3 también sufren respuestas imprecisas. Los LLM pueden sufrir un fenómeno conocido como alucinación donde los modelos generan una respuesta objetivamente incorrecta sin ninguna conciencia de que la respuesta no tiene base en la realidad.
Por ejemplo, un usuario puede pedirle a la modelo que explique los pensamientos de Steve Jobs sobre el último iPhone. El modelo puede generar una cotización de la nada en función de sus datos de entrenamiento.
Sesgos y conocimiento limitado
Como muchos otros algoritmos, los modelos de lenguaje grandes tienden a heredar los sesgos presentes en los datos de entrenamiento. A medida que comenzamos a depender más de los LLM para recuperar información, los desarrolladores de estos modelos deberían encontrar formas de mitigar los efectos potencialmente dañinos de las respuestas sesgadas.
De manera similar, los puntos ciegos de los datos de entrenamiento del modelo también obstaculizarán el propio modelo. Actualmente, los modelos de idiomas grandes tardan meses en entrenarse. Estos modelos también se basan en conjuntos de datos que tienen un alcance limitado. Es por eso que ChatGPT solo tiene un conocimiento limitado de los eventos que ocurrieron después de 2021.
Conclusión
Los grandes modelos de lenguaje tienen el potencial de cambiar verdaderamente la forma en que interactuamos con la tecnología y nuestro mundo en general.
La gran cantidad de datos disponibles en Internet ha brindado a los investigadores una forma de modelar las complejidades del lenguaje. Sin embargo, en el camino, estos modelos de lenguaje parecen haber adquirido una comprensión humana del mundo tal como es.
A medida que el público comienza a confiar en estos modelos de lenguaje para proporcionar resultados precisos, los investigadores y desarrolladores ya están encontrando formas de agregar medidas de seguridad para que la tecnología siga siendo ética.
¿Cuál crees que es el futuro de los LLM?
Deje un comentario