ChatGPT es un notable modelo de lenguaje de inteligencia artificial. Todos lo usamos para ayudarnos en varias tareas.
¿Alguna vez te has preguntado cómo fue entrenado para producir respuestas que parecen tan humanas? En este artículo, examinaremos el entrenamiento de ChatGPT.
Te explicamos cómo ha evolucionado hasta convertirse en uno de los más destacados modelos de lenguaje. Mientras exploramos el intrigante mundo de ChatGPT, emprenda un viaje de descubrimiento.
Descripción general de la capacitación
ChatGPT es un modelo de procesamiento de lenguaje natural.
Con ChatGPT, podemos participar en diálogos interactivos y debates similares a los humanos. Emplea un enfoque similar al de Instruir GPT, que es un modelo de lenguaje de vanguardia. Fue desarrollado poco antes que ChatGPT.
Emplea un método más atractivo. Esto permite interacciones naturales del usuario. Por lo tanto, es una herramienta perfecta para una variedad de aplicaciones, como chatbots y asistentes virtuales.
El procedimiento de entrenamiento de ChatGPT es un proceso de varias etapas. El Preentrenamiento Generativo es el primer paso en el entrenamiento de ChatGPT.
En esta fase, el modelo se entrena utilizando un corpus considerable de datos de texto. Luego, el modelo descubre las correlaciones estadísticas y los patrones que se encuentran en el lenguaje natural. Entonces, podemos tener una respuesta gramaticalmente precisa y coherente.
Luego seguimos un paso de ajuste fino supervisado. En esta parte, el modelo se entrena en una tarea particular. Por ejemplo, puede realizar traducciones de idiomas o responder preguntas.
Finalmente, ChatGPT utiliza el aprendizaje de recompensas a partir de los comentarios humanos.
Ahora, examinemos estos pasos.
Preentrenamiento Generativo
El nivel inicial de entrenamiento es el Preentrenamiento Generativo. Es un método común para entrenar modelos de lenguaje. Para crear secuencias de tokens, el método aplica el "paradigma de predicción del siguiente paso".
Qué significa eso?
Cada token es una variable única. Representan una palabra o una parte de una palabra. El modelo trata de determinar qué palabra es más probable que venga a continuación dadas las palabras anteriores. Utiliza la distribución de probabilidad en todos los términos de su secuencia.
El propósito de los modelos de lenguaje es construir secuencias de tokens. Estas secuencias deben representar los patrones y estructuras del lenguaje humano. Esto es posible entrenando modelos en grandes cantidades de datos de texto.
Luego, estos datos se utilizan para comprender cómo se distribuyen las palabras en el idioma.
Durante el entrenamiento, el modelo cambia los parámetros de distribución de probabilidad.
Y trata de reducir la diferencia entre la distribución esperada y real de palabras en un texto. Esto es posible con el uso de una función de pérdida. La función de pérdida calcula la diferencia entre las distribuciones esperadas y reales.
Procesamiento natural del lenguaje y visión de computadora son una de las áreas donde utilizamos el Preentrenamiento Generativo.
El problema de la alineación
El problema de la alineación es una de las dificultades del Preentrenamiento Generativo. Esto se refiere a la dificultad de hacer coincidir la distribución de probabilidad del modelo con la distribución de los datos reales.
En otras palabras, las respuestas generadas por el modelo deberían ser más parecidas a las humanas.
En ocasiones, el modelo puede proporcionar respuestas inesperadas o inadecuadas. Y esto puede deberse a una variedad de causas, como el sesgo de los datos de entrenamiento o la falta de conocimiento del contexto por parte del modelo. El problema de la alineación debe abordarse para mejorar la calidad de los modelos lingüísticos.
Para superar este problema, los modelos de lenguaje como ChatGPT emplean técnicas de ajuste fino.
Ajuste fino supervisado
La segunda parte del entrenamiento de ChatGPT es el ajuste fino supervisado. Los desarrolladores humanos participan en diálogos en este punto, actuando tanto como el usuario humano como el chatbot.
Estas conversaciones se registran y agregan en un conjunto de datos. Cada muestra de capacitación incluye un historial de conversación distinto que coincide con la siguiente respuesta del desarrollador humano que actúa como "chatbot".
El propósito del ajuste fino supervisado es maximizar la probabilidad asignada por el modelo a la secuencia de tokens en la respuesta asociada. Este método se conoce como "aprendizaje por imitación" o "clonación del comportamiento".
De esta manera, el modelo puede aprender a proporcionar respuestas más naturales y coherentes. Está replicando las respuestas dadas por contratistas humanos.
El ajuste fino supervisado es donde el modelo de lenguaje se puede ajustar para una tarea en particular.
Demos un ejemplo. Supongamos que queremos enseñar a un chatbot a proporcionar recomendaciones de películas. Entrenaríamos el modelo de lenguaje para predecir las clasificaciones de películas en función de las descripciones de las películas. Y usaríamos un conjunto de datos de descripciones y calificaciones de películas.
El algoritmo eventualmente descubriría qué aspectos de una película correspondían a calificaciones altas o bajas.
Después de entrenarlo, podríamos usar nuestro modelo para sugerir películas a usuarios humanos. Los usuarios pueden describir una película que disfrutan, y el chatbot usaría el modelo de lenguaje refinado para recomendar más películas comparables.
Limitaciones de supervisión: cambio de distribución
El ajuste fino supervisado es enseñar un modelo de lenguaje para realizar un objetivo específico. Esto es posible alimentando al modelo con un datos y luego entrenarlo para hacer predicciones. Este sistema, sin embargo, tiene límites conocidos como “restricciones de supervisión”.
Una de estas restricciones es el “cambio distributivo”. Se refiere a la posibilidad de que los datos de entrenamiento no reflejen con precisión la distribución de entradas del mundo real que encontraría el modelo.
Repasemos el ejemplo de antes. En el ejemplo de sugerencia de película, es posible que el conjunto de datos utilizado para entrenar el modelo no refleje con precisión la variedad de películas y preferencias de usuario que encontraría el chatbot. Es posible que el chatbot no funcione tan bien como nos gustaría.
Como resultado, encuentra entradas que son diferentes a las que observó durante el entrenamiento.
Para el aprendizaje supervisado, cuando el modelo solo se entrena en un conjunto dado de instancias, surge este problema.
Además, el modelo puede funcionar mejor frente a un cambio distributivo si se utiliza el aprendizaje por refuerzo para ayudarlo a adaptarse a nuevos contextos y aprender de sus errores.
Basado en preferencias, aprendizaje de recompensas
El aprendizaje de recompensas es la tercera etapa de capacitación en el desarrollo de un chatbot. En el aprendizaje de recompensa, se le enseña al modelo a maximizar una señal de recompensa.
Es una puntuación que indica la eficacia con la que el modelo está realizando el trabajo. La señal de recompensa se basa en los aportes de las personas que califican o evalúan las respuestas del modelo.
El aprendizaje de recompensas tiene como objetivo desarrollar un chatbot que produzca respuestas de alta calidad que los usuarios humanos prefieren. Para hacer esto, una técnica de aprendizaje automático llamada aprendizaje por refuerzo, que incluye el aprendizaje a partir de la retroalimentación en forma de recompensas—se utiliza para entrenar al modelo.
El chatbot responde a las consultas de los usuarios, por ejemplo, según su comprensión actual de la tarea, que se le proporciona durante el aprendizaje de recompensas. Luego, se da una señal de recompensa basada en la eficacia con la que se desempeña el chatbot una vez que los jueces humanos evalúan las respuestas.
El chatbot utiliza esta señal de recompensa para modificar su configuración. Y mejora el rendimiento de las tareas.
Algunas limitaciones en el aprendizaje de recompensas
Una desventaja del aprendizaje de recompensas es que es posible que los comentarios sobre las respuestas del chatbot no lleguen por algún tiempo, ya que la señal de recompensa puede ser escasa y retrasada. Como resultado, puede ser un desafío entrenar con éxito al chatbot porque es posible que no reciba comentarios sobre respuestas específicas hasta mucho más tarde.
Otro problema es que los jueces humanos pueden tener diferentes puntos de vista o interpretaciones de lo que hace que una respuesta sea exitosa, lo que podría conducir a un sesgo en la señal de recompensa. Para disminuir esto, varios jueces lo utilizan con frecuencia para entregar una señal de recompensa más confiable.
¿Qué nos depara el futuro?
Existen varios pasos futuros potenciales para mejorar aún más el rendimiento de ChatGPT.
Para aumentar la comprensión del modelo, una posible ruta futura es incluir más conjuntos de datos de entrenamiento y fuentes de datos. También es posible mejorar la capacidad del modelo para comprender y tener en cuenta entradas no textuales.
Por ejemplo, los modelos de lenguaje podrían comprender imágenes o sonidos.
Al incorporar técnicas de capacitación específicas, ChatGPT también se puede mejorar para ciertas tareas. Por ejemplo, puede realizar análisis de los sentimientos o producción de lenguaje natural. En conclusión, ChatGPT y los modelos de lenguaje relacionados muestran una gran promesa para el avance.
Deje un comentario