ChatGPT é un modelo de linguaxe de intelixencia artificial notable. Todos usámolo para axudarnos en varias tarefas.
Preguntaches algunha vez como foi adestrado para producir respostas que parecen tan humanas? Neste artigo, examinaremos o adestramento de ChatGPT.
Explicaremos como evolucionou ata converterse nun dos máis destacados modelos lingüísticos. Mentres exploramos o intrigante mundo de ChatGPT, acompáñanos nunha viaxe de descubrimento.
Visión xeral da formación
ChatGPT é un modelo de procesamento da linguaxe natural.
Con ChatGPT, podemos participar en diálogos interactivos e discusións de tipo humano. Emprega un enfoque similar ao de Instruir GPT, que é un modelo lingüístico de vangarda. Desenvolveuse pouco antes de ChatGPT.
Emprega un método máis atractivo. Isto permite interaccións naturais dos usuarios. Polo tanto, é unha ferramenta perfecta para unha variedade de aplicacións como chatbots e asistentes virtuais.
O procedemento de adestramento de ChatGPT é un proceso de varias etapas. O preadestramento xerativo é o primeiro paso na formación de ChatGPT.
Nesta fase, o modelo adestrase utilizando un corpus importante de datos de texto. Despois, o modelo descobre as correlacións estatísticas e os patróns que se atopan na linguaxe natural. Así, podemos ter unha resposta gramaticalmente precisa e coherente.
Despois seguimos un paso de axuste supervisado. Nesta parte, o modelo está adestrado nunha tarefa concreta. Por exemplo, pode realizar traducións de idiomas ou respostas a preguntas.
Finalmente, ChatGPT usa a aprendizaxe de recompensas a partir de comentarios humanos.
Agora, imos examinar estes pasos.
Preformación xerativa
O nivel inicial de formación é o Preformación xerativa. É un método común para adestrar modelos lingüísticos. Para crear secuencias de tokens, o método aplica o "paradigma de predición do seguinte paso".
Qué significa?
Cada ficha é unha variable única. Representan unha palabra ou unha parte dunha palabra. O modelo tenta determinar que palabra é máis probable que veña a continuación dadas as palabras anteriores. Usa a distribución de probabilidade en todos os termos da súa secuencia.
O propósito dos modelos de linguaxe é construír secuencias de fichas. Estas secuencias deben representar os patróns e estruturas da linguaxe humana. Isto é posible adestrando modelos sobre grandes cantidades de datos de texto.
Despois, estes datos utilízanse para comprender como se distribúen as palabras na lingua.
Durante o adestramento, o modelo cambia os parámetros de distribución de probabilidade.
E, tenta reducir a diferenza entre a distribución esperada e real de palabras nun texto. Isto é posible co uso dunha función de perda. A función de perda calcula a diferenza entre as distribucións esperadas e reais.
Procesamento da linguaxe natural visión por computador son unha das áreas onde utilizamos o Preformación Xerativa.
A cuestión do aliñamento
O problema de aliñamento é unha das dificultades da Preformación Xerativa. Isto refírese á dificultade para facer coincidir a distribución de probabilidade do modelo coa distribución dos datos reais.
Noutras palabras, as respostas xeradas polo modelo deberían ser máis humanas.
O modelo pode ocasionalmente proporcionar respostas inesperadas ou incorrectas. E, isto pode ser causado por unha variedade de causas, como o sesgo de datos de adestramento ou a falta de conciencia do contexto do modelo. O problema do aliñamento debe ser abordado para mellorar a calidade dos modelos lingüísticos.
Para solucionar este problema, os modelos de linguaxe como ChatGPT empregan técnicas de axuste fino.
Afinación supervisada
A segunda parte do adestramento de ChatGPT é un axuste fino supervisado. Neste punto, os desenvolvedores humanos participan en diálogos, actuando tanto como usuario humano como como chatbot.
Estas charlas son rexistradas e agregadas nun conxunto de datos. Cada mostra de adestramento inclúe un historial de conversas distinto combinado coa seguinte resposta do desenvolvedor humano que actúa como "chatbot".
O propósito do axuste fino supervisado é maximizar a probabilidade asignada á secuencia de tokens na resposta asociada polo modelo. Este método coñécese como "aprendizaxe por imitación" ou "clonación de comportamentos".
Deste xeito, o modelo pode aprender a proporcionar respostas máis naturais e coherentes. Está a replicar as respostas dadas polos contratistas humanos.
O axuste fino supervisado é onde se pode axustar o modelo de idioma para unha tarefa concreta.
Poñamos un exemplo. Supoñamos que queremos ensinarlle a un chatbot a ofrecer recomendacións de películas. Adestraríamos o modelo de linguaxe para predicir as clasificacións de películas en función das descricións de películas. E, usaríamos un conxunto de datos de descricións e valoracións de películas.
O algoritmo acabaría por descubrir cales son os aspectos dunha película que se corresponden con valoracións altas ou malas.
Despois de adestralo, poderiamos utilizar o noso modelo para suxerir películas aos usuarios humanos. Os usuarios poden describir unha película que lles gusta, e o chatbot usaría o modelo de linguaxe refinado para recomendar máis películas que sexan comparables a el.
Limitacións de supervisión: Quenda distributiva
O axuste fino supervisado é ensinar un modelo lingüístico para realizar un obxectivo específico. Isto é posible alimentando o modelo a conxunto de datos e despois adestralo para facer predicións. Non obstante, este sistema ten límites coñecidos como "restricións de supervisión".
Unha destas restricións é o "cambio distributivo". Refírese á posibilidade de que os datos de adestramento non reflictan con precisión a distribución real das entradas que atoparía o modelo.
Repasemos o exemplo anterior. No exemplo de suxestión de películas, é posible que o conxunto de datos utilizado para adestrar o modelo non reflicta con precisión a variedade de películas e as preferencias dos usuarios que atoparía o chatbot. É posible que o chatbot non funcione tan ben como desexaríamos.
Como resultado, cumpre entradas que son diferentes ás que observou durante o adestramento.
Para a aprendizaxe supervisada, cando o modelo só se adestra nun conxunto determinado de instancias, xorde este problema.
Ademais, o modelo pode funcionar mellor ante un cambio distributivo se se utiliza a aprendizaxe por reforzo para axudar a adaptarse a novos contextos e aprender dos seus erros.
Baseado nas preferencias, recompensa a aprendizaxe
A aprendizaxe recompensa é a terceira etapa de formación no desenvolvemento dun chatbot. Na aprendizaxe de recompensa, o modelo ensínase para maximizar un sinal de recompensa.
É unha puntuación que indica a eficacia con que o modelo está a realizar o traballo. O sinal de recompensa baséase na entrada das persoas que valoran ou valoran as respostas do modelo.
A aprendizaxe de recompensas ten como obxectivo desenvolver un chatbot que produza respostas de alta calidade que prefiren os usuarios humanos. Para iso, unha técnica de aprendizaxe automática chamada aprendizaxe de reforzo, que inclúe a aprendizaxe a partir da retroalimentación en forma de recompensas—utilízase para adestrar o modelo.
O chatbot responde ás preguntas dos usuarios, por exemplo, dependendo da súa comprensión actual da tarefa, que se lle proporciona durante a aprendizaxe de recompensas. A continuación, dáse un sinal de recompensa en función da eficacia do chatbot unha vez que as respostas foron avaliadas polos xuíces humanos.
Este sinal de recompensa é usado polo chatbot para modificar a súa configuración. E, mellora o rendemento da tarefa.
Algunhas limitacións na aprendizaxe de recompensa
Un inconveniente da aprendizaxe de recompensas é que os comentarios sobre as respostas do chatbot poden non chegar por algún tempo xa que o sinal de recompensa pode ser escaso e atrasado. Como resultado, pode ser un reto adestrar con éxito o chatbot porque pode que non reciba comentarios sobre respostas específicas ata moito máis tarde.
Outro problema é que os xuíces humanos poden ter opinións ou interpretacións variadas sobre o que fai unha resposta exitosa, o que pode levar a un sesgo no sinal de recompensa. Para diminuír isto, adoitan utilizar varios xuíces para ofrecer un sinal de recompensa máis fiable.
Que nos depara o futuro?
Hai varios posibles pasos futuros para mellorar aínda máis o rendemento de ChatGPT.
Para aumentar a comprensión do modelo, unha posible ruta futura é incluír máis conxuntos de datos de formación e fontes de datos. Tamén é posible mellorar a capacidade do modelo para comprender e ter en conta as entradas non textuais.
Por exemplo, os modelos lingüísticos poderían comprender imaxes ou sons.
Ao incorporar técnicas específicas de adestramento ChatGPT tamén se pode mellorar para determinadas tarefas. Por exemplo, pode realizar análise de sentimentos ou produción da linguaxe natural. En conclusión, ChatGPT e os modelos lingüísticos relacionados mostran unha gran promesa para avanzar.
Deixe unha resposta