ChatGPT é um notável modelo de linguagem de inteligência artificial. Todos nós o usamos para nos auxiliar em várias tarefas.
Você já se perguntou como ele foi treinado para produzir respostas que parecem tão humanas? Neste artigo, examinaremos o treinamento do ChatGPT.
Explicaremos como evoluiu para um dos mais destacados modelos de linguagem. Enquanto exploramos o intrigante mundo do ChatGPT, embarque em uma jornada de descoberta.
Visão geral do treinamento
ChatGPT é um modelo de processamento de linguagem natural.
Com o ChatGPT, podemos nos envolver em diálogos interativos e discussões semelhantes às humanas. Ele emprega uma abordagem semelhante à de Instruir GPT, que é um modelo de linguagem de ponta. Foi desenvolvido pouco antes do ChatGPT.
Ele emprega um método mais envolvente. Isso permite interações naturais do usuário. Portanto, é uma ferramenta perfeita para uma variedade de aplicações, como chatbots e assistentes virtuais.
O procedimento de treinamento do ChatGPT é um processo de vários estágios. Pré-treinamento Generativo é o primeiro passo no treinamento do ChatGPT.
Nesta fase, o modelo é treinado usando um corpus considerável de dados de texto. Em seguida, o modelo descobre as correlações e padrões estatísticos encontrados na linguagem natural. Assim, podemos ter uma resposta gramaticalmente precisa e coerente.
Em seguida, seguimos uma etapa de ajuste fino supervisionado. Nesta parte, o modelo é treinado em uma determinada tarefa. Por exemplo, ele pode realizar tradução de idiomas ou responder a perguntas.
Por fim, o ChatGPT usa aprendizado de recompensa a partir de feedback humano.
Agora, vamos examinar essas etapas.
Pré-treinamento Generativo
O nível inicial de treinamento é o Pré-treinamento Generativo. É um método comum para treinar modelos de linguagem. Para criar sequências de tokens, o método aplica o “paradigma de previsão do próximo passo”.
O que isso significa?
Cada token é uma variável única. Eles representam uma palavra ou parte de uma palavra. O modelo tenta determinar qual palavra tem mais probabilidade de vir a seguir, dadas as palavras anteriores. Ele usa a distribuição de probabilidade em todos os termos em sua sequência.
O propósito dos modelos de linguagem é construir sequências de tokens. Essas sequências devem representar os padrões e estruturas da linguagem humana. Isso é possível treinando modelos em grandes quantidades de dados de texto.
Então, esses dados são usados para entender como as palavras são distribuídas no idioma.
Durante o treinamento, o modelo altera os parâmetros de distribuição de probabilidade.
E tenta reduzir a diferença entre a distribuição esperada e real de palavras em um texto. Isso é possível com o uso de uma função de perda. A função de perda calcula a diferença entre as distribuições esperadas e reais.
Processamento de linguagem natural e visão computacional são uma das áreas onde usamos Pré-treinamento Generativo.
A questão do alinhamento
O problema de alinhamento é uma das dificuldades do Pré-treinamento Generativo. Isso se refere à dificuldade em combinar a distribuição de probabilidade do modelo com a distribuição dos dados reais.
Em outras palavras, as respostas geradas pelo modelo devem ser mais semelhantes às humanas.
O modelo pode ocasionalmente fornecer respostas inesperadas ou impróprias. E isso pode ser causado por várias causas, como viés de dados de treinamento ou falta de reconhecimento de contexto do modelo. O problema de alinhamento deve ser abordado para melhorar a qualidade dos modelos de linguagem.
Para superar esse problema, modelos de linguagem como o ChatGPT empregam técnicas de ajuste fino.
Ajuste fino supervisionado
A segunda parte do treinamento do ChatGPT é o ajuste fino supervisionado. Os desenvolvedores humanos se envolvem em diálogos neste ponto, atuando tanto como o usuário humano quanto como o chatbot.
Essas conversas são gravadas e agregadas em um conjunto de dados. Cada amostra de treinamento inclui um histórico de conversa distinto combinado com a próxima resposta do desenvolvedor humano que atua como o “chatbot”.
O objetivo do ajuste fino supervisionado é maximizar a probabilidade atribuída à sequência de tokens na resposta associada pelo modelo. Esse método é conhecido como “aprendizado por imitação” ou “clonagem de comportamento”.
Dessa forma, o modelo pode aprender a fornecer respostas mais naturais e coerentes. Ele está replicando as respostas dadas por contratantes humanos.
O ajuste fino supervisionado é onde o modelo de linguagem pode ser ajustado para uma tarefa específica.
Vamos dar um exemplo. Suponha que queremos ensinar um chatbot a fornecer recomendações de filmes. Treinaríamos o modelo de linguagem para prever classificações de filmes com base em descrições de filmes. E usaríamos um conjunto de dados de descrições e classificações de filmes.
O algoritmo acabaria descobrindo quais aspectos de um filme correspondiam a classificações altas ou baixas.
Depois de treinado, poderíamos usar nosso modelo para sugerir filmes para usuários humanos. Os usuários podem descrever um filme de que gostem, e o chatbot usaria o modelo de linguagem refinado para recomendar mais filmes comparáveis a ele.
Limitações de Supervisão: Turno de Distribuição
O ajuste fino supervisionado está ensinando um modelo de linguagem para realizar um objetivo especificado. Isso é possível alimentando o modelo com um conjunto de dados e, em seguida, treiná-lo para fazer previsões. Este sistema, no entanto, tem limites conhecidos como “restrições de supervisão”.
Uma dessas restrições é a “mudança distributiva”. Refere-se à possibilidade de que os dados de treinamento não reflitam com precisão a distribuição de entradas do mundo real que o modelo encontraria.
Vamos revisar o exemplo anterior. No exemplo de sugestão de filme, o conjunto de dados usado para treinar o modelo pode não refletir com precisão a variedade de filmes e preferências do usuário que o chatbot encontraria. O chatbot pode não funcionar tão bem quanto gostaríamos.
Como resultado, ele atende a entradas diferentes daquelas observadas durante o treinamento.
Para aprendizado supervisionado, quando o modelo é treinado apenas em um determinado conjunto de instâncias, esse problema surge.
Além disso, o modelo pode ter um desempenho melhor diante de uma mudança distribucional se o aprendizado por reforço for usado para ajudá-lo a se adaptar a novos contextos e aprender com seus erros.
Com base nas preferências, recompensa o aprendizado
O aprendizado por recompensa é o terceiro estágio de treinamento no desenvolvimento de um chatbot. No aprendizado de recompensa, o modelo é ensinado a maximizar um sinal de recompensa.
É uma pontuação que indica a eficácia com que o modelo está realizando o trabalho. O sinal de recompensa é baseado na entrada de pessoas que classificam ou avaliam as respostas do modelo.
O Reward Learning visa desenvolver um chatbot que produz respostas de alta qualidade que os usuários humanos preferem. Para fazer isso, uma técnica de aprendizado de máquina chamada aprendizado por reforço - que inclui aprender com feedback na forma de recompensas - é usado para treinar o modelo.
O chatbot responde às perguntas do usuário, por exemplo, dependendo de sua compreensão atual da tarefa, que é fornecida a ele durante o aprendizado de recompensa. Um sinal de recompensa é dado com base na eficácia do desempenho do chatbot depois que as respostas são avaliadas por juízes humanos.
Este sinal de recompensa é usado pelo chatbot para modificar suas configurações. E melhora o desempenho da tarefa.
Algumas limitações no aprendizado por recompensa
Uma desvantagem do aprendizado de recompensa é que o feedback nas respostas do chatbot pode demorar algum tempo, pois o sinal de recompensa pode ser esparso e atrasado. Como resultado, pode ser um desafio treinar com sucesso o chatbot porque ele pode não receber feedback sobre respostas específicas até muito mais tarde.
Outra questão é que os juízes humanos podem ter visões ou interpretações variadas sobre o que torna uma resposta bem-sucedida, o que pode levar a um viés no sinal de recompensa. Para diminuir isso, é frequentemente utilizado por vários juízes para fornecer um sinal de recompensa mais confiável.
O que o futuro guarda?
Existem várias etapas futuras em potencial para aprimorar ainda mais o desempenho do ChatGPT.
Para aumentar a compreensão do modelo, uma possível rota futura é incluir mais conjuntos de dados de treinamento e fontes de dados. Também é possível aprimorar a capacidade do modelo de compreender e levar em consideração entradas não textuais.
Por exemplo, modelos de linguagem podem entender visuais ou sons.
Ao incorporar técnicas de treinamento específicas, o ChatGPT também pode ser aprimorado para determinadas tarefas. Por exemplo, ele pode realizar análise de sentimentos ou produção de linguagem natural. Em conclusão, o ChatGPT e os modelos de linguagem relacionados mostram uma grande promessa de avanço.
Deixe um comentário