Todo o processo de treinamento do ChatGPT explicado

Conteúdo[Esconder][Mostrar]

Pré-treinamento Generativo+-
- A questão do alinhamento
Ajuste fino supervisionado+-
- Limitações de Supervisão: Turno de Distribuição
Com base nas preferências, recompensa o aprendizado
O que o futuro guarda?

ChatGPT é um notável modelo de linguagem de inteligência artificial. Todos nós o usamos para nos auxiliar em várias tarefas.

Você já se perguntou como ele foi treinado para produzir respostas que parecem tão humanas? Neste artigo, examinaremos o treinamento do ChatGPT.

Explicaremos como evoluiu para um dos mais destacados modelos de linguagem. Enquanto exploramos o intrigante mundo do ChatGPT, embarque em uma jornada de descoberta.

Visão geral do treinamento

ChatGPT é um modelo de processamento de linguagem natural.

Com o ChatGPT, podemos nos envolver em diálogos interativos e discussões semelhantes às humanas. Ele emprega uma abordagem semelhante à de Instruir GPT, que é um modelo de linguagem de ponta. Foi desenvolvido pouco antes do ChatGPT.

Ele emprega um método mais envolvente. Isso permite interações naturais do usuário. Portanto, é uma ferramenta perfeita para uma variedade de aplicações, como chatbots e assistentes virtuais.

O procedimento de treinamento do ChatGPT é um processo de vários estágios. Pré-treinamento Generativo é o primeiro passo no treinamento do ChatGPT.

Nesta fase, o modelo é treinado usando um corpus considerável de dados de texto. Em seguida, o modelo descobre as correlações e padrões estatísticos encontrados na linguagem natural. Assim, podemos ter uma resposta gramaticalmente precisa e coerente.

Em seguida, seguimos uma etapa de ajuste fino supervisionado. Nesta parte, o modelo é treinado em uma determinada tarefa. Por exemplo, ele pode realizar tradução de idiomas ou responder a perguntas.

Por fim, o ChatGPT usa aprendizado de recompensa a partir de feedback humano.

Agora, vamos examinar essas etapas.

Pré-treinamento Generativo

O nível inicial de treinamento é o Pré-treinamento Generativo. É um método comum para treinar modelos de linguagem. Para criar sequências de tokens, o método aplica o “paradigma de previsão do próximo passo”.

O que isso significa?

Cada token é uma variável única. Eles representam uma palavra ou parte de uma palavra. O modelo tenta determinar qual palavra tem mais probabilidade de vir a seguir, dadas as palavras anteriores. Ele usa a distribuição de probabilidade em todos os termos em sua sequência.

O propósito dos modelos de linguagem é construir sequências de tokens. Essas sequências devem representar os padrões e estruturas da linguagem humana. Isso é possível treinando modelos em grandes quantidades de dados de texto.

Então, esses dados são usados para entender como as palavras são distribuídas no idioma.

Durante o treinamento, o modelo altera os parâmetros de distribuição de probabilidade.

E tenta reduzir a diferença entre a distribuição esperada e real de palavras em um texto. Isso é possível com o uso de uma função de perda. A função de perda calcula a diferença entre as distribuições esperadas e reais.

Processamento de linguagem natural e visão computacional são uma das áreas onde usamos Pré-treinamento Generativo.

Aberto 2

A questão do alinhamento

O problema de alinhamento é uma das dificuldades do Pré-treinamento Generativo. Isso se refere à dificuldade em combinar a distribuição de probabilidade do modelo com a distribuição dos dados reais.
Em outras palavras, as respostas geradas pelo modelo devem ser mais semelhantes às humanas.

O modelo pode ocasionalmente fornecer respostas inesperadas ou impróprias. E isso pode ser causado por várias causas, como viés de dados de treinamento ou falta de reconhecimento de contexto do modelo. O problema de alinhamento deve ser abordado para melhorar a qualidade dos modelos de linguagem.

Para superar esse problema, modelos de linguagem como o ChatGPT empregam técnicas de ajuste fino.

Ajuste fino supervisionado

A segunda parte do treinamento do ChatGPT é o ajuste fino supervisionado. Os desenvolvedores humanos se envolvem em diálogos neste ponto, atuando tanto como o usuário humano quanto como o chatbot.

Essas conversas são gravadas e agregadas em um conjunto de dados. Cada amostra de treinamento inclui um histórico de conversa distinto combinado com a próxima resposta do desenvolvedor humano que atua como o “chatbot”.

O objetivo do ajuste fino supervisionado é maximizar a probabilidade atribuída à sequência de tokens na resposta associada pelo modelo. Esse método é conhecido como “aprendizado por imitação” ou “clonagem de comportamento”.

Dessa forma, o modelo pode aprender a fornecer respostas mais naturais e coerentes. Ele está replicando as respostas dadas por contratantes humanos.

O ajuste fino supervisionado é onde o modelo de linguagem pode ser ajustado para uma tarefa específica.

Vamos dar um exemplo. Suponha que queremos ensinar um chatbot a fornecer recomendações de filmes. Treinaríamos o modelo de linguagem para prever classificações de filmes com base em descrições de filmes. E usaríamos um conjunto de dados de descrições e classificações de filmes.

O algoritmo acabaria descobrindo quais aspectos de um filme correspondiam a classificações altas ou baixas.

Depois de treinado, poderíamos usar nosso modelo para sugerir filmes para usuários humanos. Os usuários podem descrever um filme de que gostem, e o chatbot usaria o modelo de linguagem refinado para recomendar mais filmes comparáveis a ele.

Limitações de Supervisão: Turno de Distribuição

O ajuste fino supervisionado está ensinando um modelo de linguagem para realizar um objetivo especificado. Isso é possível alimentando o modelo com um conjunto de dados e, em seguida, treiná-lo para fazer previsões. Este sistema, no entanto, tem limites conhecidos como “restrições de supervisão”.

Uma dessas restrições é a “mudança distributiva”. Refere-se à possibilidade de que os dados de treinamento não reflitam com precisão a distribuição de entradas do mundo real que o modelo encontraria.

Vamos revisar o exemplo anterior. No exemplo de sugestão de filme, o conjunto de dados usado para treinar o modelo pode não refletir com precisão a variedade de filmes e preferências do usuário que o chatbot encontraria. O chatbot pode não funcionar tão bem quanto gostaríamos.

Como resultado, ele atende a entradas diferentes daquelas observadas durante o treinamento.

Para aprendizado supervisionado, quando o modelo é treinado apenas em um determinado conjunto de instâncias, esse problema surge.

Além disso, o modelo pode ter um desempenho melhor diante de uma mudança distribucional se o aprendizado por reforço for usado para ajudá-lo a se adaptar a novos contextos e aprender com seus erros.

Com base nas preferências, recompensa o aprendizado

O aprendizado por recompensa é o terceiro estágio de treinamento no desenvolvimento de um chatbot. No aprendizado de recompensa, o modelo é ensinado a maximizar um sinal de recompensa.

É uma pontuação que indica a eficácia com que o modelo está realizando o trabalho. O sinal de recompensa é baseado na entrada de pessoas que classificam ou avaliam as respostas do modelo.

O Reward Learning visa desenvolver um chatbot que produz respostas de alta qualidade que os usuários humanos preferem. Para fazer isso, uma técnica de aprendizado de máquina chamada aprendizado por reforço - que inclui aprender com feedback na forma de recompensas - é usado para treinar o modelo.

O chatbot responde às perguntas do usuário, por exemplo, dependendo de sua compreensão atual da tarefa, que é fornecida a ele durante o aprendizado de recompensa. Um sinal de recompensa é dado com base na eficácia do desempenho do chatbot depois que as respostas são avaliadas por juízes humanos.

Este sinal de recompensa é usado pelo chatbot para modificar suas configurações. E melhora o desempenho da tarefa.

Algumas limitações no aprendizado por recompensa

Uma desvantagem do aprendizado de recompensa é que o feedback nas respostas do chatbot pode demorar algum tempo, pois o sinal de recompensa pode ser esparso e atrasado. Como resultado, pode ser um desafio treinar com sucesso o chatbot porque ele pode não receber feedback sobre respostas específicas até muito mais tarde.

Outra questão é que os juízes humanos podem ter visões ou interpretações variadas sobre o que torna uma resposta bem-sucedida, o que pode levar a um viés no sinal de recompensa. Para diminuir isso, é frequentemente utilizado por vários juízes para fornecer um sinal de recompensa mais confiável.

O que o futuro guarda?

Existem várias etapas futuras em potencial para aprimorar ainda mais o desempenho do ChatGPT.

Para aumentar a compreensão do modelo, uma possível rota futura é incluir mais conjuntos de dados de treinamento e fontes de dados. Também é possível aprimorar a capacidade do modelo de compreender e levar em consideração entradas não textuais.

Por exemplo, modelos de linguagem podem entender visuais ou sons.

Ao incorporar técnicas de treinamento específicas, o ChatGPT também pode ser aprimorado para determinadas tarefas. Por exemplo, ele pode realizar análise de sentimentos ou produção de linguagem natural. Em conclusão, o ChatGPT e os modelos de linguagem relacionados mostram uma grande promessa de avanço.

Todo o processo de treinamento do ChatGPT explicado

Visão geral do treinamento

Pré-treinamento Generativo

A questão do alinhamento

Ajuste fino supervisionado

Limitações de Supervisão: Turno de Distribuição

Com base nas preferências, recompensa o aprendizado

Algumas limitações no aprendizado por recompensa

O que o futuro guarda?

Sobre İlke Candan Bengi

Mais artigos sobre HashDork:

Como reduzir alucinações em sua IA

Colossyan x Heygen

Este boletim de notícias de tecnologia do futuro não é uma merda

Todo o processo de treinamento do ChatGPT explicado

Visão geral do treinamento

Pré-treinamento Generativo

A questão do alinhamento

Ajuste fino supervisionado

Limitações de Supervisão: Turno de Distribuição

Com base nas preferências, recompensa o aprendizado

Algumas limitações no aprendizado por recompensa

O que o futuro guarda?

Sobre İlke Candan Bengi

Mais artigos sobre HashDork:

Como reduzir alucinações em sua IA

10 melhores ferramentas de IA para mídias sociais

Colossyan x Heygen

10 melhores ferramentas de criação de vídeo animado por IA

Interações leitor

Deixe um comentário cancelar resposta

Este boletim de notícias de tecnologia do futuro não é uma merda