Um problema clássico da inteligência artificial é a busca de uma máquina que possa entender a linguagem humana.
Por exemplo, ao pesquisar “restaurantes italianos próximos” em seu mecanismo de pesquisa favorito, um algoritmo precisa analisar cada palavra em sua consulta e gerar os resultados relevantes. Um aplicativo de tradução decente terá que entender o contexto de uma determinada palavra em inglês e, de alguma forma, explicar as diferenças gramaticais entre os idiomas.
Todas essas tarefas e muito mais se enquadram no subcampo da ciência da computação conhecido como Processamento de linguagem natural ou PNL. Os avanços no NLP levaram a uma ampla gama de aplicações práticas, desde assistentes virtuais como o Alexa da Amazon até filtros de spam que detectam e-mails maliciosos.
O avanço mais recente na PNL é a ideia de um modelo de linguagem grande ou LLM. LLMs como o GPT-3 tornaram-se tão poderosos que parecem ter sucesso em quase todas as tarefas ou casos de uso de NLP.
Neste artigo, veremos o que exatamente são os LLMs, como esses modelos são treinados e as limitações atuais que eles têm.
O que é um modelo de linguagem grande?
Em sua essência, um modelo de linguagem é simplesmente um algoritmo que sabe a probabilidade de uma sequência de palavras ser uma sentença válida.
Um modelo de linguagem muito simples treinado em algumas centenas de livros deve ser capaz de dizer que “Ele foi para casa” é mais válido do que “Ele foi para casa”.
Se substituirmos o conjunto de dados relativamente pequeno por um enorme conjunto de dados extraído da Internet, começamos a abordar a ideia de um modelo de linguagem grande.
utilização redes neurais, os pesquisadores podem treinar LLMs em uma grande quantidade de dados de texto. Devido à quantidade de dados de texto que o modelo viu, o LLM se torna muito bom em prever a próxima palavra em uma sequência.
O modelo torna-se tão sofisticado que pode realizar muitas tarefas de PNL. Essas tarefas incluem resumir texto, criar conteúdo novo e até mesmo simular uma conversa humana.
Por exemplo, o altamente popular modelo de linguagem GPT-3 é treinado com mais de 175 bilhões de parâmetros e é considerado o modelo de linguagem mais avançado até agora.
Ele é capaz de gerar código de trabalho, escrever artigos inteiros e tentar responder a perguntas sobre qualquer tópico.
Como os LLMs são treinados?
Mencionamos brevemente o fato de que os LLMs devem muito de seu poder ao tamanho de seus dados de treinamento. Afinal, há uma razão pela qual os chamamos de modelos de linguagem “grandes”.
Pré-treinamento com uma arquitetura Transformer
Durante o estágio de pré-treinamento, os LLMs são apresentados aos dados de texto existentes para aprender a estrutura geral e as regras de um idioma.
Nos últimos anos, os LLMs foram pré-treinados em conjuntos de dados que cobrem uma parte significativa da Internet pública. Por exemplo, o modelo de linguagem do GPT-3 foi treinado em dados do Rastreio comum conjunto de dados, um corpus de postagens da web, páginas da web e livros digitalizados extraídos de mais de 50 milhões de domínios.
O enorme conjunto de dados é então alimentado em um modelo conhecido como transformador. Os transformadores são um tipo de rede neural profunda que funciona melhor para dados sequenciais.
Os transformadores usam um arquitetura codificador-decodificador para lidar com entrada e saída. Essencialmente, o transformador contém duas redes neurais: um codificador e um decodificador. O codificador pode extrair o significado do texto de entrada e armazená-lo como um vetor. O decodificador então recebe o vetor e produz sua interpretação do texto.
No entanto, o conceito-chave que permitiu que a arquitetura do transformador funcionasse tão bem é a adição de um mecanismo de auto-atenção. O conceito de autoatenção permitiu que o modelo prestasse atenção nas palavras mais importantes de uma determinada frase. O mecanismo considera até mesmo os pesos entre palavras que estão distantes sequencialmente.
Outro benefício da autoatenção é que o processo pode ser paralelizado. Em vez de processar dados sequenciais em ordem, os modelos de transformadores podem processar todas as entradas de uma só vez. Isso permite que os transformadores treinem grandes quantidades de dados de forma relativamente rápida em comparação com outros métodos.
Afinação
Após o estágio de pré-treinamento, você pode optar por introduzir um novo texto para o LLM básico treinar. Chamamos este processo afinação e é freqüentemente usado para melhorar ainda mais a saída do LLM em uma tarefa específica.
Por exemplo, você pode querer usar um LLM para gerar conteúdo para sua conta do Twitter. Podemos fornecer ao modelo vários exemplos de seus tweets anteriores para dar uma ideia da saída desejada.
Existem alguns tipos diferentes de ajuste fino.
Aprendizagem rápida refere-se ao processo de fornecer a um modelo um pequeno número de exemplos com a expectativa de que o modelo de linguagem descobrirá como fazer uma saída semelhante. Aprendizagem one-shot é um processo semelhante, exceto que apenas um único exemplo é fornecido.
Limitações de modelos de linguagem grandes
LLMs como GPT-3 são capazes de executar um grande número de casos de uso, mesmo sem ajuste fino. No entanto, esses modelos ainda vêm com seu próprio conjunto de limitações.
Falta de compreensão semântica do mundo
Na superfície, os LLMs parecem exibir inteligência. No entanto, esses modelos não funcionam da mesma forma que os cérebro humano faz. Os LLMs dependem exclusivamente de cálculos estatísticos para gerar resultados. Eles não têm a capacidade de raciocinar ideias e conceitos por conta própria.
Por causa disso, um LLM pode produzir respostas sem sentido simplesmente porque as palavras parecem “certas” ou “estatisticamente prováveis” quando colocadas nessa ordem específica.
Alucinações
Modelos como o GPT-3 também sofrem com respostas imprecisas. LLMs podem sofrer de um fenômeno conhecido como alucinação onde os modelos produzem uma resposta factualmente incorreta sem qualquer consciência de que a resposta não tem base na realidade.
Por exemplo, um usuário pode pedir ao modelo para explicar os pensamentos de Steve Jobs sobre o iPhone mais recente. O modelo pode gerar uma cotação do nada com base em seus dados de treinamento.
Preconceitos e conhecimento limitado
Como muitos outros algoritmos, grandes modelos de linguagem são propensos a herdar os vieses presentes nos dados de treinamento. À medida que começamos a confiar mais nos LLMs para recuperar informações, os desenvolvedores desses modelos devem encontrar maneiras de mitigar os efeitos potencialmente prejudiciais de respostas tendenciosas.
De maneira semelhante, os pontos cegos dos dados de treinamento do modelo também atrapalharão o próprio modelo. Atualmente, grandes modelos de linguagem levam meses para serem treinados. Esses modelos também dependem de conjuntos de dados com escopo limitado. É por isso que o ChatGPT tem conhecimento limitado dos eventos ocorridos após 2021.
Conclusão
Grandes modelos de linguagem têm o potencial de mudar verdadeiramente a forma como interagimos com a tecnologia e nosso mundo em geral.
A vasta quantidade de dados disponíveis na internet deu aos pesquisadores uma maneira de modelar as complexidades da linguagem. No entanto, ao longo do caminho, esses modelos de linguagem parecem ter captado uma compreensão humana do mundo como ele é.
À medida que o público começa a confiar nesses modelos de linguagem para fornecer resultados precisos, pesquisadores e desenvolvedores já estão encontrando maneiras de adicionar proteções para que a tecnologia permaneça ética.
O que você acha que é o futuro dos LLMs?
Deixe um comentário