Provavelmente, estamos apenas no início de uma nova revolução generativa da IA.
Inteligência artificial generativa refere-se a algoritmos e modelos capazes de criar conteúdo. A saída de tais modelos inclui texto, áudio e imagens que muitas vezes podem ser confundidos com saída humana real.
Aplicativos como ChatGPT mostraram que a IA generativa não é mera novidade. A IA agora é capaz de seguir instruções detalhadas e parece ter uma compreensão profunda de como o mundo funciona.
Mas como chegamos a esse ponto? Neste guia, veremos alguns dos principais avanços na pesquisa de IA que abriram o caminho para essa nova e excitante revolução generativa da IA.
A ascensão das redes neurais
Você pode rastrear as origens da IA moderna para a pesquisa sobre aprendizado profundo e redes neurais em 2012.
Naquele ano, Alex Krizhevsky e sua equipe da Universidade de Toronto conseguiram obter um algoritmo altamente preciso que pode classificar objetos.
A rede neural de última geração, conhecido agora como AlexNet, foi capaz de classificar objetos no banco de dados visual ImageNet com uma taxa de erro muito menor do que o vice-campeão.
Redes neurais são algoritmos que usam uma rede de funções matemáticas para aprender um determinado comportamento com base em alguns dados de treinamento. Por exemplo, você pode alimentar uma rede neural com dados médicos para treinar o modelo para diagnosticar uma doença como o câncer.
A esperança é que a rede neural lentamente encontre padrões nos dados e se torne mais precisa quando receber novos dados.
AlexNet foi uma aplicação inovadora de um rede neural convolucional ou CNN. A palavra-chave “convolucional” refere-se à adição de camadas convolucionais que colocam mais ênfase nos dados que estão mais próximos.
Embora as CNNs já fossem uma ideia na década de 1980, elas só começaram a ganhar popularidade no início de 2010, quando a mais recente tecnologia de GPU levou a tecnologia a novos patamares.
O sucesso das CNNs no campo da visão computacional levou a um maior interesse na pesquisa de redes neurais.
Gigantes da tecnologia como Google e Facebook decidiram lançar seus próprios frameworks de IA para o público. APIs de alto nível, como Keras deu aos usuários uma interface amigável para experimentar com redes neurais profundas.
As CNNs eram ótimas em reconhecimento de imagem e análise de vídeo, mas estavam tendo problemas quando se tratava de resolver problemas baseados em linguagem. Essa limitação no processamento de linguagem natural pode existir porque as imagens e o texto são, na verdade, problemas fundamentalmente diferentes.
Por exemplo, se você tiver um modelo que classifique se uma imagem contém um semáforo, o semáforo em questão pode aparecer em qualquer lugar da imagem. No entanto, esse tipo de clemência não funciona bem no idioma. A frase “Bob comeu peixe” e “Peixe comeu Bob” têm significados muito diferentes, apesar de usarem as mesmas palavras.
Ficou claro que os pesquisadores precisavam encontrar uma nova abordagem para resolver problemas envolvendo a linguagem humana.
Transformadores mudam tudo
Em 2017, a trabalho de pesquisa intitulado “Atenção é tudo que você precisa” propôs um novo tipo de rede: o Transformer.
Enquanto as CNNs funcionam filtrando repetidamente pequenas porções de uma imagem, os transformadores conectam cada elemento nos dados com todos os outros elementos. Os pesquisadores chamam esse processo de “autoatenção”.
Ao tentar analisar sentenças, CNNs e transformadores funcionam de maneira muito diferente. Enquanto uma CNN se concentrará em formar conexões com palavras próximas umas das outras, um transformador criará conexões entre cada palavra em uma frase.
O processo de auto-atenção é parte integrante da compreensão da linguagem humana. Ao diminuir o zoom e observar como a frase inteira se encaixa, as máquinas podem ter uma compreensão mais clara da estrutura da frase.
Assim que os primeiros modelos de transformadores foram lançados, os pesquisadores logo usaram a nova arquitetura para aproveitar a incrível quantidade de dados de texto encontrados na internet.
GPT-3 e a Internet
Em 2020, a OpenAI GPT-3 modelo mostrou o quão eficazes os transformadores podem ser. O GPT-3 foi capaz de produzir um texto que parece quase indistinguível de um humano. Parte do que tornou o GPT-3 tão poderoso foi a quantidade de dados de treinamento usados. A maior parte do conjunto de dados de pré-treinamento do modelo vem de um conjunto de dados conhecido como Common Crawl, que vem com mais de 400 bilhões de tokens.
Embora a capacidade do GPT-3 de gerar texto humano realista fosse inovadora por si só, os pesquisadores descobriram como o mesmo modelo pode resolver outras tarefas.
Por exemplo, o mesmo modelo GPT-3 que você pode usar para gerar um tweet também pode ajudá-lo a resumir o texto, reescrever um parágrafo e terminar uma história. Modelos de linguagem tornaram-se tão poderosos que agora são essencialmente ferramentas de uso geral que seguem qualquer tipo de comando.
A natureza de uso geral do GPT-3 permitiu aplicações como GitHub Copiloto, que permite aos programadores gerar código de trabalho a partir do inglês simples.
Modelos de difusão: do texto às imagens
O progresso feito com transformadores e NLP também abriu caminho para IA generativa em outros campos.
No campo da visão computacional, já abordamos como o aprendizado profundo permitiu que as máquinas entendessem as imagens. No entanto, ainda precisávamos encontrar uma maneira de a IA gerar as próprias imagens, em vez de apenas classificá-las.
Modelos de imagem generativa como DALL-E 2, Stable Diffusion e Midjourney tornaram-se populares por causa de como eles são capazes de converter entrada de texto em imagens.
Esses modelos de imagem dependem de dois aspectos principais: um modelo que entende a relação entre imagens e texto e um modelo que pode realmente criar uma imagem de alta definição que corresponda à entrada.
OpenAI's CLIP (Contrastive Language–Image Pre-training) é um modelo de código aberto que visa resolver o primeiro aspecto. Dada uma imagem, o modelo CLIP pode prever a descrição de texto mais relevante para aquela imagem em particular.
O modelo CLIP funciona aprendendo como extrair características importantes da imagem e criar uma representação mais simples de uma imagem.
Quando os usuários fornecem uma amostra de entrada de texto para o DALL-E 2, a entrada é convertida em uma “incorporação de imagem” usando o modelo CLIP. O objetivo agora é encontrar uma maneira de gerar uma imagem que corresponda à incorporação da imagem gerada.
As IAs de imagem generativa mais recentes usam um modelo de difusão para lidar com a tarefa de realmente criar uma imagem. Os modelos de difusão dependem de redes neurais que foram pré-treinadas para saber como remover o ruído adicionado das imagens.
Durante esse processo de treinamento, a rede neural pode eventualmente aprender a criar uma imagem de alta resolução a partir de uma imagem de ruído aleatório. Como já temos um mapeamento de texto e imagens fornecido pelo CLIP, podemos treinar um modelo de difusão em incorporações de imagem CLIP para criar um processo para gerar qualquer imagem.
Revolução generativa da IA: o que vem a seguir?
Estamos agora em um ponto em que avanços na IA generativa estão acontecendo a cada dois dias. Com a geração cada vez mais fácil de diferentes tipos de mídia usando IA, devemos nos preocupar em como isso pode afetar nossa sociedade?
Embora as preocupações com as máquinas que substituem os trabalhadores sempre tenham estado na conversa desde a invenção da máquina a vapor, parece que é um pouco diferente desta vez.
A IA generativa está se tornando uma ferramenta multifuncional que pode interromper setores que foram considerados seguros de uma aquisição de IA.
Vamos precisar de programadores se a IA puder começar a escrever código impecável a partir de algumas instruções básicas? As pessoas contratarão criativos se puderem usar apenas um modelo generativo para produzir a saída que desejam por um preço mais baixo?
É difícil prever o futuro da revolução generativa da IA. Mas agora que a figurativa caixa de Pandora foi aberta, espero que a tecnologia permita inovações mais empolgantes que possam deixar um impacto positivo no mundo.
Deixe um comentário