Nos últimos anos, os modelos de aprendizagem profunda tornaram-se mais eficazes na compreensão da linguagem humana.
Pense em projetos como GPT-3, que agora é capaz de criar artigos e sites inteiros. O GitHub introduziu recentemente Copiloto do GitHub, um serviço que fornece trechos de código inteiros simplesmente descrevendo o tipo de código que você precisa.
Pesquisadores da OpenAI, Facebook e Google estão trabalhando em maneiras de usar o aprendizado profundo para lidar com outra tarefa: legendar imagens. Usando um grande conjunto de dados com milhões de entradas, eles criaram algumas surpreendente resultados.
Ultimamente, esses pesquisadores têm tentado realizar a tarefa oposta: criar imagens a partir de uma legenda. Agora é possível criar uma imagem completamente nova a partir de uma descrição?
Este guia explorará dois dos modelos de texto para imagem mais avançados: o DALL-E 2 da OpenAI e o Imagen AI do Google. Cada um desses projetos introduziu métodos inovadores que podem mudar a sociedade como a conhecemos.
Mas primeiro, vamos entender o que queremos dizer com geração de texto para imagem.
O que é geração de texto para imagem?
Modelos de texto para imagem permitem que os computadores criem imagens novas e exclusivas com base em prompts. As pessoas agora podem fornecer uma descrição de texto de uma imagem que desejam produzir, e o modelo tentará criar um visual que corresponda a essa descrição o mais próximo possível.
Os modelos de aprendizado de máquina alavancaram o uso de grandes conjuntos de dados contendo pares de legendas de imagem para melhorar ainda mais o desempenho.
Mais texto para imagem modelos usam um modelo de linguagem de transformador para interpretar prompts. Este tipo de modelo é um rede neural que tenta aprender o contexto e o significado semântico da linguagem natural.
Em seguida, modelos generativos como modelos de difusão e redes adversárias generativas são usadas para síntese de imagens.
O que é DALLE 2?
DALL-E2 é um modelo de computador da OpenAI lançado em abril de 2022. O modelo foi treinado em um banco de dados de milhões de imagens rotuladas para associar palavras e frases a imagens.
Os usuários podem digitar uma frase simples, como “um gato comendo lasanha”, e o DALL-E 2 gerará sua própria interpretação do que a frase está tentando descrever.
Além de criar imagens do zero, o DALL-E 2 também pode editar imagens existentes. No exemplo abaixo, DALL-E conseguiu gerar uma imagem modificada de uma sala com um sofá adicionado.
DALL-E 2 é apenas um dos muitos projetos semelhantes que a OpenAI lançou nos últimos anos. O GPT-3 da OpenAI tornou-se notícia quando parecia gerar textos de estilos variados.
Atualmente, DALL-E 2 ainda está em teste beta. Os usuários interessados podem se inscrever em seus lista de espera e aguarde o acesso.
Como isso funciona?
Embora os resultados do DALL-E 2 sejam impressionantes, você deve estar se perguntando como tudo funciona.
DALL-E 2 é um exemplo de implementação multimodal do projeto GPT-3 da OpenAI.
Primeiro, o prompt de texto do usuário é colocado em um codificador de texto que mapeia o prompt para um espaço de representação. O DALL-E 2 usa outro modelo OpenAI chamado CLIP ( Contrastive Language-Image Pre-Training) para obter informações semânticas da linguagem natural.
Em seguida, um modelo conhecido como prévio mapeia a codificação de texto em uma codificação de imagem. Essa codificação de imagem deve capturar as informações semânticas encontradas na etapa de codificação de texto.
Para criar a imagem real, o DALL-E 2 usa um decodificador de imagem para gerar um visual usando informações semânticas e detalhes de codificação de imagem. OpenAI usa uma versão modificada do DESLIZAR modelo para realizar a geração de imagens. GLIDE conta com um modelo de difusão para criar imagens.
A adição de GLIDE ao modelo DALL-E 2 permitiu uma saída mais fotorrealista. Como o modelo GLIDE é estocástico ou determinado aleatoriamente, o modelo DALL-E 2 pode facilmente criar variações executando o modelo repetidamente.
Limitações
Apesar dos resultados impressionantes do modelo DALL-E 2, ele ainda enfrenta algumas limitações.
Texto de ortografia
Os prompts que tentam fazer o DALL-E 2 gerar texto revelam que ele tem dificuldade em soletrar palavras. Os especialistas assumem que isso pode ocorrer porque as informações de ortografia não fazem parte do conjunto de dados de treinamento.
Raciocínio Composicional
Pesquisadores observam que DALL-E 2 ainda tem alguma dificuldade com o raciocínio composicional. Simplificando, o modelo pode entender aspectos individuais de uma imagem enquanto ainda tem problemas para descobrir as relações entre esses aspectos.
Por exemplo, se for dado o prompt “cubo vermelho em cima de um cubo azul”, DALL-E gerará um cubo azul e um cubo vermelho com precisão, mas não os colocará corretamente. Também foi observado que o modelo tem dificuldade com prompts que exigem que um número específico de objetos seja desenhado.
Viés no conjunto de dados
Se o prompt não contiver outros detalhes, observou-se que DALL-E representa pessoas e ambientes brancos ou ocidentais. Esse viés representacional ocorre devido à abundância de imagens centradas no Ocidente no conjunto de dados.
O modelo também foi observado para seguir estereótipos de gênero. Por exemplo, digitar o prompt “comissária de bordo” geralmente gera imagens de comissárias de bordo.
O que é o Google Imagen AI?
Google Imagem AI é um modelo que visa criar imagens fotorrealistas a partir do texto de entrada. Semelhante ao DALL-E, o modelo também usa modelos de linguagem de transformador para entender o texto e conta com o uso de modelos de difusão para criar imagens de alta qualidade.
Juntamente com o Imagen, o Google também lançou um benchmark para modelos de texto para imagem chamado DrawBench. Usando o DrawBench, eles puderam observar que os avaliadores humanos preferiam a saída do Imagen a outros modelos, incluindo o DALL-E 2.
Como isso funciona?
Semelhante ao DALL-E, o Imagen primeiro converte o prompt do usuário em um texto incorporado por meio de um codificador de texto congelado.
Imagen usa um modelo de difusão que aprende a converter um padrão de ruído em imagens. A saída inicial dessas imagens são de baixa resolução e posteriormente são passadas por outro modelo conhecido como modelo de difusão de super-resolução para aumentar a resolução da imagem final. O primeiro modelo de difusão produz uma imagem de 64×64 pixels e depois é ampliado para uma imagem de alta resolução de 1024×1024.
Com base na pesquisa da equipe do Imagen, grandes modelos de linguagem congelada treinados apenas em dados de texto ainda são codificadores de texto altamente eficazes para geração de texto para imagem.
O estudo também introduz o conceito de limiar dinâmico. Este método permite que as imagens pareçam mais fotorrealistas aumentando os pesos de orientação ao gerar a imagem.
Desempenho de DALLE 2 vs Imagen
Os resultados preliminares do benchmark do Google mostram que os entrevistados humanos preferem imagens geradas por Imagen em vez de DALL-E 2 e outros modelos de texto para imagem, como Latent Diffusion e VQGAN+CLIP.
A saída da equipe do Imagen também mostrou que seu modelo tem um desempenho melhor na ortografia de texto, uma fraqueza conhecida do modelo DALL-E 2.
No entanto, como o Google ainda não divulgou o modelo para o público, ainda resta saber o quão precisos são os benchmarks do Google.
Conclusão
O surgimento de modelos fotorrealistas de texto para imagem é controverso porque esses modelos estão prontos para uso antiético.
A tecnologia pode levar à criação de conteúdo explícito ou como ferramenta de desinformação. Pesquisadores do Google e da OpenAI estão cientes disso, e é em parte por isso que essas tecnologias ainda não são acessíveis a todos.
Os modelos de texto para imagem também têm implicações econômicas significativas. Profissões como modelos, fotógrafos e artistas serão afetadas se modelos como DALL-E se tornarem populares?
No momento, esses modelos ainda têm limitações. Manter qualquer imagem gerada por IA para escrutínio revelará suas imperfeições. Com o OpenAI e o Google competindo pelos modelos mais eficazes, pode ser uma questão de tempo até que uma saída verdadeiramente perfeita seja gerada: uma imagem indistinguível da real.
O que você acha que acontecerá quando a tecnologia for tão longe?
Deixe um comentário