Conteúdo[Esconder][Mostrar]
Grandes modelos de texto para imagem fizeram um avanço significativo no desenvolvimento da IA, produzindo síntese de imagem diversificada e de alta qualidade a partir de um determinado prompt de texto.
Esses modelos são incapazes de sintetizar representações únicas de assuntos em vários cenários ou de replicar a aparência de assuntos em um determinado conjunto de referência.
Tecnologias recém-lançadas como OpenAI's DALL.E2 ou StabilityAI's Difusão Estável e Midjourney já estão conquistando a internet. Agora é hora de personalizar os resultados. Mas como?
A IA do Google DreamBooth chegou.
DreamBooth tem a capacidade de reconhecer o tópico de uma imagem, desconstruí-lo de seu contexto original e, em seguida, sintetizá-lo com precisão em um novo contexto desejado. Além disso, pode ser usado com os atuais geradores de imagens AI.
Neste artigo, examinaremos profundamente o DreamBooth, seu uso, seu tutorial, suas limitações e muito mais.
O que é Dreambooth?
cabine de sonho, um novo modelo de difusão de texto para imagem, foi apresentado pelo Google. Um prompt por escrito pode ser usado como orientação pelo Google DreamBooth AI para gerar uma ampla variedade de fotos do assunto selecionado pelo usuário em diferentes configurações.
Um grupo de pesquisa da Universidade de Boston e do Google desenvolveu o DreamBooth, uma técnica de ponta para alterar modelos de texto para imagem que passaram por um extenso pré-treinamento.
O conceito geral é bastante direto: eles desejam aumentar o dicionário de visão de idioma de forma que IDs de token incomuns sejam associados a tópicos personalizados que os usuários possam definir.
O principal objetivo do modelo é conectar os usuários ao modelo de difusão de texto para imagem dando-lhes os recursos de que precisam para produzir representações fotorrealistas das instâncias de seu assunto selecionado.
Como consequência, esta técnica parece funcionar bem para resumir desafios em uma variedade de situações.
O DreamBooth do Google difere das ferramentas anteriores de conversão de texto em imagem, como DALL-E2, Difusão Estável e Meio da jornada, na medida em que dá aos usuários mais controle sobre a imagem do tópico antes de permitir que eles manipulem o modelo de difusão usando entradas baseadas em texto.
Funcionalidades
- O DreamBooth AI pode melhorar um modelo de texto para imagem com 3 a 5 imagens.
- Fotos fotorrealistas originais podem ser criadas com o DreamBooth AI.
- Além disso, o DreamBooth AI pode criar fotos de um tópico de vários ângulos.
Aplicação
Representações de arte
Essa tarefa difere especificamente da transferência de estilo, que mantém a semântica da cena de origem enquanto incorpora o estilo de outra imagem à cena original.
Com base na abordagem criativa, a IA pode realizar alterações significativas na cena, mantendo a identificação e as especificidades da instância do tópico.
Modificação de propriedade
As características da instância do sujeito podem ser modificadas pelo DreamBooth AI.
Acessorização
A forte composição anterior ao modelo de geração é o que torna a capacidade do DreamBooth AI de adornar objetos tão interessante.
Recontextualização
O DreamBooth AI pode produzir imagens distintas para uma determinada instância de assunto, fornecendo a um modelo treinado uma frase que inclui o identificador exclusivo e o substantivo da classe.
Ele pode gerar o sujeito em posturas, articulações e estrutura de cena únicas e inéditas, em vez de mudar o ambiente. Reflexos e sombras realistas, bem como interações entre o assunto e os objetos ao redor.
Tutorial Dreambooth
Neste tutorial, estaremos seguindo o Bloco de notas do Google Collab, e vou orientá-lo, o que fará com que você o entenda e use por conta própria.
Configurando GPU e instalando bibliotecas
Descobrir quais tipos de GPU e VRAM estão disponíveis é o primeiro passo. A instalação de alguns requisitos e dependências também é necessária. Basta pressionar o botão play e esperar que termine.
Crie uma conta no Huggingface e gere um token
O próximo passo é se registrar para uma conta Huggingface. Quando terminar, clique em configurações no canto superior direito. Você chegará na próxima página.
Crie o token e o nome conforme solicitado aqui. O token deve ser copiado e colado na colaboração do Google na célula abaixo.
Instalar xformers
Nesta etapa, você pode simplesmente pressionar o botão play para instalar xformers clicando no runtime.
Conectar ao Drive
Agora, você só precisa executar esta célula para se conectar ao google drive.
Digite o prompt
Na célula seguinte, basta inserir o prompt.
Fazendo upload de fotos
Nesta etapa, você só precisa fazer o upload das fotos que deseja treinar.
Treinar modelo de IA
Esta é a fase mais importante, pois você utilizará o DreamBooth para treinar um novo modelo de IA com base em todas as suas fotografias de referência enviadas. Você deve limitar sua atenção a dois campos de entrada. “—prompt de instância” é o primeiro parâmetro. Você deve fornecer um nome altamente distinto aqui.
O argumento 'lista de conceitos' é o segundo campo de entrada crítico. Ele deve ser renomeado para corresponder ao usado na seção 'Alterar o prompt'.
Gerar imagens de IA
As imagens AI serão criadas nesta fase, onde você pode inserir as instruções de texto.
Limitações do Dreambooth
- O prompt de comando torna-se uma barreira para fazer iterações no tópico com alto grau de detalhamento. O DreamBooth pode alterar o contexto do objeto, mas se o modelo desejar alterar o próprio objeto, haverá problemas com a moldura.
- Outro problema é sobreajustar a imagem de saída à imagem de entrada. Se não houver imagens suficientes fornecidas, o assunto pode não ser considerado ou pode ser mesclado com o contexto das imagens enviadas. Quando um contexto para uma geração ímpar é solicitado, a mesma coisa acontece.
Conclusão
Para produzir resultados a partir de uma única entrada de texto, a maior parte dos modelos de texto para imagem requer milhões de parâmetros e bibliotecas.
O DreamBooth simplifica a aquisição e o uso de conteúdo para os consumidores, exigindo apenas a entrada de três a cinco fotografias de tópicos junto com um plano de fundo textual.
Deixe um comentário