Tutorial Dreambooth para Iniciantes

Conteúdo[Esconder][Mostrar]

O que é Dreambooth?
Funcionalidades
Aplicação+-
Tutorial Dreambooth+-
Limitações do Dreambooth
Conclusão

Grandes modelos de texto para imagem fizeram um avanço significativo no desenvolvimento da IA, produzindo síntese de imagem diversificada e de alta qualidade a partir de um determinado prompt de texto.

Esses modelos são incapazes de sintetizar representações únicas de assuntos em vários cenários ou de replicar a aparência de assuntos em um determinado conjunto de referência.

Tecnologias recém-lançadas como OpenAI's DALL.E2 ou StabilityAI's Difusão Estável e Midjourney já estão conquistando a internet. Agora é hora de personalizar os resultados. Mas como?

A IA do Google DreamBooth chegou.

DreamBooth tem a capacidade de reconhecer o tópico de uma imagem, desconstruí-lo de seu contexto original e, em seguida, sintetizá-lo com precisão em um novo contexto desejado. Além disso, pode ser usado com os atuais geradores de imagens AI.

Neste artigo, examinaremos profundamente o DreamBooth, seu uso, seu tutorial, suas limitações e muito mais.

O que é Dreambooth?

cabine de sonho, um novo modelo de difusão de texto para imagem, foi apresentado pelo Google. Um prompt por escrito pode ser usado como orientação pelo Google DreamBooth AI para gerar uma ampla variedade de fotos do assunto selecionado pelo usuário em diferentes configurações.

Um grupo de pesquisa da Universidade de Boston e do Google desenvolveu o DreamBooth, uma técnica de ponta para alterar modelos de texto para imagem que passaram por um extenso pré-treinamento.

O conceito geral é bastante direto: eles desejam aumentar o dicionário de visão de idioma de forma que IDs de token incomuns sejam associados a tópicos personalizados que os usuários possam definir.

O principal objetivo do modelo é conectar os usuários ao modelo de difusão de texto para imagem dando-lhes os recursos de que precisam para produzir representações fotorrealistas das instâncias de seu assunto selecionado.

Como consequência, esta técnica parece funcionar bem para resumir desafios em uma variedade de situações.

O DreamBooth do Google difere das ferramentas anteriores de conversão de texto em imagem, como DALL-E2, Difusão Estável e Meio da jornada, na medida em que dá aos usuários mais controle sobre a imagem do tópico antes de permitir que eles manipulem o modelo de difusão usando entradas baseadas em texto.

Funcionalidades

O DreamBooth AI pode melhorar um modelo de texto para imagem com 3 a 5 imagens.
Fotos fotorrealistas originais podem ser criadas com o DreamBooth AI.
Além disso, o DreamBooth AI pode criar fotos de um tópico de vários ângulos.

Aplicação

Representações de arte

Essa tarefa difere especificamente da transferência de estilo, que mantém a semântica da cena de origem enquanto incorpora o estilo de outra imagem à cena original.

Versão de arte

Com base na abordagem criativa, a IA pode realizar alterações significativas na cena, mantendo a identificação e as especificidades da instância do tópico.

Modificação de propriedade

As características da instância do sujeito podem ser modificadas pelo DreamBooth AI.

Modificação de propriedade

Acessorização

A forte composição anterior ao modelo de geração é o que torna a capacidade do DreamBooth AI de adornar objetos tão interessante.

Acessorização

Recontextualização

O DreamBooth AI pode produzir imagens distintas para uma determinada instância de assunto, fornecendo a um modelo treinado uma frase que inclui o identificador exclusivo e o substantivo da classe.

Recontextualização

Ele pode gerar o sujeito em posturas, articulações e estrutura de cena únicas e inéditas, em vez de mudar o ambiente. Reflexos e sombras realistas, bem como interações entre o assunto e os objetos ao redor.

Tutorial Dreambooth

Neste tutorial, estaremos seguindo o Bloco de notas do Google Collab, e vou orientá-lo, o que fará com que você o entenda e use por conta própria.

Configurando GPU e instalando bibliotecas

Descobrir quais tipos de GPU e VRAM estão disponíveis é o primeiro passo. A instalação de alguns requisitos e dependências também é necessária. Basta pressionar o botão play e esperar que termine.

Configurando a GPU e instalando bibliotecas

Crie uma conta no Huggingface e gere um token

O próximo passo é se registrar para uma conta Huggingface. Quando terminar, clique em configurações no canto superior direito. Você chegará na próxima página.

Token de rosto abraçado

Crie o token e o nome conforme solicitado aqui. O token deve ser copiado e colado na colaboração do Google na célula abaixo.

Token no Google Colab

Instalar xformers

Nesta etapa, você pode simplesmente pressionar o botão play para instalar xformers clicando no runtime.

Instalar Xformers

Conectar ao Drive

Agora, você só precisa executar esta célula para se conectar ao google drive.

Conecte-se ao Drive

Digite o prompt

Na célula seguinte, basta inserir o prompt.

Digite o prompt

Fazendo upload de fotos

Nesta etapa, você só precisa fazer o upload das fotos que deseja treinar.

Você pode enviar suas imagens nesta célula

Treinar modelo de IA

Esta é a fase mais importante, pois você utilizará o DreamBooth para treinar um novo modelo de IA com base em todas as suas fotografias de referência enviadas. Você deve limitar sua atenção a dois campos de entrada. “—prompt de instância” é o primeiro parâmetro. Você deve fornecer um nome altamente distinto aqui.

O argumento 'lista de conceitos' é o segundo campo de entrada crítico. Ele deve ser renomeado para corresponder ao usado na seção 'Alterar o prompt'.

Modelo de treinamento de IA

Gerar imagens de IA

As imagens AI serão criadas nesta fase, onde você pode inserir as instruções de texto.

Gerar imagens de IA

Limitações do Dreambooth

O prompt de comando torna-se uma barreira para fazer iterações no tópico com alto grau de detalhamento. O DreamBooth pode alterar o contexto do objeto, mas se o modelo desejar alterar o próprio objeto, haverá problemas com a moldura.
Outro problema é sobreajustar a imagem de saída à imagem de entrada. Se não houver imagens suficientes fornecidas, o assunto pode não ser considerado ou pode ser mesclado com o contexto das imagens enviadas. Quando um contexto para uma geração ímpar é solicitado, a mesma coisa acontece.

Conclusão

Para produzir resultados a partir de uma única entrada de texto, a maior parte dos modelos de texto para imagem requer milhões de parâmetros e bibliotecas.

O DreamBooth simplifica a aquisição e o uso de conteúdo para os consumidores, exigindo apenas a entrada de três a cinco fotografias de tópicos junto com um plano de fundo textual.

Tutorial do Dreambooth para iniciantes

O que é Dreambooth?

Funcionalidades