Tutorial de Dreambooth para principiantes

Índice analítico[Ocultar][Mostrar]

Que é Dreambooth?
características
aplicación+-
Tutorial de Dreambooth+-
Limitacións de Dreambooth
Conclusión

Os grandes modelos de texto a imaxe fixeron un avance significativo no desenvolvemento da IA ao producir unha síntese de imaxes diversificada e de alta calidade a partir dunha indicación de texto determinada.

Estes modelos son incapaces de sintetizar representacións únicas de suxeitos en varios escenarios ou de reproducir a aparencia dos suxeitos nun conxunto de referencia dado.

Tecnoloxías recentemente lanzadas como DALL.E2 de OpenAI ou StabilityAI Difusión estable e Midjourney xa están tomando internet por asalto. Agora é o momento de personalizar os resultados. Pero como?

Google DreamBooth AI chegou.

DreamBooth ten a capacidade de recoñecer o tema dunha imaxe, deconstruíla do seu contexto orixinal e, a continuación, sintetizala con precisión nun novo contexto desexado. Ademais, pódese usar cos xeradores de imaxes AI actuais.

Neste artigo, analizaremos en profundidade DreamBooth, o seu uso, o seu tutorial, as súas limitacións e moito máis.

Que é Dreambooth?

cabina de soños, un novo modelo de difusión de texto a imaxe, foi presentado por Google. Google DreamBooth AI pode usar unha indicación escrita como guía para xerar unha ampla gama de fotos do tema seleccionado polo usuario en diferentes configuracións.

Un grupo de investigación da Universidade de Boston e Google desenvolveu DreamBooth, unha técnica de vangarda para alterar modelos de texto a imaxe que foron sometidos a un amplo adestramento previo.

O concepto xeral é bastante sinxelo: queren aumentar o dicionario de visión lingüística de xeito que os ID de token pouco comúns estean asociados a temas personalizados que os usuarios poidan definir.

O obxectivo principal do modelo é conectar aos usuarios ao modelo de difusión texto a imaxe dándolles os recursos necesarios para producir representacións fotorrealistas das instancias da súa materia seleccionada.

Como consecuencia, esta técnica parece funcionar ben para resumir os desafíos nunha serie de situacións.

DreamBooth de Google difire das ferramentas anteriores de texto a imaxe, como DALL-E2, Difusión establee Media viaxe, xa que dá aos usuarios máis control sobre a imaxe do tema antes de deixar que manipulen o modelo de difusión mediante entradas baseadas en texto.

características

DreamBooth AI pode mellorar un modelo de texto a imaxe con 3-5 imaxes.
As fotos fotorrealistas orixinais pódense crear con DreamBooth AI.
Ademais, a IA DreamBooth pode crear fotos dun tema desde varios ángulos.

aplicación

Representacións artísticas

Esta tarefa difire específicamente da transferencia de estilo, que mantén a semántica da escena fonte ao tempo que incorpora o estilo doutra imaxe á escena orixinal.

Representación artística

Baseándose no enfoque creativo, a IA pode realizar alteracións significativas da escena mantendo a identificación e as especificidades da instancia do tema.

Modificación da propiedade

DreamBooth AI pode modificar as características da instancia do asunto.

Modificación da propiedade

Accesorios

A forte composición anterior ao modelo de xeración é o que fai que a capacidade de DreamBooth AI para adornar obxectos sexa tan interesante.

Accesorios

Recontextualización

DreamBooth AI pode producir imaxes distintivas para unha determinada instancia de suxeito dándolle a un modelo adestrado unha frase que inclúa o identificador único e o substantivo da clase.

Recontextualización

Pode xerar o suxeito en posturas, articulacións e estrutura da escena únicas e inéditas antes en lugar de cambiar o entorno. Reflexos e sombras realistas, así como interaccións entre o suxeito e os obxectos circundantes.

Tutorial de Dreambooth

Neste tutorial, imos seguir o Caderno de Google Collab, e vouche guiar por el, o que fará que o entendas e o uses por ti mesmo.

Configurando GPU e instalando bibliotecas

Descubrir que tipos de GPU e VRAM están dispoñibles é o primeiro paso. Tamén é necesario instalar algúns requisitos e dependencias. Só tes que premer o botón de reprodución e agardar a que remate.

Configuración da GPU e instalación de bibliotecas

Crea unha conta en Huggingface e xera un token

O seguinte paso é rexistrarse para crear unha conta de Huggingface. Cando remates, fai clic en Configuración na esquina superior dereita. Chegarás á páxina seguinte.

Token de cara de abrazo

Crea o token e o nome tal e como se solicita desde aquí. O token debe copiarse e pegarse na colaboración de Google na cela de abaixo.

Token en Google Colab

Instalar xformers

Nesta fase, pode simplemente premer o botón de reprodución para instalar xformers facendo clic no tempo de execución.

Instalar Xformers

Conéctate a Drive

Agora só tes que executar esta cela para conectarte a Google Drive.

Conectar a Drive

Introduza a solicitude

Na seguinte cela, só tes que introducir a solicitude.

Introduza o aviso

Cargando imaxes

Neste paso, só tes que cargar as imaxes que querías adestrar.

Podes cargar as túas imaxes nesta cela

Adestrar modelo AI

Esta é a fase máis importante, xa que empregarás DreamBooth para adestrar un novo modelo de IA baseado en todas as túas fotografías de referencia enviadas. Debe limitar a súa atención a dous campos de entrada. "—instance prompt" é o primeiro parámetro. Debes proporcionar aquí un nome moi distinto.

O argumento '–lista de conceptos' é o segundo campo de entrada crítico. Debe cambiarse o nome para que coincida co usado na sección "Cambiar a solicitude".

Modelo de IA de formación

Xera imaxes AI

As imaxes de AI crearanse nesta fase, onde podes introducir as instrucións de texto.

Xerar imaxes AI

Limitacións de Dreambooth

O símbolo do sistema convértese nunha barreira para facer iteracións no tema con altos graos de detalle. DreamBooth pode cambiar o contexto do suxeito, pero se o modelo quere cambiar o propio tema, hai problemas co cadro.
Outro problema é a sobreadaptación da imaxe de saída á imaxe de entrada. Se non se proporcionan suficientes imaxes, o tema pode non ser considerado ou mesturado co contexto das imaxes enviadas. Cando se pregunta un contexto para unha xeración estraña, ocorre o mesmo.

Conclusión

Para producir saídas a partir dunha única entrada de texto, a maioría dos modelos de texto a imaxe requiren millóns de parámetros e bibliotecas.

DreamBooth simplifica a adquisición e o uso de contido para os consumidores ao precisar só a entrada de tres a cinco fotografías temáticas xunto cun fondo textual.

Tutorial de Dreambooth para principiantes

Que é Dreambooth?

características