Índice del contenido[Esconder][Espectáculo]
Los modelos grandes de texto a imagen lograron un avance significativo en el desarrollo de la IA al producir síntesis de imágenes diversificadas y de alta calidad a partir de un mensaje de texto determinado.
Estos modelos no pueden sintetizar representaciones únicas de sujetos en varios entornos o replicar la apariencia de sujetos en un conjunto de referencia dado.
Tecnologías recientemente lanzadas como OpenAI's DALL.E2 o StabilityAI's Difusión estable y Midjourney ya están conquistando Internet. Ahora es el momento de personalizar los resultados. Sin embargo, ¿cómo?
Google DreamBooth AI ha llegado.
DreamBooth tiene la capacidad de reconocer el tema de una imagen, deconstruirlo a partir de su contexto original y luego sintetizarlo con precisión en un nuevo contexto deseado. Además, se puede usar con los generadores de imágenes AI actuales.
En este artículo, analizaremos en profundidad DreamBooth, su uso, su tutorial, sus limitaciones y mucho más.
¿Qué es Dreambooth?
cabina de ensueño, un nuevo modelo de difusión de texto a imagen, fue presentado por Google. Google DreamBooth AI puede utilizar un mensaje escrito como guía para generar una amplia gama de fotos del tema seleccionado por el usuario en diferentes entornos.
Un grupo de investigación de la Universidad de Boston y Google desarrollaron DreamBooth, una técnica de vanguardia para modificar modelos de texto a imagen que se han sometido a un extenso entrenamiento previo.
El concepto general es bastante sencillo: quieren aumentar el diccionario de visión de lenguaje de modo que las ID de token poco comunes se asocien con temas personalizados que los usuarios pueden definir.
El objetivo principal del modelo es conectar a los usuarios con el modelo de difusión de texto a imagen brindándoles los recursos que necesitan para producir representaciones fotorrealistas de las instancias de su tema seleccionado.
Como consecuencia, esta técnica parece funcionar bien para resumir desafíos en una variedad de situaciones.
DreamBooth de Google difiere de las herramientas anteriores de texto a imagen, como DALL-E2, Difusión establey a mitad de camino, ya que brinda a los usuarios más control sobre la imagen del tema antes de permitirles manipular el modelo de difusión mediante entradas basadas en texto.
Caracteristicas
- DreamBooth AI podría mejorar un modelo de texto a imagen con 3-5 imágenes.
- Se pueden crear fotos fotorrealistas originales con DreamBooth AI.
- Además, DreamBooth AI puede crear fotos de un tema desde múltiples ángulos.
Aplicación
representaciones de arte
Esta tarea difiere específicamente de la transferencia de estilo, que mantiene la semántica de la escena de origen mientras incorpora el estilo de otra imagen en la escena original.
Con base en el enfoque creativo, la IA puede lograr alteraciones significativas de la escena mientras mantiene la identificación y las especificaciones de la instancia del tema.
Modificación de propiedad
Las características de la instancia del sujeto pueden ser modificadas por DreamBooth AI.
Accesorios
La fuerte composición anterior al modelo de generación es lo que hace que la capacidad de DreamBooth AI para adornar objetos sea tan interesante.
recontextualización
DreamBooth AI puede producir imágenes distintivas para una determinada instancia de sujeto al darle a un modelo entrenado una oración que incluya el identificador único y el nombre de la clase.
Puede generar al sujeto en posturas, articulaciones y estructuras escénicas únicas e inéditas en lugar de cambiar el entorno. Reflejos y sombras realistas, así como interacciones entre el sujeto y los objetos circundantes.
Tutorial de Dreambooth
En este tutorial, seguiremos el Bloc de notas de colaboración de Google, y lo guiaré a través de él, lo que hará que lo entienda y lo use por su cuenta.
Configuración de GPU e instalación de bibliotecas
Averiguar qué tipos de GPU y VRAM están disponibles es el primer paso. También es necesario instalar algunos requisitos y dependencias. Simplemente presione el botón de reproducción, luego espere a que termine.
Crea una cuenta en Huggingface y genera un token
El siguiente paso es registrarse para obtener una cuenta de Huggingface. Cuando haya terminado, haga clic en configuración en la esquina superior derecha. Llegarás a la página siguiente.
Cree el token y el nombre según lo solicitado desde aquí. El token debe copiarse y pegarse en la colaboración de Google en la celda a continuación.
Instalar xformers
En esta etapa, simplemente puede presionar el botón de reproducción para instalar xformers haciendo clic en el tiempo de ejecución.
Conectar a la unidad
Ahora, solo tiene que ejecutar esta celda para conectarse a Google Drive.
Ingrese el indicador
En la siguiente celda, solo tienes que ingresar el aviso.
Subiendo fotos
En este paso, solo tienes que subir las fotos que querías entrenar.
Entrenar modelo de IA
Esta es la fase más importante, ya que utilizará DreamBooth para entrenar un nuevo modelo de IA basado en todas las fotografías de referencia enviadas. Debe limitar su atención a dos campos de entrada. “—instance prompt” es el primer parámetro. Debe proporcionar un nombre muy distinto aquí.
El argumento '–concept list' es el segundo campo de entrada crítico. Debe cambiarse el nombre para que coincida con el utilizado en la sección 'Cambiar el aviso'.
Generar imágenes de IA
Las imágenes de IA se crearán en esta etapa, donde puede ingresar las instrucciones de texto.
Limitaciones de Dreambooth
- El símbolo del sistema se convierte en una barrera para realizar iteraciones en el tema con un alto grado de detalle. DreamBooth puede cambiar el contexto del tema, pero si el modelo desea cambiar el tema en sí, hay problemas con el marco.
- Otro problema es sobreajustar la imagen de salida a la imagen de entrada. Si no se proporcionan suficientes imágenes, es posible que el tema no se considere o se mezcle con el contexto de las imágenes enviadas. Cuando se pregunta un contexto para una generación impar, sucede lo mismo.
Conclusión
Para producir resultados a partir de una sola entrada de texto, la mayor parte de los modelos de texto a imagen requieren millones de parámetros y bibliotecas.
DreamBooth simplifica la adquisición y el uso de contenido para los consumidores al requerir solo la entrada de tres a cinco fotografías temáticas junto con un fondo de texto.
Deje un comentario