Índice del contenido[Esconder][Espectáculo]
Lo más probable es que sepa que una computadora puede describir una imagen.
Por ejemplo, una imagen de un perro jugando con sus hijos se puede traducir como 'perro y niños en el jardín'. Pero, ¿sabías que ahora también es posible hacer lo contrario? Escribe algunas palabras y la máquina genera una nueva imagen.
A diferencia de una búsqueda de Google, que busca fotografías existentes, todo esto es nuevo. En los últimos años, OpenAI ha sido una de las organizaciones líderes, reportando resultados asombrosos.
Entrenan sus algoritmos en bases de datos masivas de texto e imágenes. Publicaron un artículo sobre su modelo de imagen GLIDE, que fue entrenado en cientos de millones de fotos. En términos de fotorrealismo, supera a su modelo anterior 'DALL-E'.
En esta publicación, veremos GLIDE de OpenAI, una de varias iniciativas fascinantes destinadas a producir y alterar imágenes fotorrealistas con modelos de difusión guiados por texto. Vamos a empezar.
Que es Deslizamiento AI abierto?
Si bien la mayoría de las imágenes se pueden describir con palabras, la creación de imágenes a partir de entradas de texto requiere conocimientos especializados y una cantidad significativa de tiempo.
Permitir que un agente de IA produzca imágenes fotorrealistas a partir de indicaciones de lenguaje natural no solo permite a las personas crear material visual rico y diverso con una facilidad sin precedentes, sino que también permite un refinamiento iterativo más simple y un control detallado de las imágenes creadas.
GLIDE se puede utilizar para editar fotografías existentes utilizando indicaciones de texto en lenguaje natural para insertar nuevos objetos, crear sombras y reflejos, realizar imagen en pintura, Y así sucesivamente.
También puede convertir dibujos lineales básicos en fotografías fotorrealistas, y tiene capacidades excepcionales de fabricación y reparación de muestra cero para situaciones complejas.
Investigaciones recientes han demostrado que los modelos de difusión basados en la probabilidad también pueden producir imágenes sintéticas de alta calidad, especialmente cuando se combinan con un enfoque de orientación que equilibra la variedad y la fidelidad.
OpenAI publicó un modelo de difusión guiada en mayo, que permite condicionar los modelos de difusión a las etiquetas de un clasificador. GLIDE mejora este éxito al llevar la difusión guiada al problema de la creación de imágenes condicionadas por texto.
Después de entrenar un modelo de difusión GLIDE de 3.5 millones de parámetros utilizando un codificador de texto para condicionar descripciones en lenguaje natural, los investigadores probaron dos estrategias de guía alternativas: guía CLIP y guía sin clasificador.
CLIP es una técnica escalable para aprender representaciones conjuntas de texto e imágenes que ofrece una puntuación basada en qué tan cerca está una imagen de un pie de foto.
El equipo usó esta estrategia en sus modelos de difusión al sustituir el clasificador con un modelo CLIP que "guía" los modelos. Mientras tanto, la guía sin clasificador es una estrategia para dirigir modelos de difusión que no implican el entrenamiento de un clasificador separado.
Arquitectura deslizante
La arquitectura GLIDE consta de tres componentes: un modelo de difusión ablado (ADM) entrenado para generar una imagen de 64 × 64, un modelo de texto (transformador) que influye en la generación de imágenes a través de un mensaje de texto y un modelo de muestreo superior que convierte nuestro pequeño 64 × 64 imágenes a 256 x 256 píxeles más interpretables.
Los primeros dos componentes trabajan juntos para controlar el proceso de generación de imágenes para que refleje adecuadamente el mensaje de texto, mientras que el último es necesario para hacer que las imágenes que creamos sean más fáciles de comprender. El proyecto GLIDE se inspiró en un informe publicado en 2021 que mostró que las técnicas ADM superaron a los modelos generativos de última generación actualmente populares en términos de calidad de muestra de imagen.
Para ADM, los autores de GLIDE emplearon el mismo modelo ImageNet 64 x 64 que Dhariwal y Nichol, pero con 512 canales en lugar de 64. Como resultado, el modelo ImageNet tiene aproximadamente 2.3 millones de parámetros.
El equipo de GLIDE, a diferencia de Dhariwal y Nichol, quería tener un mayor control directo sobre el proceso de generación de imágenes, por lo que combinaron el modelo visual con un transformador habilitado para la atención. GLIDE le brinda cierto control sobre la salida del proceso de generación de imágenes al procesar las indicaciones de entrada de texto.
Esto se logra entrenando el modelo de transformador en un conjunto de datos adecuadamente grande de fotos y leyendas (similar al empleado en el proyecto DALL-E).
El texto se codifica inicialmente en una serie de tokens K para condicionarlo. Después de eso, los tokens se cargan en un modelo de transformador. La salida del transformador se puede utilizar de dos maneras. Para el modelo ADM, se utiliza la incorporación de token final en lugar de la incorporación de clase.
En segundo lugar, la capa final de las incrustaciones de tokens, una serie de vectores de funciones, se proyecta de forma independiente a las dimensiones de cada capa de atención en el modelo ADM y se concatena a cada contexto de atención.
En realidad, esto permite que el modelo ADM produzca una imagen a partir de nuevas combinaciones de tokens de texto similares de una manera única y fotorrealista, basada en su comprensión aprendida de las palabras de entrada y sus imágenes relacionadas. Este transformador de codificación de texto contiene 1.2 millones de parámetros y emplea 24 bloques sobrantes con un ancho de 2048.
Finalmente, el modelo de difusión de upsampler incluye alrededor de 1.5 millones de parámetros y difiere del modelo básico en que su codificador de texto es más pequeño, con un ancho de 1024 y 384 canales base, en comparación con el modelo base. Este modelo, como su nombre lo indica, ayuda en la actualización de la muestra para mejorar la interpretabilidad tanto para máquinas como para humanos.
modelo de difusión
GLIDE genera imágenes utilizando su propia versión del ADM (ADM-G para "guiado"). El modelo ADM-G es una modificación del modelo U-net de difusión. Un modelo U-net de difusión difiere drásticamente de las técnicas de síntesis de imágenes más comunes, como VAE, GAN y transformadores.
Construyen una cadena de Markov de pasos de difusión para inyectar gradualmente ruido aleatorio en los datos y luego aprenden a revertir el proceso de difusión y reconstruir las muestras de datos requeridas solo a partir del ruido. Opera en dos etapas: difusión directa e inversa.
El método de difusión directa, dado un punto de datos de la distribución real de la muestra, agrega una pequeña cantidad de ruido a la muestra en una serie de pasos preestablecidos. A medida que los pasos aumentan de tamaño y se acercan al infinito, la muestra pierde todas las características reconocibles y la secuencia comienza a parecerse a una curva gaussiana isotrópica.
Durante la difusión hacia atrás fase, el modelo de difusión aprende a revertir la influencia del ruido agregado en las imágenes y lleva la imagen producida de regreso a su forma original al intentar parecerse a la distribución de muestra de entrada original.
Un modelo completo podría hacerlo con una entrada de ruido gaussiano real y un aviso. El método ADM-G difiere del anterior en que un modelo, ya sea CLIP o un transformador personalizado, afecta la fase de difusión hacia atrás al emplear los tokens de aviso de texto que se ingresan.
Capacidades de deslizamiento
1. Generación de Imagen
El uso más popular y ampliamente utilizado de GLIDE será probablemente la síntesis de imágenes. Aunque las imágenes son modestas y GLIDE tiene dificultades con las formas animales/humanas, el potencial para la producción de imágenes de una sola toma es casi infinito.
Puede crear fotos de animales, celebridades, paisajes, edificios y mucho más, y puede hacerlo en una variedad de estilos artísticos, así como con realismo fotográfico. Los autores de los investigadores afirman que GLIDE es capaz de interpretar y adaptar una amplia variedad de entradas textuales a un formato visual, como se ve en los ejemplos a continuación.
2. deslizamiento en la pintura
La pintura automática de fotografías de GLIDE es posiblemente el uso más fascinante. GLIDE puede tomar una imagen existente como entrada, procesarla con el mensaje de texto en mente para las ubicaciones que deben modificarse y luego realizar modificaciones activas en esas partes con facilidad.
Debe usarse junto con un modelo de edición, como SDEdit, para producir resultados aún mejores. En el futuro, las aplicaciones que aprovechen capacidades como estas podrían ser cruciales para desarrollar enfoques de alteración de imágenes sin código.
Conclusión
Ahora que hemos pasado por el proceso, debe comprender los fundamentos de cómo funciona GLIDE, así como la amplitud de sus capacidades en la creación de imágenes y la modificación de imágenes.
Deje un comentario