Índice analítico[Ocultar][Mostrar]
Probablemente estea consciente de que un ordenador pode describir unha imaxe.
Por exemplo, unha imaxe dun can xogando cos teus fillos pódese traducir como "can e nenos no xardín". Pero sabías que o camiño oposto tamén é factible? Escribe algunhas palabras e a máquina xera unha nova imaxe.
A diferenza dunha busca en Google, que busca fotografías existentes, todo isto é novo. Nos últimos anos, OpenAI foi unha das principais organizacións, que reportou resultados sorprendentes.
Adestran os seus algoritmos en bases de datos masivas de textos e imaxes. Publicaron un artigo sobre o seu modelo de imaxe GLIDE, que foi adestrado en centos de millóns de fotos. En termos de fotorrealismo, supera o seu modelo anterior "DALL-E".
Neste post, veremos o GLIDE de OpenAI, unha das varias iniciativas fascinantes dirixidas a producir e alterar imaxes fotorrealistas con modelos de difusión guiados por texto. Imos comezar.
O que é Abre AI Glide?
Aínda que a maioría das imaxes pódense describir con palabras, a creación de imaxes a partir de entradas de texto require coñecementos especializados e unha cantidade significativa de tempo.
Permitir que un axente de IA produza imaxes fotorrealistas a partir de indicacións da linguaxe natural non só permite ás persoas crear material visual rico e diverso cunha facilidade sen precedentes, senón que tamén permite un refinamento iterativo máis sinxelo e un control fino das imaxes creadas.
GLIDE pódese usar para editar fotos existentes utilizando indicacións de texto en linguaxe natural para inserir novos obxectos, crear sombras e reflexos, realizar pintura de imaxesE así por diante.
Tamén pode converter debuxos básicos en fotografías fotorrealistas e ten capacidades excepcionais de fabricación e reparación de mostras cero para situacións complexas.
Investigacións recentes demostraron que os modelos de difusión baseados na probabilidade tamén poden producir imaxes sintéticas de alta calidade, especialmente cando se combinan cun enfoque orientador que equilibra variedade e fidelidade.
OpenAI publicou a modelo de difusión guiada en maio, o que permite que os modelos de difusión estean condicionados ás etiquetas dun clasificador. GLIDE mellora este éxito ao achegar a difusión guiada ao problema da creación de imaxes condicionadas ao texto.
Despois de adestrar un modelo de difusión GLIDE de 3.5 millóns de parámetros utilizando un codificador de texto para condicionar as descricións da linguaxe natural, os investigadores probaron dúas estratexias de orientación alternativas: orientación CLIP e orientación sen clasificadores.
CLIP é unha técnica escalable para aprender representacións conxuntas de texto e imaxes que proporciona unha puntuación baseada na proximidade dunha imaxe a un subtítulo.
O equipo utilizou esta estratexia nos seus modelos de difusión substituíndo o clasificador por un modelo CLIP que "guía" os modelos. Mentres tanto, a orientación sen clasificadores é unha estratexia para dirixir modelos de difusión que non implican o adestramento dun clasificador separado.
Arquitectura GLIDE
A arquitectura GLIDE consta de tres compoñentes: un modelo de difusión ablada (ADM) adestrado para xerar unha imaxe de 64 × 64, un modelo de texto (transformador) que inflúe na xeración de imaxes mediante un aviso de texto e un modelo de mostraxe superior que converte o noso pequeno 64 × 64. imaxes a 256 x 256 píxeles máis interpretables.
Os dous primeiros compoñentes traballan xuntos para controlar o proceso de xeración de imaxes para que reflicta adecuadamente a solicitude de texto, mentres que o segundo é necesario para que as imaxes que creamos sexan máis fáciles de comprender. O proxecto GLIDE inspirouse en a informe publicado en 2021 que demostrou que as técnicas ADM superaron os modelos xerativos de última xeración actualmente populares en canto á calidade da mostra de imaxe.
Para o ADM, os autores de GLIDE empregaron o mesmo modelo ImageNet 64 x 64 que Dhariwal e Nichol, pero con 512 canles en lugar de 64. O modelo ImageNet ten aproximadamente 2.3 millóns de parámetros como resultado diso.
O equipo GLIDE, a diferenza de Dhariwal e Nichol, quería ter un maior control directo sobre o proceso de xeración de imaxes, polo que combinaron o modelo visual cun transformador de atención. GLIDE ofrécelle certo control sobre a saída do proceso de xeración de imaxes procesando as solicitudes de entrada de texto.
Isto conséguese adestrando o modelo do transformador nun conxunto de datos suficientemente grande de fotos e subtítulos (similar ao empregado no proxecto DALL-E).
O texto codifica inicialmente nunha serie de fichas K para condicionalo. Despois diso, as fichas cárganse nun modelo de transformador. A saída do transformador pódese usar de dúas maneiras. Para o modelo ADM, utilízase a incorporación de token final en lugar da incrustación de clases.
En segundo lugar, a capa final das incrustacións de tokens, unha serie de vectores de características, proxéctase de forma independente ás dimensións de cada capa de atención no modelo ADM e concatenase a cada contexto de atención.
En realidade, isto permite que o modelo ADM produza unha imaxe a partir de novas combinacións de tokens de texto similares dunha forma única e fotorrealista, baseándose na súa comprensión aprendida das palabras introducidas e as súas imaxes relacionadas. Este transformador de codificación de texto contén 1.2 millóns de parámetros e emprega 24 bloques sobrantes cun ancho de 2048.
Finalmente, o modelo de difusión do upsampler inclúe uns 1.5 millóns de parámetros e varía do modelo básico en que o seu codificador de texto é máis pequeno, cunha anchura de 1024 e 384 canles base, en comparación co modelo base. Este modelo, como o nome indica, axuda na actualización da mostra co fin de mellorar a interpretación tanto para máquinas como para humanos.
Modelo de difusión
GLIDE xera imaxes usando a súa propia versión do ADM (ADM-G para "guiado"). O modelo ADM-G é unha modificación do modelo U-net de difusión. Un modelo de U-net de difusión difire drasticamente das técnicas de síntese de imaxes máis comúns como VAE, GAN e transformadores.
Constrúen unha cadea de pasos de difusión de Markov para inxectar ruído aleatorio aos datos, e despois aprenden a reverter o proceso de difusión e reconstruír as mostras de datos necesarias só a partir do ruído. Funciona en dúas etapas: difusión directa e inversa.
O método de difusión directa, dado un punto de datos da verdadeira distribución da mostra, engade unha pequena cantidade de ruído á mostra durante unha serie de pasos predeterminados. A medida que os pasos aumentan de tamaño e achéganse ao infinito, a mostra perde todas as características recoñecibles e a secuencia comeza a parecerse a unha curva gaussiana isotrópica.
Durante a difusión cara atrás fase, o modelo de difusión aprende a reverter a influencia do ruído engadido nas imaxes e a levar a imaxe producida de volta á súa forma orixinal tentando asemellarse á distribución orixinal da mostra de entrada.
Un modelo completo podería facelo cunha entrada de ruído gaussiano real e un aviso. O método ADM-G varía do anterior en que un modelo, xa sexa CLIP ou un transformador personalizado, afecta a fase de difusión cara atrás empregando as fichas de texto que se introducen.
Capacidades de deslizamento
1. Xeración de Imaxe
O uso máis popular e amplamente utilizado de GLIDE probablemente sexa a síntese de imaxes. Aínda que as imaxes son modestas e GLIDE ten dificultades coas formas animais/humanas, o potencial para a produción de imaxes dunha toma é case infinito.
Pode crear fotos de animais, famosos, paisaxes, edificios e moito máis, e pode facelo nunha variedade de estilos artísticos, así como de forma fotorrealista. Os autores dos investigadores afirman que GLIDE é capaz de interpretar e adaptar unha ampla variedade de entradas textuais nun formato visual, como se ve nas mostras a continuación.
2. Deslizar en pintura
A pintura automática de fotos de GLIDE é sen dúbida o uso máis fascinante. GLIDE pode tomar unha imaxe existente como entrada, procesala tendo en conta a solicitude de texto para as localizacións que hai que modificar e, a continuación, realizar modificacións activas nesas partes con facilidade.
Debe usarse xunto cun modelo de edición, como SDEdit, para producir resultados aínda mellores. No futuro, as aplicacións que aproveiten capacidades como estas poden ser cruciais para desenvolver enfoques de alteración de imaxes sen código.
Conclusión
Agora que realizamos o proceso, debes comprender os fundamentos de como funciona GLIDE, así como a amplitude das súas capacidades na creación de imaxes e a modificación na imaxe.
Deixe unha resposta