Taula de continguts[Amaga][Espectacle]
El més probable és que sàpigues que un ordinador pot descriure una imatge.
Per exemple, una imatge d'un gos jugant amb els vostres fills es pot traduir com "gos i nens al jardí". Però, sabíeu que ara també és factible el camí contrari? Escriu algunes paraules i la màquina genera una imatge nova.
A diferència d'una cerca de Google, que cerca fotografies existents, tot això és fresc. En els últims anys, OpenAI ha estat una de les organitzacions líders, informant de resultats sorprenents.
Entrenen els seus algorismes en bases de dades massives de text i imatges. Van publicar un article sobre el seu model d'imatge GLIDE, que es va formar amb centenars de milions de fotografies. Pel que fa al fotorealisme, supera el seu model anterior "DALL-E".
En aquesta publicació, veurem GLIDE d'OpenAI, una de les diverses iniciatives fascinants destinades a produir i alterar imatges fotorealistes amb models de difusió guiats per text. Anem a començar.
Què és Obriu AI Glide?
Tot i que la majoria d'imatges es poden descriure amb paraules, la creació d'imatges a partir d'entrada de text requereix coneixements especialitzats i una quantitat significativa de temps.
Permetre que un agent d'IA produeixi imatges fotorealistes a partir d'indicacions del llenguatge natural no només permet que les persones creïn material visual ric i divers amb una facilitat sense precedents, sinó que també permet un refinament iteratiu més senzill i un control detallat de les imatges creades.
GLIDE es pot utilitzar per editar fotos existents utilitzant indicacions de text en llenguatge natural per inserir objectes nous, crear ombres i reflexos, realitzar pintura d'imatge, I així successivament.
També pot convertir dibuixos bàsics de línies en fotografies fotorealistes i té capacitats excepcionals de fabricació i reparació de mostres zero per a situacions complexes.
Investigacions recents han demostrat que els models de difusió basats en la probabilitat també poden produir imatges sintètiques d'alta qualitat, sobretot quan es combinen amb un enfocament orientador que equilibra varietat i fidelitat.
OpenAI va publicar a model de difusió guiada al maig, que permet que els models de difusió estiguin condicionats a les etiquetes d'un classificador. GLIDE millora aquest èxit aportant una difusió guiada al problema de la creació d'imatges condicionades al text.
Després d'entrenar un model de difusió GLIDE de 3.5 milions de paràmetres mitjançant un codificador de text per condicionar les descripcions en llenguatge natural, els investigadors van provar dues estratègies de guia alternatives: la guia CLIP i la guia sense classificador.
CLIP és una tècnica escalable per aprendre representacions conjuntes de text i imatges que ofereix una puntuació basada en la proximitat d'una imatge a un subtítol.
L'equip va utilitzar aquesta estratègia en els seus models de difusió substituint el classificador per un model CLIP que "guia" els models. Mentrestant, l'orientació sense classificadors és una estratègia per dirigir models de difusió que no impliquen l'entrenament d'un classificador separat.
Arquitectura GLIDE
L'arquitectura GLIDE consta de tres components: un model de difusió ablat (ADM) entrenat per generar una imatge de 64 × 64, un model de text (transformador) que influeix en la generació d'imatges mitjançant un missatge de text i un model de mostreig superior que converteix el nostre petit 64 × 64. imatges a 256 x 256 píxels més interpretables.
Els dos primers components treballen conjuntament per controlar el procés de generació d'imatges de manera que reflecteixi adequadament el missatge de text, mentre que el segon és necessari per facilitar la comprensió de les imatges que creem. El projecte GLIDE es va inspirar en a informe publicat l'any 2021 això va demostrar que les tècniques ADM van superar els models generatius d'última generació populars actualment en termes de qualitat de mostra d'imatge.
Per a l'ADM, els autors de GLIDE van emprar el mateix model ImageNet 64 x 64 que Dhariwal i Nichol, però amb 512 canals en lloc de 64. El model ImageNet té aproximadament 2.3 milions de paràmetres com a resultat d'això.
L'equip GLIDE, a diferència de Dhariwal i Nichol, volia tenir un major control directe sobre el procés de generació d'imatges, per la qual cosa van combinar el model visual amb un transformador d'atenció. GLIDE us ofereix un cert control sobre la sortida del procés de generació d'imatges processant les sol·licituds d'entrada de text.
Això s'aconsegueix entrenant el model del transformador en un conjunt de dades adequadament gran de fotos i subtítols (similar al que s'utilitza en el projecte DALL-E).
El text es codifica inicialment en una sèrie de fitxes K per tal de condicionar-lo. Després d'això, les fitxes es carreguen en un model de transformador. Aleshores, la sortida del transformador es pot utilitzar de dues maneres. Per al model ADM, s'utilitza la incrustació de testimoni final en lloc de la incrustació de classe.
En segon lloc, la capa final de les incrustacions de testimonis, una sèrie de vectors de característiques, es projecta de manera independent a les dimensions de cada capa d'atenció al model ADM i es concatena a cada context d'atenció.
En realitat, això permet que el model ADM produeixi una imatge a partir de noves combinacions de fitxes de text similars d'una manera única i fotorealista, basant-se en la seva comprensió apresa de les paraules d'entrada i les seves imatges relacionades. Aquest transformador de codificació de text conté 1.2 milions de paràmetres i utilitza 24 blocs sobrants amb una amplada de 2048.
Finalment, el model de difusió del upsampler inclou uns 1.5 milions de paràmetres i varia del model bàsic perquè el seu codificador de text és més petit, amb una amplada de 1024 i 384 canals base, en comparació amb el model base. Aquest model, com el seu nom indica, ajuda a l'actualització de la mostra per tal de millorar la interpretació tant per a màquines com per a humans.
Model de difusió
GLIDE genera imatges utilitzant la seva pròpia versió de l'ADM (ADM-G per "guiada"). El model ADM-G és una modificació del model U-net de difusió. Un model U-net de difusió difereix enormement de les tècniques de síntesi d'imatges més comunes com ara VAE, GAN i transformadors.
Construeixen una cadena de Markov de passos de difusió per injectar gradualment soroll aleatori a les dades i després aprenen a revertir el procés de difusió i reconstrueixen les mostres de dades necessàries només a partir del soroll. Funciona en dues etapes: difusió directa i inversa.
El mètode de difusió cap endavant, donat un punt de dades de la distribució real de la mostra, afegeix una petita quantitat de soroll a la mostra en una sèrie de passos preestablerts. A mesura que els passos augmenten de mida i s'acosten a l'infinit, la mostra perd totes les característiques reconeixibles i la seqüència comença a semblar-se a una corba gaussiana isòtropa.
Durant la difusió cap enrere fase, el model de difusió aprèn a revertir la influència del soroll afegit a les imatges i a tornar la imatge produïda a la seva forma original intentant assemblar-se a la distribució original de la mostra d'entrada.
Un model completat podria fer-ho amb una entrada de soroll gaussià real i una indicació. El mètode ADM-G varia de l'anterior en què un model, ja sigui CLIP o un transformador personalitzat, afecta la fase de difusió cap enrere utilitzant les fitxes d'indicació de text que s'introdueixen.
Capacitats de lliscament
1. Generació d'Imatge
L'ús més popular i utilitzat de GLIDE probablement serà la síntesi d'imatges. Tot i que les imatges són modestes i GLIDE té dificultats amb les formes animals/humanes, el potencial per a la producció d'imatges d'un sol cop és gairebé infinit.
Pot crear fotos d'animals, celebritats, paisatges, edificis i molt més, i ho pot fer en una varietat d'estils d'art, així com de manera fotorealista. Els autors dels investigadors afirmen que GLIDE és capaç d'interpretar i adaptar una àmplia varietat d'entrades textuals en un format visual, tal com es veu a les mostres següents.
2. Llisca en pintura
La pintura automàtica de fotos de GLIDE és sens dubte l'ús més fascinant. GLIDE pot prendre una imatge existent com a entrada, processar-la tenint en compte el missatge de text per a les ubicacions que s'han d'alterar i, a continuació, fer modificacions actives a aquestes parts amb facilitat.
S'ha d'utilitzar juntament amb un model d'edició, com SDEdit, per produir resultats encara millors. En el futur, les aplicacions que aprofiten capacitats com aquestes poden ser crucials per desenvolupar enfocaments d'alteració d'imatges sense codi.
Conclusió
Ara que hem passat pel procés, hauríeu de comprendre els fonaments de com funciona GLIDE, així com l'amplitud de les seves capacitats en la creació d'imatges i la modificació d'imatges.
Deixa un comentari