Taula de continguts[Amaga][Espectacle]
En els darrers anys, els models d'aprenentatge profund s'han tornat més efectius per entendre el llenguatge humà.
Penseu en projectes com GPT-3, que ara és capaç de crear articles i llocs web sencers. GitHub s'ha presentat recentment GitHub Copilot, un servei que proporciona fragments de codi sencers simplement descrivint el tipus de codi que necessiteu.
Els investigadors d'OpenAI, Facebook i Google han estat treballant en maneres d'utilitzar l'aprenentatge profund per gestionar una altra tasca: subtitular imatges. Utilitzant un gran conjunt de dades amb milions d'entrades, n'han creat algunes sorprenent resultats.
Darrerament, aquests investigadors han intentat fer la tasca contrària: crear imatges a partir d'un subtítol. Ara és possible crear una imatge completament nova a partir d'una descripció?
Aquesta guia explorarà dos dels models de text a imatge més avançats: DALL-E 2 d'OpenAI i Imagen AI de Google. Cadascun d'aquests projectes ha introduït mètodes innovadors que poden canviar la societat tal com la coneixem.
Però primer, entenem què entenem per generació de text a imatge.
Què és la generació de text a imatge?
Models de text a imatge permet que els ordinadors creïn imatges noves i úniques basades en instruccions. Les persones ara poden proporcionar una descripció de text d'una imatge que volen produir, i el model intentarà crear una imatge que coincideixi amb aquesta descripció el més a prop possible.
Els models d'aprenentatge automàtic han aprofitat l'ús de grans conjunts de dades que contenen parells de subtítols d'imatge per millorar encara més el rendiment.
La majoria de text a imatge Els models utilitzen un model de llenguatge transformador per interpretar les indicacions. Aquest tipus de model és a xarxa neural que intenta aprendre el context i el significat semàntic del llenguatge natural.
A continuació, models generatius com ara models de difusió i les xarxes adversaries generatives s'utilitzen per a la síntesi d'imatges.
Què és DALLE 2?
DALL-E2 és un model informàtic d'OpenAI que es va publicar l'abril de 2022. El model es va entrenar en una base de dades de milions d'imatges etiquetades per associar paraules i frases amb imatges.
Els usuaris poden escriure una frase senzilla, com ara "un gat menjant lasanya", i DALL-E 2 generarà la seva pròpia interpretació del que la frase està intentant descriure.
A més de crear imatges des de zero, DALL-E 2 també pot editar imatges existents. A l'exemple següent, DALL-E va poder generar una imatge modificada d'una habitació amb un sofà afegit.
DALL-E 2 és només un dels molts projectes similars que OpenAI ha llançat en els últims anys. El GPT-3 d'OpenAI es va fer notícia quan semblava que generava text d'estils diferents.
Actualment, DALL-E 2 encara està en prova beta. Els usuaris interessats poden registrar-se al seu llista d'espera i esperar l'accés.
Com funciona?
Tot i que els resultats de DALL-E 2 són impressionants, potser us preguntareu com funciona tot.
DALL-E 2 és un exemple d'implementació multimodal del projecte GPT-3 d'OpenAI.
En primer lloc, el missatge de text de l'usuari es col·loca en un codificador de text que mapeja el missatge a un espai de representació. DALL-E 2 utilitza un altre model OpenAI anomenat CLIP (Contrastive Language-Image Pre-Training) per obtenir informació semàntica del llenguatge natural.
A continuació, un model conegut com a anterior mapeja la codificació de text en una codificació d'imatge. Aquesta codificació de la imatge hauria de capturar la informació semàntica que es troba al pas de codificació del text.
Per crear la imatge real, DALL-E 2 utilitza un descodificador d'imatge per generar un visual mitjançant informació semàntica i detalls de codificació d'imatges. OpenAI utilitza una versió modificada del fitxer PROGRAMA model per realitzar la generació d'imatges. GLIDE es basa en a model de difusió per crear imatges.
L'addició de GLIDE al model DALL-E 2 va permetre una sortida més fotorealista. Com que el model GLIDE és estocàstic o es determina aleatòriament, el model DALL-E 2 pot crear variacions fàcilment executant el model una i altra vegada.
Limitacions
Malgrat els impressionants resultats del model DALL-E 2, encara s'enfronta a algunes limitacions.
Text ortogràfic
Les indicacions que intenten fer que DALL-E 2 generi text revelen que té dificultats per escriure paraules. Els experts assumeixen que això pot ser perquè la informació ortogràfica no forma part del conjunt de dades de formació.
Raonament compositiu
Els investigadors observen que DALL-E 2 encara té algunes dificultats amb el raonament compositiu. En poques paraules, el model pot entendre aspectes individuals d'una imatge mentre encara té problemes per esbrinar les relacions entre aquests aspectes.
Per exemple, si se'ls indica "cub vermell a sobre d'un cub blau", DALL-E generarà un cub blau i un cub vermell amb precisió, però no els col·locarà correctament. També s'ha observat que el model té dificultats amb les indicacions que requereixen extreure un nombre específic d'objectes.
Biaix en el conjunt de dades
Si el missatge no conté altres detalls, s'ha observat que DALL-E representa persones i entorns blancs o occidentals. Aquest biaix de representació es produeix a causa de l'abundància d'imatges centrades en l'occident al conjunt de dades.
També s'ha observat que el model segueix els estereotips de gènere. Per exemple, escriure el missatge "assistent de vol" genera majoritàriament imatges de dones assistents de vol.
Què és Google Imagen AI?
De Google Imatge AI és un model que pretén crear imatges fotorealistes a partir del text d'entrada. Similar a DALL-E, el model també utilitza models de llenguatge transformador per entendre el text i es basa en l'ús de models de difusió per crear imatges d'alta qualitat.
Al costat d'Imagen, Google també ha llançat un punt de referència per als models de text a imatge anomenat DrawBench. Amb DrawBench, van poder observar que els avaluadors humans preferien la sortida d'Imatge sobre altres models, inclòs DALL-E 2.
Com funciona?
De manera semblant a DALL-E, Imagen converteix primer la indicació de l'usuari en una incrustació de text mitjançant un codificador de text congelat.
Imagen utilitza un model de difusió que aprèn a convertir un patró de soroll en imatges. La sortida inicial d'aquestes imatges és de baixa resolució i després es passa per un altre model conegut com a model de difusió de superresolució per augmentar la resolució de la imatge final. El primer model de difusió produeix una imatge de 64 × 64 píxels i més tard s'infla fins a una imatge d'alta resolució de 1024 × 1024.
D'acord amb la investigació de l'equip d'Image, els grans models de llenguatge congelat entrenats només amb dades de text segueixen sent codificadors de text molt eficaços per a la generació de text a imatge.
L'estudi també introdueix el concepte de llindar dinàmic. Aquest mètode permet que les imatges semblin més fotorealistes augmentant els pesos de guia quan es genera la imatge.
Actuació de DALLE 2 vs Imagen
Els resultats preliminars del punt de referència de Google mostren que els enquestats humans prefereixen les imatges generades per Imagen sobre DALL-E 2 i altres models de text a imatge com ara Latent Diffusion i VQGAN+CLIP.
Els resultats de l'equip d'Imagen també han demostrat que el seu model funciona millor en l'ortografia del text, una debilitat coneguda del model DALL-E 2.
No obstant això, com que Google encara no ha donat a conèixer el model al públic, encara s'ha de veure la precisió dels punts de referència de Google.
Conclusió
L'augment dels models fotorealistes de text a imatge és controvertit perquè aquests models estan madurs per a un ús poc ètic.
La tecnologia pot conduir a la creació de contingut explícit o com a eina de desinformació. Els investigadors tant de Google com d'OpenAI en són conscients, motiu pel qual aquestes tecnologies encara no són accessibles per a tothom.
Els models de text a imatge també tenen implicacions econòmiques importants. Professions com ara models, fotògrafs i artistes es veuran afectades si models com DALL-E esdevenen corrents?
De moment, aquests models encara tenen limitacions. Mantenir qualsevol imatge generada per IA per examinar-ne en revelarà les imperfeccions. Amb OpenAI i Google competint pels models més efectius, pot ser qüestió de temps que es generi un resultat realment perfecte: una imatge que no es distingeix de la real.
Què creus que passarà quan la tecnologia arribi tan lluny?
Deixa un comentari