Es probable que estemos justo al comienzo de una nueva revolución generativa de IA.
La inteligencia artificial generativa se refiere a algoritmos y modelos que son capaces de crear contenido. La salida de dichos modelos incluye texto, audio e imágenes que a menudo pueden confundirse con la salida humana real.
Aplicaciones como ChatGPT han demostrado que la IA generativa no es una mera novedad. AI ahora es capaz de seguir instrucciones detalladas y parece tener una comprensión profunda de cómo funciona el mundo.
Pero, ¿cómo llegamos a este punto? En esta guía, repasaremos algunos de los avances clave en la investigación de la IA que allanaron el camino para esta nueva y emocionante revolución generativa de la IA.
El auge de las redes neuronales
Puede rastrear los orígenes de la IA moderna hasta la investigación sobre aprendizaje profundo y redes neuronales en el 2012.
En ese año, Alex Krizhevsky y su equipo de la Universidad de Toronto pudieron lograr un algoritmo de alta precisión que puede clasificar objetos.
El red neuronal de última generación, conocido ahora como AlexNet, pudo clasificar objetos en la base de datos visual de ImageNet con una tasa de error mucho más baja que el subcampeón.
Redes neuronales son algoritmos que usan una red de funciones matemáticas para aprender un comportamiento particular basado en algunos datos de entrenamiento. Por ejemplo, puede alimentar datos médicos de una red neuronal para entrenar el modelo para diagnosticar una enfermedad como el cáncer.
La esperanza es que la red neuronal encuentre lentamente patrones en los datos y se vuelva más precisa cuando se le proporcionen datos novedosos.
AlexNet fue una aplicación revolucionaria de un red neuronal convolucional o las CNN. La palabra clave "convolucional" se refiere a la adición de capas convolucionales que pone más énfasis en los datos que están más cerca unos de otros.
Si bien las CNN ya eran una idea en la década de 1980, solo comenzaron a ganar popularidad a principios de la década de 2010 cuando la última tecnología de GPU llevó la tecnología a nuevas alturas.
El éxito de las CNN en el campo de la visión de computadora llevó a un mayor interés en la investigación de las redes neuronales.
Los gigantes tecnológicos como Google y Facebook decidieron lanzar sus propios marcos de IA al público. API de alto nivel como Keras dio a los usuarios una interfaz fácil de usar para experimentar con redes neuronales profundas.
Las CNN eran excelentes en el reconocimiento de imágenes y el análisis de video, pero tenían problemas para resolver problemas relacionados con el idioma. Esta limitación en el procesamiento del lenguaje natural podría existir porque las imágenes y el texto son en realidad problemas fundamentalmente diferentes.
Por ejemplo, si tiene un modelo que clasifica si una imagen contiene un semáforo, el semáforo en cuestión puede aparecer en cualquier parte de la imagen. Sin embargo, este tipo de indulgencia no funciona bien en el idioma. La oración "Bob comió pescado" y "Fish comió Bob" tienen significados muy diferentes a pesar de usar las mismas palabras.
Se había hecho evidente que los investigadores necesitaban encontrar un nuevo enfoque para resolver problemas relacionados con el lenguaje humano.
Los transformadores lo cambian todo.
En 2017, una trabajo de investigación titulado “La atención es todo lo que necesita” propuso un nuevo tipo de red: el transformador.
Mientras que las CNN funcionan filtrando repetidamente pequeñas porciones de una imagen, los transformadores conectan cada elemento de los datos con todos los demás elementos. Los investigadores llaman a este proceso "autoatención".
Al intentar analizar oraciones, las CNN y los transformadores funcionan de manera muy diferente. Mientras que una CNN se centrará en formar conexiones con palabras que están cerca unas de otras, un transformador creará conexiones entre todas y cada una de las palabras de una oración.
El proceso de autoatención es una parte integral de la comprensión del lenguaje humano. Al alejarse y observar cómo encaja toda la oración, las máquinas pueden tener una comprensión más clara de la estructura de la oración.
Una vez que se lanzaron los primeros modelos de transformadores, los investigadores pronto usaron la nueva arquitectura para aprovechar la increíble cantidad de datos de texto que se encuentran en Internet.
GPT-3 e Internet
En 2020, OpenAI GPT-3 El modelo mostró cuán efectivos pueden ser los transformadores. GPT-3 pudo generar texto que parece casi indistinguible de un ser humano. Parte de lo que hizo que GPT-3 fuera tan poderoso fue la cantidad de datos de entrenamiento utilizados. La mayor parte del conjunto de datos de preentrenamiento del modelo proviene de un conjunto de datos conocido como Common Crawl que viene con más de 400 mil millones de tokens.
Si bien la capacidad de GPT-3 para generar texto humano realista fue innovadora por sí sola, los investigadores descubrieron cómo el mismo modelo puede resolver otras tareas.
Por ejemplo, el mismo modelo GPT-3 que puede usar para generar un tweet también puede ayudarlo a resumir texto, reescribir un párrafo y terminar una historia. Modelos de lenguaje se han vuelto tan poderosos que ahora son esencialmente herramientas de propósito general que siguen cualquier tipo de comando.
La naturaleza de propósito general de GPT-3 ha permitido aplicaciones como copiloto de github, que permite a los programadores generar código de trabajo a partir de un lenguaje sencillo.
Modelos de difusión: del texto a las imágenes
El progreso realizado con los transformadores y la PNL también ha allanado el camino para la IA generativa en otros campos.
En el ámbito de la visión por computadora, ya hemos cubierto cómo el aprendizaje profundo permitió que las máquinas entendieran imágenes. Sin embargo, todavía necesitábamos encontrar una manera para que la IA generara imágenes por sí misma en lugar de simplemente clasificarlas.
Los modelos de imágenes generativas como DALL-E 2, Stable Diffusion y Midjourney se han vuelto populares debido a la forma en que pueden convertir la entrada de texto en imágenes.
Estos modelos de imagen se basan en dos aspectos clave: un modelo que comprende la relación entre las imágenes y el texto y un modelo que realmente puede crear una imagen de alta definición que coincida con la entrada.
OpenAI's CLIP (Contrastive Language–Image Pre-training) es un modelo de código abierto que pretende resolver el primer aspecto. Dada una imagen, el modelo CLIP puede predecir la descripción de texto más relevante para esa imagen en particular.
El modelo CLIP funciona aprendiendo cómo extraer características importantes de la imagen y crear una representación más simple de una imagen.
Cuando los usuarios proporcionan una entrada de texto de muestra a DALL-E 2, la entrada se convierte en una "incrustación de imagen" utilizando el modelo CLIP. El objetivo ahora es encontrar una forma de generar una imagen que coincida con la incrustación de la imagen generada.
Las últimas IA de imagen generativa utilizan un modelo de difusión para abordar la tarea de crear realmente una imagen. Los modelos de difusión se basan en redes neuronales que fueron entrenadas previamente para saber cómo eliminar el ruido agregado de las imágenes.
Durante este proceso de entrenamiento, la red neuronal eventualmente puede aprender cómo crear una imagen de alta resolución a partir de una imagen de ruido aleatorio. Como ya tenemos un mapeo de texto e imágenes proporcionado por CLIP, podemos entrenar un modelo de difusión en incrustaciones de imágenes CLIP para crear un proceso para generar cualquier imagen.
Revolución generativa de la IA: ¿Qué viene después?
Ahora estamos en un punto en el que los avances en la IA generativa ocurren cada dos días. Dado que cada vez es más fácil generar diferentes tipos de medios utilizando IA, ¿deberíamos preocuparnos por cómo esto podría afectar a nuestra sociedad?
Si bien las preocupaciones de que las máquinas reemplacen a los trabajadores siempre han estado en la conversación desde la invención de la máquina de vapor, parece que esta vez es un poco diferente.
La IA generativa se está convirtiendo en una herramienta multipropósito que puede interrumpir industrias que se consideraban seguras de una adquisición de IA.
¿Necesitaremos programadores si la IA puede comenzar a escribir código impecable a partir de unas pocas instrucciones básicas? ¿La gente contratará creativos si solo pueden usar un modelo generativo para producir el resultado que desean por un precio más bajo?
Es difícil predecir el futuro de la revolución de la IA generativa. Pero ahora que se ha abierto la caja figurativa de Pandora, espero que la tecnología permita innovaciones más emocionantes que puedan dejar un impacto positivo en el mundo.
Deje un comentario