Probablemente esteamos ao comezo dunha nova revolución da IA xerativa.
A intelixencia artificial xerativa refírese a algoritmos e modelos que son capaces de crear contido. A saída destes modelos inclúe texto, audio e imaxes que moitas veces se poden equivocar como produción humana real.
Aplicacións como Chat GPT demostraron que a IA xerativa non é unha mera novidade. A IA agora é capaz de seguir instrucións detalladas e parece ter unha comprensión profunda de como funciona o mundo.
Pero como chegamos a este punto? Nesta guía, repasaremos algúns dos principais avances na investigación da IA que prepararon o camiño para esta nova e emocionante revolución da IA xerativa.
O auxe das redes neuronais
Podes rastrexar as orixes da IA moderna ata a investigación sobre aprendizaxe profunda e redes neuronais en 2012.
Nese ano, Alex Krizhevsky e o seu equipo da Universidade de Toronto foron capaces de conseguir un algoritmo altamente preciso que pode clasificar obxectos.
o rede neuronal de última xeración, coñecido agora como AlexNet, foi capaz de clasificar obxectos na base de datos visual ImageNet cunha taxa de erro moito menor que o segundo clasificado.
redes neuronais son algoritmos que usan unha rede de funcións matemáticas para aprender un comportamento determinado en base a algúns datos de adestramento. Por exemplo, pode alimentar datos médicos dunha rede neuronal para adestrar o modelo para diagnosticar unha enfermidade como o cancro.
A esperanza é que a rede neuronal atope lentamente patróns nos datos e se faga máis precisa cando se lle proporcionan datos novos.
AlexNet foi unha aplicación innovadora de a rede neuronal convolutiva ou CNN. A palabra clave "convolucional" refírese á adición de capas convolucionais que pon máis énfase nos datos que están máis próximos entre si.
Aínda que as CNN xa eran unha idea na década de 1980, só comezaron a gañar popularidade a principios da década de 2010 cando a última tecnoloxía de GPU levou a tecnoloxía a novas alturas.
O éxito das CNN no campo da visión por computador levou a un maior interese pola investigación das redes neuronais.
Xigantes tecnolóxicos como Google e Facebook decidiron lanzar os seus propios marcos de IA ao público. API de alto nivel como Keras proporcionou aos usuarios unha interface amigable para experimentar con redes neuronais profundas.
As CNN eran excelentes no recoñecemento de imaxes e na análise de vídeos, pero tiñan problemas á hora de resolver problemas baseados na linguaxe. Esta limitación no procesamento da linguaxe natural pode existir porque as imaxes e o texto son en realidade problemas fundamentalmente diferentes.
Por exemplo, se tes un modelo que clasifica se unha imaxe contén un semáforo, o semáforo en cuestión pode aparecer en calquera lugar da imaxe. Non obstante, este tipo de clemencia non funciona ben na lingua. A frase "Bob comeu peixe" e "O peixe comeu a Bob" teñen significados moi diferentes a pesar de usar as mesmas palabras.
Quedou claro que os investigadores necesitaban atopar un novo enfoque para resolver problemas relacionados coa linguaxe humana.
Os transformadores cambian todo
En 2017, a traballo de investigación titulado "Attention Is All You Need" propuxo un novo tipo de rede: o Transformer.
Mentres as CNN funcionan filtrando repetidamente pequenas porcións dunha imaxe, os transformadores conectan todos os elementos dos datos con todos os demais. Os investigadores chaman a este proceso "autoatención".
Cando se intenta analizar frases, as CNN e os transformadores funcionan de forma moi diferente. Mentres que unha CNN centrarase en formar conexións con palabras que están preto unhas das outras, un transformador creará conexións entre todas e cada unha das palabras dunha oración.
O proceso de autoatención é parte integrante da comprensión da linguaxe humana. Ao afastar o zoom e observar como encaixa toda a frase, as máquinas poden ter unha comprensión máis clara da estrutura da frase.
Unha vez que se lanzaron os primeiros modelos de transformadores, os investigadores pronto usaron a nova arquitectura para aproveitar a incrible cantidade de datos de texto atopados en internet.
GPT-3 e Internet
En 2020, OpenAI GPT-3 modelo mostrou o efectivos que poden ser os transformadores. GPT-3 puido emitir texto que parece case indistinguible dun humano. Parte do que fixo que GPT-3 fose tan poderoso foi a cantidade de datos de adestramento utilizados. A maior parte do conxunto de datos previos ao adestramento do modelo procede dun conxunto de datos coñecido como Common Crawl que inclúe máis de 400 mil millóns de tokens.
Aínda que a capacidade do GPT-3 para xerar texto humano realista foi innovadora por si mesma, os investigadores descubriron como o mesmo modelo pode resolver outras tarefas.
Por exemplo, o mesmo modelo GPT-3 que podes usar para xerar un chío tamén pode axudarche a resumir texto, reescribir un parágrafo e rematar unha historia. Modelos de lingua convertéronse en tan poderosos que agora son esencialmente ferramentas de propósito xeral que seguen calquera tipo de comando.
A natureza de propósito xeral de GPT-3 permitiu aplicacións deste tipo GitHub Copilot, que permite aos programadores xerar código de traballo a partir do inglés sinxelo.
Modelos de difusión: do texto ás imaxes
O progreso realizado cos transformadores e a PNL tamén abriu o camiño para a IA xerativa noutros campos.
No ámbito da visión por ordenador, xa cubrimos como a aprendizaxe profunda permitiu ás máquinas comprender as imaxes. Non obstante, aínda necesitabamos atopar un xeito de que a IA xerase imaxes por si mesma en lugar de simplemente clasificalas.
Os modelos de imaxe xerativa como DALL-E 2, Stable Diffusion e Midjourney fixéronse populares debido a como poden converter a entrada de texto en imaxes.
Estes modelos de imaxe baséanse en dous aspectos fundamentais: un modelo que entende a relación entre imaxes e texto e un modelo que realmente pode crear unha imaxe de alta definición que coincida coa entrada.
OpenAI's clip (Contrastive Language–Image Pre-training) é un modelo de código aberto que pretende resolver o primeiro aspecto. Dada unha imaxe, o modelo CLIP pode predecir a descrición de texto máis relevante para esa imaxe en particular.
O modelo CLIP funciona aprendendo a extraer características de imaxe importantes e crear unha representación máis sinxela dunha imaxe.
Cando os usuarios proporcionan unha entrada de texto de mostra a DALL-E 2, a entrada convértese nunha "incrustación de imaxes" usando o modelo CLIP. O obxectivo agora é atopar unha forma de xerar unha imaxe que coincida coa incorporación da imaxe xerada.
As IAs de imaxe xerativa máis recentes usan a modelo de difusión para afrontar a tarefa de crear realmente unha imaxe. Os modelos de difusión baséanse en redes neuronais que foron adestradas previamente para saber como eliminar o ruído engadido das imaxes.
Durante este proceso de adestramento, a rede neuronal pode eventualmente aprender a crear unha imaxe de alta resolución a partir dunha imaxe de ruído aleatoria. Como xa temos un mapeo de texto e imaxes proporcionado por CLIP, podemos adestrar un modelo de difusión en incrustacións de imaxes CLIP para crear un proceso para xerar calquera imaxe.
Revolución da IA xerativa: que vén despois?
Agora estamos nun punto no que se producen avances na IA xerativa cada dous días. Cada vez é máis fácil xerar diferentes tipos de medios mediante a IA, deberíamos preocuparnos por como isto podería afectar á nosa sociedade?
Aínda que as preocupacións das máquinas que substitúen aos traballadores sempre estiveron na conversa desde a invención da máquina de vapor, parece que esta vez é un pouco diferente.
A IA xerativa estase a converter nunha ferramenta multiusos que pode perturbar industrias que se consideraban a salvo dunha toma de control da IA.
Necesitaremos programadores se a IA pode comezar a escribir código impecable a partir dunhas cantas instrucións básicas? Contratarán a xente a creatividades se só poden usar un modelo xenerativo para producir o resultado que queren a un prezo máis barato?
É difícil predicir o futuro da revolución da IA xerativa. Pero agora que se abriu a caixa de Pandora figurativa, espero que a tecnoloxía permita innovacións máis emocionantes que poidan deixar un impacto positivo no mundo.
Deixe unha resposta