Probablement estem a l'inici d'una nova revolució generativa de la IA.
La intel·ligència artificial generativa fa referència a algorismes i models capaços de crear contingut. La sortida d'aquests models inclou text, àudio i imatges que sovint es poden confondre com a producció humana real.
Aplicacions com Xat GPT han demostrat que la IA generativa no és una mera novetat. La IA ara és capaç de seguir instruccions detallades i sembla tenir una comprensió profunda de com funciona el món.
Però com hem arribat a aquest punt? En aquesta guia, repassarem alguns dels avenços clau en la investigació de la IA que han obert el camí a aquesta nova i emocionant revolució generativa de la IA.
L'auge de les xarxes neuronals
Podeu rastrejar els orígens de la IA moderna fins a la investigació aprenentatge profund i xarxes neuronals en 2012.
Aquell any, Alex Krizhevsky i el seu equip de la Universitat de Toronto van poder aconseguir un algorisme molt precís que pot classificar objectes.
El xarxa neuronal d'última generació, conegut ara com AlexNet, va poder classificar objectes a la base de dades visual d'ImageNet amb una taxa d'error molt menor que la del segon classificat.
Xarxes neuronals són algorismes que utilitzen una xarxa de funcions matemàtiques per aprendre un comportament determinat a partir d'algunes dades d'entrenament. Per exemple, podeu alimentar dades mèdiques d'una xarxa neuronal per tal d'entrenar el model per diagnosticar una malaltia com el càncer.
L'esperança és que la xarxa neuronal trobi lentament patrons a les dades i es torni més precisa quan es donen dades noves.
AlexNet va ser una aplicació innovadora d'a xarxa neuronal convolucional o CNN. La paraula clau "convolucional" es refereix a l'addició de capes convolucionals que posa més èmfasi en les dades més properes.
Tot i que les CNN ja eren una idea a la dècada de 1980, només van començar a guanyar popularitat a principis de la dècada de 2010 quan l'última tecnologia de GPU va empènyer la tecnologia a noves altures.
L'èxit de les CNN en el camp de visió per computadora va provocar més interès en la recerca de xarxes neuronals.
Gegants tecnològics com Google i Facebook van decidir llançar els seus propis marcs d'IA al públic. API d'alt nivell com ara Keras va oferir als usuaris una interfície fàcil d'utilitzar per experimentar amb xarxes neuronals profundes.
Les CNN eren excel·lents en el reconeixement d'imatges i l'anàlisi de vídeo, però tenien problemes a l'hora de resoldre problemes basats en l'idioma. Aquesta limitació en el processament del llenguatge natural pot existir perquè com les imatges i el text són en realitat problemes fonamentalment diferents.
Per exemple, si teniu un model que classifica si una imatge conté un semàfor, el semàfor en qüestió pot aparèixer a qualsevol part de la imatge. Tanmateix, aquest tipus de clemència no funciona bé en l'idioma. Les frases "Bob va menjar peix" i "El peix es va menjar en Bob" tenen significats molt diferents tot i utilitzar les mateixes paraules.
Havia quedat clar que els investigadors havien de trobar un nou enfocament per resoldre problemes relacionats amb el llenguatge humà.
Els transformadors ho canvien tot
En 2017, a treball de recerca titulat "Attention Is All You Need" va proposar un nou tipus de xarxa: el Transformer.
Mentre que les CNN funcionen filtrant repetidament petites porcions d'una imatge, els transformadors connecten tots els elements de les dades amb tots els altres elements. Els investigadors anomenen aquest procés "autoatenció".
Quan s'intenta analitzar frases, les CNN i els transformadors funcionen de manera molt diferent. Mentre que una CNN se centrarà a formar connexions amb paraules que estan a prop les unes de les altres, un transformador crearà connexions entre totes i cadascuna de les paraules d'una frase.
El procés d'autoatenció és una part integral de la comprensió del llenguatge humà. Allunyant-se i observant com s'ajusta tota la frase, les màquines poden tenir una comprensió més clara de l'estructura de la frase.
Un cop es van publicar els primers models de transformadors, els investigadors aviat van utilitzar la nova arquitectura per aprofitar la increïble quantitat de dades de text que es troben a Internet.
GPT-3 i Internet
El 2020, OpenAI's GPT-3 El model va mostrar fins a quin punt poden ser eficaços els transformadors. GPT-3 va poder enviar text que sembla gairebé indistingible d'un humà. Part del que va fer que GPT-3 fos tan potent va ser la quantitat de dades d'entrenament utilitzades. La major part del conjunt de dades de preentrenament del model prové d'un conjunt de dades conegut com Common Crawl que inclou més de 400 mil milions de fitxes.
Si bé la capacitat del GPT-3 de generar text humà realista era innovadora per si sola, els investigadors van descobrir com el mateix model pot resoldre altres tasques.
Per exemple, el mateix model GPT-3 que podeu utilitzar per generar un tuit també us pot ajudar a resumir text, reescriure un paràgraf i acabar una història. Models lingüístics s'han tornat tan potents que ara són essencialment eines d'ús general que segueixen qualsevol tipus d'ordre.
La naturalesa de propòsit general de GPT-3 ha permès aplicacions com aquesta Copilot de GitHub, que permet als programadors generar codi de treball a partir de l'anglès senzill.
Models de difusió: del text a les imatges
El progrés aconseguit amb els transformadors i la PNL també ha obert el camí per a la IA generativa en altres camps.
En l'àmbit de la visió per computador, ja hem tractat com l'aprenentatge profund va permetre que les màquines entenguessin imatges. Tot i això, encara havíem de trobar una manera perquè la IA generi imatges en lloc de classificar-les.
Els models d'imatge generativa com DALL-E 2, Stable Diffusion i Midjourney s'han convertit en populars a causa de com són capaços de convertir l'entrada de text en imatges.
Aquests models d'imatge es basen en dos aspectes clau: un model que entén la relació entre imatges i text i un model que realment pot crear una imatge d'alta definició que coincideixi amb l'entrada.
OpenAI's CLIP (Contrastive Language–Image Pre-training) és un model de codi obert que pretén resoldre el primer aspecte. Donada una imatge, el model CLIP pot predir la descripció de text més rellevant per a aquesta imatge concreta.
El model CLIP funciona aprenent a extreure característiques importants de la imatge i crear una representació més senzilla d'una imatge.
Quan els usuaris proporcionen una entrada de text de mostra a DALL-E 2, l'entrada es converteix en una "incrustació d'imatges" mitjançant el model CLIP. L'objectiu ara és trobar una manera de generar una imatge que coincideixi amb la incrustació de la imatge generada.
Les IA d'imatges generatives més recents utilitzen a model de difusió per fer front a la tasca de crear realment una imatge. Els models de difusió es basen en xarxes neuronals que es van entrenar prèviament per saber com eliminar el soroll afegit de les imatges.
Durant aquest procés d'entrenament, la xarxa neuronal pot eventualment aprendre a crear una imatge d'alta resolució a partir d'una imatge de soroll aleatòria. Com que ja tenim un mapeig de text i imatges proporcionat per CLIP, podem entrenar un model de difusió a les incrustacions d'imatges CLIP per crear un procés per generar qualsevol imatge.
Revolució de la IA generativa: què ve després?
Ara estem en un punt en què es produeixen avenços en IA generativa cada dos dies. A mesura que cada cop és més fàcil generar diferents tipus de mitjans amb IA, ens hem de preocupar per com això podria afectar la nostra societat?
Si bé les preocupacions de les màquines que substitueixen els treballadors sempre han estat en la conversa des de la invenció de la màquina de vapor, sembla que aquesta vegada és una mica diferent.
La IA generativa s'està convertint en una eina polivalent que pot alterar les indústries que es consideraven segures d'una presa de control de la IA.
Necessitarem programadors si la IA pot començar a escriure codi impecable a partir d'unes quantes instruccions bàsiques? La gent contractarà creatius si només poden utilitzar un model generatiu per produir la producció que volen més barata?
És difícil predir el futur de la revolució generativa de la IA. Però ara que s'ha obert la capsa de Pandora figurativa, espero que la tecnologia permeti innovacions més emocionants que puguin deixar un impacte positiu al món.
Deixa un comentari