Un problema clàssic de la intel·ligència artificial és la recerca d'una màquina que pugui entendre el llenguatge humà.
Per exemple, quan cerqueu "restaurants italians propers" al vostre motor de cerca preferit, un algorisme ha d'analitzar cada paraula de la vostra consulta i generar els resultats rellevants. Una aplicació de traducció decent haurà d'entendre el context d'una paraula concreta en anglès i, d'alguna manera, tenir en compte les diferències de gramàtica entre idiomes.
Totes aquestes tasques i moltes més entren dins del subcamp de la informàtica conegut com Processament del llenguatge natural o PNL. Els avenços en PNL han donat lloc a una àmplia gamma d'aplicacions pràctiques des d'assistents virtuals com Alexa d'Amazon fins a filtres de correu brossa que detecten correu electrònic maliciós.
L'avenç més recent en PNL és la idea d'a gran model de llengua o LLM. Els LLM com GPT-3 s'han tornat tan potents que semblen tenir èxit en gairebé qualsevol tasca o cas d'ús de PNL.
En aquest article, analitzarem què són exactament els LLM, com s'entrenen aquests models i les limitacions actuals que tenen.
Què és un gran model lingüístic?
En el seu nucli, un model de llenguatge és simplement un algorisme que sap la probabilitat que una seqüència de paraules sigui una frase vàlida.
Un model de llenguatge molt senzill format en uns quants centenars de llibres hauria de ser capaç de dir que "va anar a casa" és més vàlid que "va anar a casa ell".
Si substituïm el conjunt de dades relativament petit per un conjunt de dades massiu extret d'Internet, comencem a apropar-nos a la idea d'un gran model de llengua.
Ús xarxes neuronals, els investigadors poden formar LLM en una gran quantitat de dades de text. A causa de la quantitat de dades de text que ha vist el model, el LLM es fa molt bo per predir la paraula següent en una seqüència.
El model es torna tan sofisticat que pot realitzar moltes tasques de PNL. Aquestes tasques inclouen resumir text, crear contingut nou i, fins i tot, simular converses semblants a persones.
Per exemple, el popular model d'idioma GPT-3 està entrenat amb més de 175 milions de paràmetres i es considera el model d'idioma més avançat fins ara.
És capaç de generar codi de treball, escriure articles sencers i pot intentar respondre preguntes sobre qualsevol tema.
Com es formen els LLM?
Hem parlat breument del fet que els LLM deuen gran part del seu poder a la mida de les seves dades de formació. Hi ha una raó per la qual els anomenem models lingüístics "grans" després de tot.
Formació prèvia amb una arquitectura transformadora
Durant l'etapa prèvia a la formació, els LLM s'introdueixen a les dades de text existents per aprendre l'estructura general i les regles d'un idioma.
En els últims anys, els LLM s'han entrenat prèviament en conjunts de dades que cobreixen una part important d'Internet pública. Per exemple, el model d'idioma de GPT-3 es va entrenar a partir de dades del Rastreig comú conjunt de dades, un corpus de publicacions web, pàgines web i llibres digitalitzats extrets de més de 50 milions de dominis.
A continuació, el conjunt de dades massiu s'introdueix en un model conegut com a transformador. Els transformadors són un tipus de xarxa neuronal profunda que funciona millor per a dades seqüencials.
Els transformadors utilitzen un Arquitectura codificador-descodificador per gestionar l'entrada i la sortida. Essencialment, el transformador conté dues xarxes neuronals: un codificador i un descodificador. El codificador pot extreure el significat del text d'entrada i emmagatzemar-lo com a vector. Aleshores, el descodificador rep el vector i produeix la seva interpretació del text.
Tanmateix, el concepte clau que va permetre que l'arquitectura del transformador funcionés tan bé és l'addició d'un mecanisme d'autoatenció. El concepte d'autoatenció va permetre al model parar atenció a les paraules més importants d'una frase determinada. El mecanisme fins i tot té en compte els pesos entre paraules que estan allunyades de manera seqüencial.
Un altre avantatge de l'autoatenció és que el procés es pot paral·lelitzar. En lloc de processar dades seqüencials en ordre, els models de transformadors poden processar totes les entrades alhora. Això permet als transformadors entrenar en grans quantitats de dades amb relativa rapidesa en comparació amb altres mètodes.
Afinació
Després de l'etapa prèvia a la formació, podeu optar per introduir un text nou per al LLM bàsic per entrenar. A aquest procés l'anomenem afinació i sovint s'utilitza per millorar encara més el resultat del LLM en una tasca específica.
Per exemple, és possible que vulgueu utilitzar un LLM per generar contingut per al vostre compte de Twitter. Podem proporcionar al model diversos exemples dels vostres tuits anteriors per donar-li una idea de la sortida desitjada.
Hi ha diversos tipus d'ajustaments.
Aprenentatge de pocs tirs es refereix al procés de donar a un model un nombre reduït d'exemples amb l'esperança que el model de llenguatge esbringui com fer una sortida similar. Aprenentatge d'un sol cop és un procés similar, excepte que només es proporciona un únic exemple.
Limitacions dels grans models lingüístics
Els LLM com GPT-3 són capaços de realitzar un gran nombre de casos d'ús fins i tot sense ajustar-los. Tanmateix, aquests models encara tenen el seu propi conjunt de limitacions.
Manca de comprensió semàntica del món
A la superfície, els LLM semblen mostrar intel·ligència. No obstant això, aquests models no funcionen de la mateixa manera que cervell humà fa. Els LLM només es basen en càlculs estadístics per generar resultats. No tenen la capacitat de raonar idees i conceptes per si mateixos.
Per això, un LLM pot produir respostes sense sentit simplement perquè les paraules semblen "correctes" o "estadísticament probables" quan es col·loquen en aquest ordre en particular.
Al·lucinacions
Models com el GPT-3 també pateixen respostes inexactes. Els LLM poden patir un fenomen conegut com al·lucinació on els models produeixen una resposta de fet incorrecta sense cap consciència que la resposta no té cap base en la realitat.
Per exemple, un usuari pot demanar a la model que expliqui els pensaments de Steve Jobs sobre l'últim iPhone. El model pot generar una cotització a partir de l'aire en funció de les seves dades d'entrenament.
Prejudicis i coneixements limitats
Com molts altres algorismes, els grans models de llenguatge són propensos a heretar els biaixos presents a les dades d'entrenament. A mesura que comencem a confiar més en els LLM per recuperar informació, els desenvolupadors d'aquests models haurien de trobar maneres de mitigar els efectes potencialment nocius de les respostes esbiaixades.
En una capacitat similar, els punts cecs de les dades d'entrenament del model també dificultaran el propi model. Actualment, els grans models lingüístics triguen mesos a formar-se. Aquests models també es basen en conjunts de dades que tenen un abast limitat. És per això que ChatGPT només té un coneixement limitat dels esdeveniments que van passar el 2021.
Conclusió
Els grans models lingüístics tenen el potencial de canviar realment la manera com interactuem amb la tecnologia i el nostre món en general.
La gran quantitat de dades disponibles a Internet ha donat als investigadors una manera de modelar les complexitats del llenguatge. Tanmateix, al llarg del camí, aquests models lingüístics semblen haver adquirit una comprensió humana del món tal com és.
A mesura que el públic comença a confiar en aquests models lingüístics per oferir resultats precisos, els investigadors i desenvolupadors ja estan trobant maneres d'afegir baranes perquè la tecnologia segueixi sent ètica.
Quin creus que és el futur dels LLM?
Deixa un comentari