S'ha explicat tot el procés de formació de ChatGPT

Taula de continguts[Amaga][Espectacle]

Preentrenament generatiu+-
- El tema de l'alineació
Afinació supervisada+-
- Limitacions de supervisió: Torn distributiu
Basat en les preferències, recompensa l'aprenentatge
Què ens espera el futur?

ChatGPT és un model de llenguatge d'intel·ligència artificial notable. Tots el fem servir per ajudar-nos en diferents tasques.

Alguna vegada us heu preguntat com es va entrenar per produir respostes que semblen tan humanes? En aquest article, examinarem la formació de ChatGPT.

Explicarem com ha evolucionat fins a convertir-se en un dels més destacats models lingüístics. Mentre explorem el món intrigant de ChatGPT, vine a un viatge de descobriment.

Visió general de la formació

ChatGPT és un model de processament del llenguatge natural.

Amb ChatGPT, podem participar en diàlegs interactius i discussions semblants a persones. Utilitza un enfocament similar al de Instruïu GPT, que és un model lingüístic d'avantguarda. Es va desenvolupar poc abans de ChatGPT.

Utilitza un mètode més atractiu. Això permet interaccions naturals amb l'usuari. Per tant, és una eina perfecta per a una varietat d'aplicacions com ara chatbots i assistents virtuals.

El procediment d'entrenament de ChatGPT és un procés de diverses etapes. El preentrenament generatiu és el primer pas en la formació de ChatGPT.

En aquesta fase, el model s'entrena utilitzant un corpus important de dades de text. Aleshores, el model descobreix les correlacions estadístiques i els patrons que es troben en el llenguatge natural. Així, podem tenir una resposta gramaticalment precisa i coherent.

Després seguim un pas d'afinació supervisada. En aquesta part, el model s'entrena en una tasca concreta. Per exemple, pot realitzar traduccions d'idiomes o respondre preguntes.

Finalment, ChatGPT utilitza l'aprenentatge de recompensa dels comentaris humans.

Ara, examinem aquests passos.

Preentrenament generatiu

El nivell inicial de formació és Preformació Generativa. És un mètode habitual per a la formació de models lingüístics. Per crear seqüències de testimoni, el mètode aplica el "paradigma de predicció del següent pas".

Què vol dir?

Cada testimoni és una variable única. Representen una paraula o una part d'una paraula. El model intenta determinar quina paraula és més probable que vingui a continuació tenint en compte les paraules anteriors. Utilitza la distribució de probabilitat a través de tots els termes de la seva seqüència.

L'objectiu dels models de llenguatge és construir seqüències de testimonis. Aquestes seqüències haurien de representar els patrons i estructures del llenguatge humà. Això és possible entrenant models amb grans quantitats de dades de text.

Aleshores, aquestes dades s'utilitzen per entendre com es distribueixen les paraules a l'idioma.

Durant l'entrenament, el model canvia els paràmetres de distribució de probabilitats.

I, intenta reduir la diferència entre la distribució esperada i real de les paraules en un text. Això és possible amb l'ús d'una funció de pèrdua. La funció de pèrdua calcula la diferència entre la distribució esperada i la real.

Processament del llenguatge natural i visió per computadora són una de les àrees on utilitzem el Preformació Generativa.

Obert 2

El tema de l'alineació

El problema d'alineació és una de les dificultats del Preentrenament generatiu. Això fa referència a la dificultat per fer coincidir la distribució de probabilitat del model amb la distribució de les dades reals.
En altres paraules, les respostes generades pel model haurien de ser més humanes.

De vegades, el model pot donar respostes inesperades o inadequades. I això pot ser causat per diverses causes, com ara el biaix de les dades d'entrenament o la manca de consciència del context del model. S'ha d'abordar el problema de l'alineació per millorar la qualitat dels models lingüístics.

Per solucionar aquest problema, models de llenguatge com ChatGPT utilitzen tècniques d'ajustament.

Afinació supervisada

La segona part de la formació de ChatGPT és un ajustament supervisat. Els desenvolupadors humans participen en diàlegs en aquest punt, actuant tant com a usuari humà com a bot de xat.

Aquestes xerrades es registren i s'agreguen en un conjunt de dades. Cada mostra d'entrenament inclou un historial de converses diferent que coincideix amb la següent resposta del desenvolupador humà que actua com a "chatbot".

L'objectiu de l'afinació supervisada és maximitzar la probabilitat assignada a la seqüència de fitxes a la resposta associada pel model. Aquest mètode es coneix com "aprenentatge per imitació" o "clonació de comportaments".

D'aquesta manera, el model pot aprendre a proporcionar respostes més naturals i coherents. Està replicant les respostes donades pels contractistes humans.

L'afinació supervisada és on el model d'idioma es pot ajustar per a una tasca concreta.

Posem un exemple. Suposem que volem ensenyar a un chatbot a oferir recomanacions de pel·lícules. Entrenaríem el model d'idioma per predir les puntuacions de pel·lícules en funció de les descripcions de les pel·lícules. A més, utilitzaríem un conjunt de dades de descripcions i puntuacions de pel·lícules.

L'algoritme finalment esbrindria quins aspectes d'una pel·lícula corresponien a valoracions altes o pobres.

Un cop s'ha entrenat, podríem utilitzar el nostre model per suggerir pel·lícules als usuaris humans. Els usuaris poden descriure una pel·lícula que els agrada, i el chatbot utilitzaria el model de llenguatge refinat per recomanar més pel·lícules que siguin comparables.

Limitacions de supervisió: Torn distributiu

L'afinació supervisada és ensenyar un model d'idioma per assolir un objectiu determinat. Això és possible alimentant el model a conjunt de dades i després entrenar-lo per fer prediccions. Aquest sistema, però, té límits coneguts com a "restriccions de supervisió".

Una d'aquestes restriccions és el "canvi distribucional". Es refereix a la possibilitat que les dades d'entrenament no reflecteixin amb precisió la distribució real de les entrades que trobaria el model.

Revisem l'exemple anterior. A l'exemple del suggeriment de pel·lícules, és possible que el conjunt de dades utilitzat per entrenar el model no reflecteixi amb precisió la varietat de pel·lícules i preferències d'usuari que trobaria el chatbot. És possible que el chatbot no funcioni tan bé com voldríem.

Com a resultat, compleix inputs que són diferents dels que va observar durant l'entrenament.

Per a l'aprenentatge supervisat, quan el model només s'entrena en un conjunt determinat d'instàncies, sorgeix aquest problema.

A més, el model pot funcionar millor davant un canvi distributiu si s'utilitza l'aprenentatge de reforç per ajudar-lo a adaptar-se a nous contextos i aprendre dels seus errors.

Basat en les preferències, recompensa l'aprenentatge

L'aprenentatge de recompensa és la tercera etapa de formació en el desenvolupament d'un chatbot. En l'aprenentatge de recompensa, el model s'ensenya a maximitzar un senyal de recompensa.

És una puntuació que indica amb quina eficàcia el model està realitzant la feina. El senyal de recompensa es basa en l'entrada de persones que valoren o avaluen les respostes del model.

L'aprenentatge de recompensa té com a objectiu desenvolupar un bot de xat que produeixi respostes d'alta qualitat que els usuaris humans prefereixen. Per fer-ho, s'anomena una tècnica d'aprenentatge automàtic aprenentatge de reforç, que inclou l'aprenentatge de la retroalimentació en forma de recompenses—s'utilitza per entrenar el model.

El chatbot respon a les consultes dels usuaris, per exemple, en funció de la seva comprensió actual de la tasca, que se li proporciona durant l'aprenentatge de recompensa. A continuació, es dóna un senyal de recompensa en funció de l'efectivitat del chatbot un cop les respostes han estat avaluades pels jutges humans.

Aquest senyal de recompensa l'utilitza el chatbot per modificar la seva configuració. I, millora el rendiment de la tasca.

Algunes limitacions en l'aprenentatge de recompensa

Un inconvenient de l'aprenentatge de recompensa és que els comentaris sobre les respostes del chatbot poden no arribar durant algun temps, ja que el senyal de recompensa pot ser escàs i retardat. Com a resultat, pot ser difícil entrenar amb èxit el chatbot perquè pot ser que no rebi comentaris sobre respostes específiques fins molt més tard.

Un altre problema és que els jutges humans poden tenir opinions o interpretacions variades del que fa una resposta exitosa, cosa que pot provocar un biaix en el senyal de recompensa. Per reduir-ho, diversos jutges l'utilitzen sovint per oferir un senyal de recompensa més fiable.

Què ens espera el futur?

Hi ha diversos passos futurs potencials per millorar encara més el rendiment de ChatGPT.

Per augmentar la comprensió del model, una possible ruta futura és incloure més conjunts de dades d'entrenament i fonts de dades. També és possible millorar la capacitat del model per comprendre i tenir en compte les entrades no textuals.

Per exemple, els models lingüístics podrien entendre imatges o sons.

Mitjançant la incorporació de tècniques d'entrenament específiques, ChatGPT també es pot millorar per a determinades tasques. Per exemple, pot funcionar anàlisi del sentiment o producció de llenguatge natural. En conclusió, ChatGPT i els models d'idiomes relacionats mostren una gran promesa per avançar.

S'ha explicat tot el procés de formació de ChatGPT

Visió general de la formació

Preentrenament generatiu

El tema de l'alineació

Afinació supervisada

Limitacions de supervisió: Torn distributiu

Basat en les preferències, recompensa l'aprenentatge

Algunes limitacions en l'aprenentatge de recompensa

Què ens espera el futur?

Qui som? İlke Candan Bengi

Més articles sobre HashDork:

Com reduir les al·lucinacions a la vostra IA

Colossyan contra Heygen

Aquest butlletí de tecnologia del futur no fa mal

S'ha explicat tot el procés de formació de ChatGPT

Visió general de la formació

Preentrenament generatiu

El tema de l'alineació

Afinació supervisada

Limitacions de supervisió: Torn distributiu

Basat en les preferències, recompensa l'aprenentatge

Algunes limitacions en l'aprenentatge de recompensa

Què ens espera el futur?

Qui som? İlke Candan Bengi

Més articles sobre HashDork:

Com reduir les al·lucinacions a la vostra IA

Les 10 millors eines d'IA per a xarxes socials

Colossyan contra Heygen

Les 10 millors eines per crear vídeos animats amb IA

interaccions Reader

Deixa un comentari Cancel resposta

Aquest butlletí de tecnologia del futur no fa mal