ChatGPT è un notevole modello di linguaggio di intelligenza artificiale. Lo usiamo tutti per aiutarci in vari compiti.
Ti sei mai chiesto come è stato addestrato a produrre risposte che sembrano così umane? In questo articolo, esamineremo la formazione di ChatGPT.
Spiegheremo come si è evoluto in uno dei più eccezionali modelli linguistici. Mentre esploriamo l'intrigante mondo di ChatGPT, vieni in un viaggio di scoperta.
Panoramica della formazione
ChatGPT è un modello di elaborazione del linguaggio naturale.
Con ChatGPT, possiamo impegnarci in dialoghi interattivi e discussioni simili a quelle umane. Impiega un approccio simile a quello di Istruire GPT, che è un modello linguistico all'avanguardia. È stato sviluppato poco prima di ChatGPT.
Impiega un metodo più coinvolgente. Ciò consente interazioni utente naturali. Quindi, è uno strumento perfetto per una varietà di applicazioni come chatbot e assistenti virtuali.
La procedura di formazione di ChatGPT è un processo in più fasi. Il Generative Pretraining è il primo passo nella formazione di ChatGPT.
In questa fase, il modello viene addestrato utilizzando un considerevole corpus di dati di testo. Quindi, il modello scopre le correlazioni statistiche e i modelli trovati nel linguaggio naturale. Quindi, possiamo avere una risposta grammaticalmente accurata e coerente.
Quindi seguiamo una fase di messa a punto supervisionata. In questa parte, il modello viene addestrato su un particolare compito. Ad esempio, può eseguire traduzioni linguistiche o rispondere a domande.
Infine, ChatGPT utilizza l'apprendimento della ricompensa dal feedback umano.
Ora, esaminiamo questi passaggi.
Preformazione generativa
Il livello iniziale di formazione è Generative Pretraining. È un metodo comune per addestrare i modelli linguistici. Per creare sequenze di token, il metodo applica il "paradigma di previsione del passaggio successivo".
Cosa significa?
Ogni token è una variabile univoca. Rappresentano una parola o una parte di una parola. Il modello cerca di determinare quale parola è più probabile che venga dopo date le parole che la precedono. Usa la distribuzione di probabilità su tutti i termini nella sua sequenza.
Lo scopo dei modelli linguistici è costruire sequenze di token. Queste sequenze dovrebbero rappresentare i modelli e le strutture del linguaggio umano. Ciò è possibile addestrando i modelli su enormi quantità di dati testuali.
Quindi, questi dati vengono utilizzati per capire come le parole vengono distribuite nella lingua.
Durante l'addestramento, il modello modifica i parametri della distribuzione di probabilità.
E cerca di ridurre la differenza tra la distribuzione prevista e quella effettiva delle parole in un testo. Questo è possibile con l'uso di una funzione di perdita. La funzione di perdita calcola la differenza tra le distribuzioni previste e quelle effettive.
Elaborazione del linguaggio naturale ed visione computerizzata sono una delle aree in cui utilizziamo il Generative Pretraining.
La questione dell'allineamento
Il problema dell'allineamento è una delle difficoltà del Generative Pretraining. Ciò si riferisce alla difficoltà di far corrispondere la distribuzione di probabilità del modello alla distribuzione dei dati effettivi.
In altre parole, le risposte generate dal modello dovrebbero essere più simili a quelle umane.
Il modello può occasionalmente fornire risposte inaspettate o improprie. E ciò può essere causato da una varietà di cause, come la distorsione dei dati di addestramento o la mancanza di consapevolezza del contesto del modello. Il problema dell'allineamento deve essere affrontato per migliorare la qualità dei modelli linguistici.
Per superare questo problema, i modelli linguistici come ChatGPT utilizzano tecniche di regolazione fine.
Messa a punto controllata
La seconda parte della formazione ChatGPT è la messa a punto supervisionata. Gli sviluppatori umani si impegnano in dialoghi a questo punto, agendo sia come utente umano che come chatbot.
Questi colloqui vengono registrati e aggregati in un set di dati. Ogni campione di addestramento include una cronologia delle conversazioni distinta abbinata alla risposta successiva dello sviluppatore umano che funge da "chatbot".
Lo scopo del fine tuning supervisionato è quello di massimizzare la probabilità assegnata dal modello alla sequenza di token nella risposta associata. Questo metodo è noto come "apprendimento per imitazione" o "clonazione del comportamento".
In questo modo il modello può imparare a fornire risposte più naturali e coerenti. Sta replicando le risposte fornite dagli appaltatori umani.
La messa a punto supervisionata è il punto in cui il modello linguistico può essere adattato per una particolare attività.
Facciamo un esempio. Supponiamo di voler insegnare a un chatbot a fornire consigli sui film. Addestreremmo il modello linguistico per prevedere le valutazioni dei film in base alle descrizioni dei film. E useremmo un set di dati di descrizioni e valutazioni dei film.
L'algoritmo alla fine avrebbe scoperto quali aspetti di un film corrispondevano a valutazioni alte o basse.
Dopo che è stato addestrato, potremmo usare il nostro modello per suggerire film agli utenti umani. Gli utenti possono descrivere un film di loro gradimento e il chatbot utilizzerà il raffinato modello linguistico per consigliare più film paragonabili a esso.
Limitazioni alla supervisione: turni distributivi
La messa a punto supervisionata insegna a un modello linguistico a raggiungere un obiettivo specifico. Ciò è possibile alimentando il modello a dataset e poi addestrarlo a fare previsioni. Questo sistema, tuttavia, ha limiti noti come "restrizioni di supervisione".
Una di queste restrizioni è lo "spostamento distributivo". Si riferisce alla possibilità che i dati di addestramento potrebbero non riflettere accuratamente la distribuzione reale degli input che il modello incontrerebbe.
Rivediamo l'esempio di prima. Nell'esempio del suggerimento del film, il set di dati utilizzato per addestrare il modello potrebbe non riflettere accuratamente la varietà di film e le preferenze dell'utente che il chatbot incontrerebbe. Il chatbot potrebbe non funzionare come vorremmo.
Di conseguenza, incontra input diversi da quelli osservati durante l'allenamento.
Per l'apprendimento supervisionato, quando il modello viene addestrato solo su un dato insieme di istanze, sorge questo problema.
Inoltre, il modello può funzionare meglio di fronte a un cambiamento distributivo se viene utilizzato l'apprendimento per rinforzo per aiutarlo ad adattarsi a nuovi contesti e imparare dai propri errori.
In base alle preferenze, premia l'apprendimento
L'apprendimento della ricompensa è la terza fase di formazione nello sviluppo di un chatbot. Nell'apprendimento della ricompensa, al modello viene insegnato a massimizzare un segnale di ricompensa.
È un punteggio che indica quanto efficacemente il modello sta portando a termine il lavoro. Il segnale di ricompensa si basa sull'input di persone che valutano o valutano le risposte del modello.
L'apprendimento della ricompensa mira a sviluppare un chatbot che produca risposte di alta qualità che gli utenti umani preferiscono. Per fare questo, una tecnica di apprendimento automatico chiamata apprendimento per rinforzo, che include l'apprendimento dal feedback sotto forma di ricompense, viene utilizzato per addestrare il modello.
Il chatbot risponde alle richieste degli utenti, ad esempio, a seconda della sua attuale comprensione dell'attività, che gli viene fornita durante l'apprendimento della ricompensa. Viene quindi fornito un segnale di ricompensa in base all'efficacia delle prestazioni del chatbot una volta che le risposte sono state valutate dai giudici umani.
Questo segnale di ricompensa viene utilizzato dal chatbot per modificare le sue impostazioni. E migliora le prestazioni delle attività.
Alcune limitazioni sull'apprendimento con ricompensa
Uno svantaggio dell'apprendimento della ricompensa è che il feedback sulle risposte del chatbot potrebbe non arrivare per un po' di tempo poiché il segnale della ricompensa potrebbe essere scarso e ritardato. Di conseguenza, potrebbe essere difficile addestrare con successo il chatbot perché potrebbe non ricevere feedback su risposte specifiche fino a molto tempo dopo.
Un altro problema è che i giudici umani possono avere opinioni o interpretazioni diverse su ciò che rende una risposta di successo, il che potrebbe portare a pregiudizi nel segnale di ricompensa. Per ridurre questo, viene spesso utilizzato da diversi arbitri per fornire un segnale di ricompensa più affidabile.
Cosa riserva il futuro?
Esistono diversi potenziali passaggi futuri per migliorare ulteriormente le prestazioni di ChatGPT.
Per aumentare la comprensione del modello, un potenziale percorso futuro consiste nell'includere più set di dati di addestramento e origini dati. È anche possibile migliorare la capacità del modello di comprendere e tenere conto di input non testuali.
Ad esempio, i modelli linguistici potrebbero comprendere immagini o suoni.
Incorporando specifiche tecniche di formazione, ChatGPT può anche essere migliorato per determinate attività. Ad esempio, può eseguire sentiment analysis o la produzione del linguaggio naturale. In conclusione, ChatGPT e i relativi modelli linguistici mostrano grandi promesse per l'avanzamento.
Lascia un Commento