Sommario[Nascondere][Spettacolo]
Un problema classico nell'intelligenza artificiale è la ricerca di una macchina in grado di comprendere il linguaggio umano.
Ad esempio, durante la ricerca di "ristoranti italiani nelle vicinanze" sul tuo motore di ricerca preferito, un algoritmo deve analizzare ogni parola nella query e produrre i risultati pertinenti. Un'app di traduzione decente dovrà comprendere il contesto di una particolare parola in inglese e in qualche modo tenere conto delle differenze grammaticali tra le lingue.
Tutti questi compiti e molto altro ancora rientrano nel sottocampo dell'informatica noto come Elaborazione del linguaggio naturale o PNL. I progressi della PNL hanno portato a un'ampia gamma di applicazioni pratiche, dagli assistenti virtuali come Alexa di Amazon ai filtri antispam che rilevano le e-mail dannose.
La svolta più recente nella PNL è l'idea di a grande modello linguistico o LLM. Gli LLM come GPT-3 sono diventati così potenti che sembrano avere successo in quasi tutte le attività o casi d'uso della PNL.
In questo articolo, esamineremo cosa sono esattamente gli LLM, come vengono addestrati questi modelli e le attuali limitazioni che hanno.
Che cos'è un modello linguistico di grandi dimensioni?
Fondamentalmente, un modello linguistico è semplicemente un algoritmo che conosce la probabilità che una sequenza di parole sia una frase valida.
Un modello linguistico molto semplice addestrato su poche centinaia di libri dovrebbe essere in grado di dire che "è andato a casa" è più valido di "è andato a casa".
Se sostituiamo il set di dati relativamente piccolo con un enorme set di dati prelevato da Internet, iniziamo ad avvicinarci all'idea di a grande modello linguistico.
utilizzando reti neurali, i ricercatori possono addestrare gli LLM su una grande quantità di dati di testo. A causa della quantità di dati di testo che il modello ha visto, l'LLM diventa molto bravo a prevedere la parola successiva in una sequenza.
Il modello diventa così sofisticato che può eseguire molte attività di PNL. Queste attività includono il riepilogo del testo, la creazione di nuovi contenuti e persino la simulazione di conversazioni simili a quelle umane.
Ad esempio, il popolarissimo modello linguistico GPT-3 viene addestrato con oltre 175 miliardi di parametri ed è considerato finora il modello linguistico più avanzato.
È in grado di generare codice funzionante, scrivere interi articoli e può provare a rispondere a domande su qualsiasi argomento.
Come vengono formati gli LLM?
Abbiamo accennato brevemente al fatto che gli LLM devono gran parte del loro potere alla dimensione dei loro dati di addestramento. C'è un motivo per cui, dopotutto, li chiamiamo modelli linguistici "grandi".
Pre-formazione con un'architettura del trasformatore
Durante la fase di pre-formazione, gli LLM vengono introdotti ai dati di testo esistenti per apprendere la struttura generale e le regole di una lingua.
Negli ultimi anni, gli LLM sono stati pre-addestrati su set di dati che coprono una parte significativa dell'Internet pubblico. Ad esempio, il modello linguistico di GPT-3 è stato addestrato sui dati del Scansione comune set di dati, un corpus di post web, pagine web e libri digitalizzati prelevati da oltre 50 milioni di domini.
L'enorme set di dati viene quindi inserito in un modello noto come a trasformatore. I trasformatori sono un tipo di rete neurale profonda che funziona meglio per i dati sequenziali.
I trasformatori usano un architettura codificatore-decodificatore per la gestione dell'input e dell'output. Essenzialmente, il trasformatore contiene due reti neurali: un codificatore e un decodificatore. Il codificatore può estrarre il significato del testo di input e memorizzarlo come vettore. Il decodificatore riceve quindi il vettore e produce la sua interpretazione del testo.
Tuttavia, il concetto chiave che ha permesso all'architettura del trasformatore di funzionare così bene è l'aggiunta di un meccanismo di auto-attenzione. Il concetto di auto-attenzione ha permesso al modello di prestare attenzione alle parole più importanti in una data frase. Il meccanismo considera anche i pesi tra le parole che sono molto distanti in sequenza.
Un altro vantaggio dell'auto-attenzione è che il processo può essere parallelizzato. Invece di elaborare dati sequenziali in ordine, i modelli di trasformatore possono elaborare tutti gli input contemporaneamente. Ciò consente ai trasformatori di addestrarsi su enormi quantità di dati in tempi relativamente brevi rispetto ad altri metodi.
Ritocchi
Dopo la fase di pre-formazione, puoi scegliere di introdurre un nuovo testo per il LLM di base su cui allenarti. Chiamiamo questo processo ritocchi ed è spesso utilizzato per migliorare ulteriormente l'output del LLM su un'attività specifica.
Ad esempio, potresti voler utilizzare un LLM per generare contenuti per il tuo account Twitter. Possiamo fornire al modello diversi esempi dei tuoi tweet precedenti per dargli un'idea dell'output desiderato.
Esistono diversi tipi di messa a punto.
Apprendimento con pochi colpi si riferisce al processo di fornire a un modello un piccolo numero di esempi con l'aspettativa che il modello linguistico capirà come produrre un output simile. Apprendimento one-shot è un processo simile tranne che viene fornito un solo esempio.
Limitazioni dei modelli di linguaggi di grandi dimensioni
Gli LLM come GPT-3 sono in grado di eseguire un gran numero di casi d'uso anche senza messa a punto. Tuttavia, questi modelli hanno ancora una serie di limitazioni.
Mancanza di una comprensione semantica del mondo
In superficie, gli LLM sembrano mostrare intelligenza. Tuttavia, questi modelli non funzionano allo stesso modo del cervello umano fa. Gli LLM si basano esclusivamente su calcoli statistici per generare output. Non hanno la capacità di ragionare su idee e concetti da soli.
Per questo motivo, un LLM può produrre risposte prive di senso semplicemente perché le parole sembrano "giuste" o "statisticamente probabili" quando vengono poste in quel particolare ordine.
Allucinazioni
Anche modelli come GPT-3 soffrono di risposte imprecise. Gli LLM possono soffrire di un fenomeno noto come allucinazione dove i modelli producono una risposta effettivamente errata senza alcuna consapevolezza che la risposta non ha basi nella realtà.
Ad esempio, un utente può chiedere al modello di spiegare i pensieri di Steve Jobs sull'ultimo iPhone. Il modello può generare una quotazione dal nulla in base ai suoi dati di addestramento.
Pregiudizi e conoscenza limitata
Come molti altri algoritmi, i modelli di linguaggio di grandi dimensioni tendono a ereditare i pregiudizi presenti nei dati di addestramento. Man mano che iniziamo a fare più affidamento sugli LLM per recuperare informazioni, gli sviluppatori di questi modelli dovrebbero trovare modi per mitigare gli effetti potenzialmente dannosi delle risposte distorte.
In una capacità simile, anche i punti ciechi dei dati di addestramento del modello ostacoleranno il modello stesso. Attualmente, i modelli linguistici di grandi dimensioni richiedono mesi per l'addestramento. Questi modelli si basano anche su set di dati di portata limitata. Questo è il motivo per cui ChatGPT ha solo una conoscenza limitata degli eventi accaduti dopo il 2021.
Conclusione
I grandi modelli linguistici hanno il potenziale per cambiare veramente il modo in cui interagiamo con la tecnologia e il nostro mondo in generale.
La grande quantità di dati disponibili su Internet ha dato ai ricercatori un modo per modellare le complessità del linguaggio. Tuttavia, lungo la strada, questi modelli linguistici sembrano aver acquisito una comprensione umana del mondo così com'è.
Mentre il pubblico inizia a fidarsi di questi modelli linguistici per fornire risultati accurati, ricercatori e sviluppatori stanno già trovando modi per aggiungere guardrail in modo che la tecnologia rimanga etica.
Quale pensi sia il futuro degli LLM?
Lascia un Commento