Grandi mudelli di lingua: Tuttu ciò chì avete bisognu di sapè

Table di cuntinutu[Piattà][Mostra]

Chì ghjè un mudellu di lingua maiò?
Cumu sò furmati LLM?+-
- Pre-formazione cù una Architettura Transformer
- Affinamentu
Limitazioni di mudelli di lingua maiò+-
cunchiusioni

Un prublema classicu in l'intelligenza artificiale hè a ricerca di una macchina chì pò capisce a lingua umana.

Per esempiu, quandu cercate "ristoranti italiani vicinu" in u vostru mutore di ricerca favuritu, un algoritmu hà da analizà ogni parolla in a vostra dumanda è pruduce i risultati pertinenti. Una app di traduzzione decentu duverà capisce u cuntestu di una parolla particulari in inglese è di qualchì manera cuntà e differenze di grammatica trà e lingue.

Tutti issi compiti è assai di più cadenu sottu à u subcampu di l'informatica cunnisciutu cum'è Elaborazione di a Lingua Naturale o NLP. L'avanzati in NLP anu purtatu à una larga gamma di applicazioni pratiche da assistenti virtuali cum'è Alexa di Amazon à i filtri spam chì rilevanu email maliziusi.

L'ultima svolta in PNL hè l'idea di a grande mudellu di lingua o LLM. LLM, cum'è GPT-3, sò diventati cusì putenti chì parenu avè successu in quasi ogni compitu NLP o casu d'usu.

In questu articulu, guardemu ciò chì sò esattamente i LLMs, cumu questi mudelli sò furmatu, è e limitazioni attuali chì anu.

Chì ghjè un mudellu di lingua maiò?

À u so core, un mudellu di lingua hè solu un algoritmu chì sapi quantu prubabile una sequenza di parolle hè una frase valida.

Un mudellu di lingua assai simplice furmatu nantu à uni pochi di cintunari di libri duveria esse capace di dì chì "Hè andatu in casa" hè più validu di "Casa andò ellu".

Se rimpiazzamu u dataset relativamente chjucu cù un dataset massiu scraped da Internet, cuminciamu à avvicinà l'idea di un grande mudellu di lingua.

Praticà Redes neuronali, i circadori ponu furmà LLM nantu à una grande quantità di dati di testu. A causa di a quantità di dati di testu chì u mudellu hà vistu, u LLM diventa assai bonu per predichendu a prossima parolla in una sequenza.

U mudellu diventa cusì sofisticatu, pò esse realizatu assai travaglii NLP. Questi compiti includenu a riassunzione di testu, a creazione di cuntenutu novu, è ancu a simulazione di una conversazione umana.

mudeli di lingua maiò ponu creà un cuntenutu novu basatu nantu à prompts

Per esempiu, u mudellu di lingua GPT-3 assai pupulari hè furmatu cù più di 175 miliardi di parametri è hè cunsideratu cum'è u mudellu di lingua più avanzatu finu à quì.

Hè capace di generà codice di travagliu, scrive articuli interi, è pò piglià un colpu à risponde à e dumande nantu à qualsiasi tema.

Cumu sò furmati LLM?

Avemu brevemente toccu u fattu chì i LLM duvemu assai di u so putere à a dimensione di i so dati di furmazione. Ci hè un mutivu per quessa ch'elli chjamemu mudelli di lingua "grande" dopu tuttu.

Pre-formazione cù una Architettura Transformer

Duranti a tappa di pre-furmazione, i LLM sò intrudutti à i dati di testu esistenti per amparà a struttura generale è e regule di una lingua.

In l'ultimi anni, i LLM sò stati pre-furmati in datasets chì coprenu una parte significativa di l'internet publicu. Per esempiu, u mudellu di lingua di GPT-3 hè statu furmatu nantu à e dati da u Crawl cumuni dataset, un corpus di posti web, pagine web è libri digitalizzati scraped da più di 50 milioni di domini.

U dataset massivu hè allora alimentatu in un mudellu cunnisciutu cum'è a transformer. Trasformatori sò un tipu di rete neurale prufonda chì travaglia megliu per dati sequenziale.

mudelli di lingua maiò usanu transformatori

Trasformatori utilizanu un architettura encoder-decoder per a gestione di input è output. Essenzialmente, u trasformatore cuntene duie reti neurali: un codificatore è un decodificatore. L'encoder pò estrarà u significatu di u testu di input è almacenà cum'è un vettore. U decodificatore riceve u vettore è pruduce a so interpretazione di u testu.

Tuttavia, u cuncettu chjave chì hà permessu à l'architettura di u trasformatore di travaglià cusì bè hè l'aghjuntu di a mecanismu d'auto-attenzione. U cuncettu di l'auto-attenzione hà permessu à u mudellu di attente à e parolle più impurtanti in una frase determinata. U mecanismu ancu cunsiderà i pesi trà e parolle chì sò alluntanati in sequenza.

Un altru benefiziu di l'auto-attenzione hè chì u prucessu pò esse parallelizatu. Invece di trasfurmà e dati sequenziale in ordine, i mudelli di trasformatori ponu processà tutti l'inputs in una volta. Questu permette à i trasformatori di furmà in quantità enormi di dati relativamente rapidamente cumparatu cù altri metudi.

Affinamentu

Dopu à a tappa di pre-furmazione, pudete sceglie di presentà un novu testu per a basa LLM per furmà. Chjamemu stu prucessu fine-tuning è hè spessu usatu per migliurà ulteriormente l'output di u LLM in un compitu specificu.

Per esempiu, pudete vulete utilizà un LLM per generà cuntenutu per u vostru contu Twitter. Pudemu furnisce u mudellu cù parechji esempi di i vostri tweets precedenti per dà una idea di a pruduzzioni desiderata.

Ci sò parechji tippi di fine-tuning.

mudeli di lingua maiò sò capaci di pocu spartu apprendimentu

Apprendimentu à pocu pressu si riferisce à u prucessu di dà un mudellu un picculu numeru di esempi cù l'aspettativa chì u mudellu di lingua hà da capisce cumu fà una pruduzzioni simili. Apprendimentu one-shot hè un prucessu simile, salvu solu un esempiu hè furnitu.

Limitazioni di mudelli di lingua maiò

LLM cum'è GPT-3 sò capaci di realizà un gran numaru di casi d'usu ancu senza fine-tuning. Tuttavia, sti mudelli venenu sempre cù u so propiu settore di limitazioni.

Mancanza di una comprensione semantica di u mondu

À a superficia, i LLM parevanu di vede intelligenza. Tuttavia, sti mudelli ùn operanu micca u listessu modu u sensu umanu faci. I LLM si basanu solu nantu à e computazioni statistiche per generà output. Ùn anu micca a capacità di ragiunà idee è cuncetti per sè stessu.

Per via di questu, un LLM pò pruduce risposte senza sensu solu perchè e parolle parenu "giuste" o "statisticamente probabili" quandu si mette in quellu ordine particulare.

Hallucinations

I mudelli cum'è GPT-3 soffrenu ancu di risposti imprecisi. LLM pò soffre di un fenomenu cunnisciutu cum'è allucinazione induve i mudelli producianu una risposta in fattu sbagliata senza alcuna cuscenza chì a risposta ùn hà micca una basa in a realità.

Per esempiu, un utilizatore pò dumandà à u mudellu per spiegà u pensamentu di Steve Jobs nantu à l'ultimu iPhone. U mudellu pò generà una citazione da l'aria fina basatu annantu à i so dati di furmazione.

Preghjudizii è cunniscenza limitata

Cum'è parechji altri algoritmi, i grandi mudelli di lingua sò propensi à eredite i preghjudizii prisenti in i dati di furmazione. Cume cuminciamu à confià più nantu à i LLM per ricuperà l'infurmazioni, i sviluppatori di questi mudelli anu da truvà modi per mitigà l'effetti potenzialmente dannosi di risposti biased.

In una capacità simili, i blindspots di i dati di furmazione di u mudellu impediscenu ancu u mudellu stessu. Attualmente, i grandi mudelli di lingua piglianu mesi per furmà. Questi mudelli si basanu ancu in datasets chì sò limitati in u scopu. Hè per quessa ChatGPT hà solu una cunniscenza limitata di l'avvenimenti accaduti dopu à u 2021.

cunchiusioni

I mudelli di lingua maiò anu u putenziale di cambià veramente cumu interagisce cù a tecnulugia è u nostru mondu in generale.

A vasta quantità di dati dispunibuli nantu à l'internet hà datu à i circadori un modu per modellà e cumplessità di a lingua. In ogni modu, in u caminu, sti mudelli di lingua pare avè pigliatu una cunniscenza umana di u mondu cum'è hè.

Cum'è u publicu principia à fiducia in sti mudelli di lingua per furnisce un output precisu, i circadori è i sviluppatori sò digià truvà modi per aghjunghje guardrails in modu chì a tecnulugia ferma etica.

Chì pensate chì hè u futuru di LLM?

Grandi mudelli di lingua: Tuttu ciò chì avete bisognu di sapè

Chì ghjè un mudellu di lingua maiò?

Cumu sò furmati LLM?