ChatGPT hè un mudellu di lingua di intelligenza artificiale notevuli. Tutti l'utilicemu per aiutà in diverse attività.
Avete mai dumandatu cumu hè statu furmatu per pruduce risposte chì parevanu cusì umani? In questu articulu, esamineremu a furmazione di ChatGPT.
Spiegheremu cumu si hè evolutu in unu di i più eccezziunali mudelli di lingua. Mentre esploremu u mondu intrigante di ChatGPT, venite in un viaghju di scuperta.
Panoramica di Training
ChatGPT hè un mudellu di trasfurmazioni di lingua naturale.
Cù ChatGPT, pudemu impegnà in dialoghi interattivi è discussioni umani. Impiega un approcciu simile à quellu di Instruisce GPT, chì hè un mudellu di lingua di punta. Hè statu sviluppatu pocu prima di ChatGPT.
Impiega un metudu più attraente. Questu permette interazzione naturali di l'utilizatori. Dunque, hè un strumentu perfettu per una varietà di applicazioni cum'è chatbots è assistenti virtuali.
A prucedura di furmazione di ChatGPT hè un prucessu in più tappe. Generative Pretraining hè u primu passu in a furmazione di ChatGPT.
In questa fase, u mudellu hè furmatu cù un corpus grande di dati testu. Allora, u mudellu scopre e correlazioni statistiche è mudelli truvati in lingua naturale. Dunque, pudemu avè una risposta grammaticamente precisa è coherente.
Allora seguitamu un passu di fine-tuning tutelatu. In questa parte, u mudellu hè furmatu nantu à un compitu particulari. Per esempiu, pò fà traduzzione di lingua o risposta à e dumande.
Infine, ChatGPT usa l'apprendimentu di ricumpensa da u feedback umanu.
Avà, esaminemu sti passi.
Preformazione generativa
U livellu iniziale di furmazione hè Generative Pretraining. Hè un metudu cumuni per a furmazione di mudelli di lingua. Per creà sequenze di token, u metudu applicà u "paradigma di prediczione di u prossimu passu".
Cosa significa?
Ogni token hè una variabile unica. Rappresentanu una parolla o una parte di una parolla. U mudellu prova di determinà quale parolla hè più prubabile di vene dopu datu e parolle prima. Utiliza a distribuzione di probabilità in tutti i termini in a so sequenza.
U scopu di i mudelli di lingua hè di custruisce sequenze di token. Queste sequenze duveranu rapprisintà i mudelli è strutture di a lingua umana. Questu hè pussibule da furmazione di mudelli nantu à quantità enormi di dati di testu.
Allora, sti dati sò usati per capisce cumu e parolle sò distribuite in a lingua.
Durante a furmazione, u mudellu cambia i paràmetri di distribuzione di probabilità.
E, prova di riduce a diffarenza trà a distribuzione prevista è attuale di e parolle in un testu. Questu hè pussibule cù l'usu di una funzione di perdita. A funzione di perdita calcula a diffarenza trà a distribuzione prevista è attuale.
L'elaborazione di a lingua naturale e visione per computer sò unu di i zoni induve avemu aduprà Generative Pretraining.
U prublema di allineamentu
U prublema di allineamentu hè una di e difficultà in Pretraining Generative. Questu fa riferimentu à a difficultà di cunfurmà a distribuzione di probabilità di u mudellu à a distribuzione di e dati attuali.
In altre parolle, e risposte generate da u mudellu duveranu esse più umani.
U mudellu pò dà occasionalmente risposte inespettate o improprie. È, questu pò esse causatu da una varietà di cause, cum'è u preghjudiziu di dati di furmazione o a mancanza di cuscenza di u cuntestu di u mudellu. U prublema di allinamentu deve esse trattatu per migliurà a qualità di mudelli di lingua.
Per superà stu prublema, i mudelli di lingua cum'è ChatGPT impieganu tecniche di fine-tuning.
Sintonizazione fine cunservata
A seconda parte di a furmazione ChatGPT hè una fine-tuning supervisata. I sviluppatori umani s'impegnanu in dialoghi à questu puntu, agiscenu cum'è l'utilizatore umanu è u chatbot.
Queste discussioni sò arregistrati è aggregati in un dataset. Ogni mostra di furmazione include una storia di cunversazione distinta cumminata cù a prossima risposta di u sviluppatore umanu chì serve cum'è "chatbot".
U scopu di fine-tuning tutelatu hè di maximizà a probabilità assignata à a sequenza di tokens in a risposta assuciata da u mudellu. Stu metudu hè cunnisciutu cum'è "imitazione di apprendimentu" o "clonazione di cumpurtamentu".
In questu modu, u mudellu pò amparà à furnisce risposte più naturali è coerenti. Hè replicate e risposte date da i cuntratturi umani.
A fine-tuning supervisata hè induve u mudellu di lingua pò esse adattatu per un compitu particulari.
Demu un esempiu. Suppone chì vulemu insignà à un chatbot per furnisce cunsiglii di filmi. Avemu furmà u mudellu di lingua per predichendu e classificazioni di filmi basatu nantu à e descrizioni di filmi. E, avemu aduprà un inseme di dati di descrizzioni di filmi è valutazioni.
L'algoritmu eventualmente capisce quale aspetti di un filmu currispondenu à qualificazioni alte o poveri.
Dopu chì hè furmatu, pudemu usà u nostru mudellu per suggerisce filmi à l'utilizatori umani. L'utilizatori puderanu discrive un filmu chì piacenu, è u chatbot aduprà u mudellu di lingua raffinata per ricumandà più filmi chì sò paragunabili à questu.
Limitazioni di a supervisione: Shift Distributional
A fine tuning supervisata hè l'insignamentu di un mudellu di lingua per realizà un scopu specificu. Questu hè pussibule alimentandu u mudellu a set di dati e poi a furmazione per fà predizioni. Stu sistema, però, hà limiti cunnisciuti cum'è "restrizioni di supervisione".
Una di queste restrizioni hè "shift distributional". Si riferisce à a pussibilità chì i dati di furmazione ùn ponu micca riflette accuratamente a distribuzione reale di inputs chì u mudellu scontru.
Rivedemu l'esempiu di prima. In l'esempiu di suggerimentu di filmu, u dataset utilizatu per furmà u mudellu ùn pò micca riflette accuratamente a varietà di filmi è preferenze di l'utilizatori chì u chatbot scontru. U chatbot puderia micca fà cum'è vulemu.
In u risultatu, scontra inputs chì sò dissimili da quelli chì hà osservatu durante a furmazione.
Per l'apprendimentu supervisatu, quandu u mudellu hè furmatu solu nantu à un determinatu inseme d'istanze, stu prublema sorge.
Inoltre, u mudellu pò esse megliu di fronte à un cambiamentu distributivu se l'apprendimentu di rinforzu hè adupratu per aiutà à adattà à novi cuntesti è amparà da i so sbagli.
Basatu nantu à Preferenze, Reward Learning
L'apprendimentu di ricumpensa hè a terza tappa di furmazione in u sviluppu di un chatbot. In l'apprendimentu di ricumpensa, u mudellu hè insegnatu per maximizà un signalu di ricumpensa.
Hè un puntuatu chì indica l'efficacezza chì u mudellu hè realizatu u travagliu. U signale di ricumpensa hè basatu annantu à l'input da e persone chì valutanu o valutanu e risposte di u mudellu.
L'apprendimentu di ricumpensa hà per scopu di sviluppà un chatbot chì pruduce risposte d'alta qualità chì l'utilizatori umani preferanu. Per fà questu, una tecnica di machine learning chjamata apprendimentu di rinforzu-chì include l'apprendimentu da feedback in forma di ricumpensa-hè utilizatu per furmà u mudellu.
U chatbot risponde à e dumande di l'utilizatori, per esempiu, secondu a so intelligenza attuale di u compitu, chì li hè furnitu durante l'apprendimentu di ricumpensa. Un signalu di ricumpensa hè dunque datu basatu annantu à quantu efficace u chatbot esegue una volta chì e risposte sò state valutate da i ghjudici umani.
Stu signalu di ricumpensa hè utilizatu da u chatbot per mudificà i so paràmetri. È, aumenta u rendiment di u travagliu.
Alcune limitazioni à l'apprendimentu di ricumpensa
Un inconveniente di l'apprendimentu di ricumpensa hè chì u feedback nantu à e risposte di u chatbot ùn pò micca vene per qualchì tempu postu chì u signale di ricumpensa puderia esse sparse è ritardatu. In u risultatu, pò esse sfida à furmà cun successu u chatbot perchè ùn pò micca riceve feedback nantu à risposte specifiche finu à assai più tardi.
Un altru prublema hè chì i ghjudici umani ponu avè diverse opinioni o interpretazioni di ciò chì face una risposta riescita, chì puderia purtà à preghjudiziu in u signale di ricumpensa. Per riduce questu, hè spessu utilizatu da parechji ghjudici per furnisce un signalu di ricumpensa più affidabile.
Chì Cume U Futuru?
Ci sò parechji passi futuri potenziali per rinfurzà ancu u rendiment di ChatGPT.
Per aumentà a comprensione di u mudellu, una strada potenziale futura hè di include più datasets di furmazione è fonti di dati. Aumentà a capacità di u mudellu di capisce è di piglià in contu l'inputs non testuali hè ancu pussibule.
Per esempiu, mudelli di lingua puderia capisce visuale o sonu.
Incorporandu tecniche di furmazione specifiche ChatGPT pò ancu esse migliuratu per certi travaglii. Per esempiu, pò esse realizatu analisi di sintimentu o pruduzzione di lingua naturale. In cunclusioni, ChatGPT è mudelli di lingua ligata mostranu una grande prumessa per avanzà.
Lascia un Audiolibro