Spjega l-Proċess kollu ta' Taħriġ ta' ChatGPT

Werrej[Aħbi][Uri]

Taħriġ minn qabel Ġenerattiv+-
- Il-Kwistjoni tal-Allinjament
Irfinar Issorveljat+-
- Limitazzjonijiet ta' Superviżjoni: Shift Distribuzzjonali
Ibbażat fuq il-preferenzi, it-Tagħlim tal-Premju
X'jagħmel il-Futur?

ChatGPT huwa mudell tal-lingwa ta 'intelliġenza artifiċjali notevoli. Aħna lkoll nużawha biex tgħinna f'diversi kompiti.

Qatt staqsejt kif ġie mħarreġ biex jipproduċi risposti li jidhru daqshekk umani? F'dan l-artikolu, se neżaminaw it-taħriġ ta 'ChatGPT.

Aħna se nispjegaw kif evolviet f'wieħed mill-aktar pendenti mudelli tal-lingwa. Hekk kif nesploraw id-dinja intriganti ta 'ChatGPT, ejja vjaġġ ta' skoperta.

Ħarsa ġenerali lejn it-Taħriġ

ChatGPT huwa mudell tal-ipproċessar tal-lingwa naturali.

Bi ChatGPT, nistgħu ninvolvu ruħna fi djalogi interattivi u diskussjonijiet bħall-bniedem. Hija timpjega approċċ simili għal dak ta ' Istruzzjoni GPT, li huwa mudell tal-lingwa avvanzata. Ġie żviluppat ftit qabel ChatGPT.

Hija timpjega metodu aktar involviment. Dan jippermetti interazzjonijiet naturali tal-utent. Għalhekk, hija għodda perfetta għal varjetà ta 'applikazzjonijiet bħal chatbots u assistenti virtwali.

Il-proċedura ta' taħriġ ta' ChatGPT hija proċess f'diversi stadji. Ġenerative Pretraining huwa l-ewwel pass fit-taħriġ ta 'ChatGPT.

F'din il-fażi, il-mudell huwa mħarreġ bl-użu ta 'korpus mdaqqsa ta' dejta tat-test. Imbagħad, il-mudell jiskopri l-korrelazzjonijiet statistiċi u l-mudelli misjuba fil-lingwa naturali. Allura, jista 'jkollna rispons grammatikament preċiż u koerenti.

Imbagħad nsegwu pass ta 'irfinar sorveljat. F'din il-parti, il-mudell huwa mħarreġ fuq kompitu partikolari. Pereżempju, jista 'jwettaq traduzzjoni tal-lingwa jew iwieġeb mistoqsijiet.

Fl-aħħarnett, ChatGPT juża tagħlim ta 'premju minn feedback uman.

Issa, ejja neżaminaw dawn il-passi.

Taħriġ minn qabel Ġenerattiv

Il-livell inizjali tat-taħriġ huwa Generative Pretraining. Huwa metodu komuni għat-taħriġ tal-mudelli tal-lingwa. Biex toħloq sekwenzi ta' tokens, il-metodu japplika l-"paradigma ta' tbassir tal-pass li jmiss".

Xi tfisser?

Kull token huwa varjabbli uniku. Huma jirrappreżentaw kelma jew parti minn kelma. Il-mudell jipprova jiddetermina liema kelma x'aktarx tiġi wara meta wieħed iqis il-kliem ta' quddiemu. Juża d-distribuzzjoni tal-probabbiltà fit-termini kollha fis-sekwenza tiegħu.

L-iskop tal-mudelli tal-lingwa huwa li jinbnew sekwenzi tokens. Dawn is-sekwenzi għandhom jirrappreżentaw il-mudelli u l-istrutturi tal-lingwa umana. Dan huwa possibbli billi jitħarrġu mudelli fuq kwantitajiet kbar ta 'dejta tat-test.

Imbagħad, din id-dejta tintuża biex tifhem kif il-kliem jitqassam fil-lingwa.

Matul it-taħriġ, il-mudell jibdel il-parametri tad-distribuzzjoni tal-probabbiltà.

U, tipprova tnaqqas id-differenza bejn id-distribuzzjoni mistennija u attwali tal-kliem f'test. Dan huwa possibbli bl-użu ta 'funzjoni ta' telf. Il-funzjoni tat-telf tikkalkula d-differenza bejn id-distribuzzjonijiet mistennija u attwali.

Ipproċessar tal-lingwa naturali u, viżjoni tal-kompjuter huma wieħed mill-oqsma fejn nużaw Generative Pretraining.

Openai 2

Il-Kwistjoni tal-Allinjament

Il-problema tal-allinjament hija waħda mid-diffikultajiet fil-Pretraining Ġenerattiv. Dan jirreferi għad-diffikultà fit-tqabbil tad-distribuzzjoni tal-probabbiltà tal-mudell mad-distribuzzjoni tad-dejta attwali.
Fi kliem ieħor, it-tweġibiet iġġenerati tal-mudell għandhom ikunu aktar bħall-bniedem.

Il-mudell jista' kultant jipprovdi tweġibiet mhux mistennija jew mhux xierqa. U, dan jista 'jkun ikkawżat minn varjetà ta' kawżi, bħall-preġudizzju tad-dejta tat-taħriġ jew in-nuqqas ta 'għarfien tal-kuntest tal-mudell. Il-problema tal-allinjament trid tiġi indirizzata biex titjieb il-kwalità tal-mudelli tal-lingwa.

Biex tingħeleb din il-kwistjoni, mudelli tal-lingwa bħal ChatGPT jimpjegaw tekniki ta 'rfinar.

Irfinar Issorveljat

It-tieni parti tat-taħriġ ChatGPT hija rfinar sorveljat. L-iżviluppaturi umani jidħlu fi djalogi f'dan il-punt, billi jaġixxu kemm bħala l-utent uman kif ukoll bħala chatbot.

Dawn it-taħditiet huma rreġistrati u aggregati f'sett tad-dejta. Kull kampjun ta 'taħriġ jinkludi storja ta' konversazzjoni distinta mqabbla mat-tweġiba li jmiss tal-iżviluppatur uman li jservi bħala l-"chatbot".

L-għan tal-irfinar sorveljat huwa li timmassimizza l-probabbiltà assenjata lis-sekwenza ta 'tokens fit-tweġiba assoċjata mill-mudell. Dan il-metodu huwa magħruf bħala "tagħlim bl-imitazzjoni" jew "klonazzjoni tal-imġieba."

B'dan il-mod il-mudell jista' jitgħallem jipprovdi reazzjonijiet aktar naturali u koerenti. Qed tirreplika t-tweġibiet mogħtija mill-kuntratturi umani.

Irfinar sorveljat huwa fejn il-mudell tal-lingwa jista 'jiġi aġġustat għal kompitu partikolari.

Ejja nagħtu eżempju. Ejja ngħidu li rridu ngħallmu chatbot biex jipprovdi rakkomandazzjonijiet tal-films. Aħna nħarrġu l-mudell tal-lingwa biex ibassru l-klassifikazzjonijiet tal-films ibbażati fuq deskrizzjonijiet tal-films. U, aħna nużaw sett ta 'dejta ta' deskrizzjonijiet u klassifikazzjonijiet tal-films.

L-algoritmu eventwalment isib liema aspetti ta 'film jikkorrispondu għal klassifikazzjonijiet għoljin jew ħżiena.

Wara li jkun imħarreġ, nistgħu nużaw il-mudell tagħna biex nissuġġerixxu films lill-utenti umani. L-utenti jistgħu jiddeskrivu film li jgawdu, u ċ-chatbot juża l-mudell tal-lingwa raffinat biex jirrakkomanda aktar films li huma komparabbli miegħu.

Limitazzjonijiet ta' Superviżjoni: Shift Distribuzzjonali

Irfinar sorveljat huwa tagħlim mudell tal-lingwa biex iwettaq għan speċifikat. Dan huwa possibbli billi tmigħ il-mudell a sett tad-dejta u mbagħad tħarreġha biex tagħmel tbassir. Din is-sistema, madankollu, għandha limiti magħrufa bħala "restrizzjonijiet ta 'superviżjoni."

Waħda minn dawn ir-restrizzjonijiet hija "ċaqliq distribuzzjonali". Tirreferi għall-possibbiltà li d-dejta tat-taħriġ tista' ma tirriflettix b'mod preċiż id-distribuzzjoni tad-dinja reali tal-inputs li jiltaqa' magħhom il-mudell.

Ejja nirrevedu l-eżempju ta 'qabel. Fl-eżempju ta 'suġġeriment tal-films, is-sett tad-dejta użat biex iħarreġ il-mudell jista' ma jirriflettix b'mod preċiż il-varjetà ta 'films u l-preferenzi tal-utent li jiltaqa' magħhom iċ-chatbot. Iċ-chatbot jista' ma jwettaqx kif nixtiequ.

Bħala riżultat, tissodisfa inputs li huma differenti minn dawk li osservat waqt it-taħriġ.

Għal tagħlim sorveljat, meta l-mudell ikun imħarreġ biss fuq sett partikolari ta' każijiet, tqum din il-problema.

Barra minn hekk, il-mudell jista’ jaħdem aħjar quddiem bidla distribuzzjonali jekk it-tagħlim ta’ rinfurzar jintuża biex jgħinh jadatta għal kuntesti ġodda u jitgħallem mill-iżbalji tiegħu.

Ibbażat fuq il-preferenzi, it-Tagħlim tal-Premju

It-tagħlim tal-premju huwa t-tielet stadju ta 'taħriġ fl-iżvilupp ta' chatbot. Fit-tagħlim ta 'premju, il-mudell huwa mgħallem biex jimmassimizza sinjal ta' premju.

Huwa punteġġ li jindika kemm il-mudell qed iwettaq ix-xogħol b'mod effettiv. Is-sinjal tal-premju huwa bbażat fuq input minn nies li jikklassifikaw jew jivvalutaw ir-risposti tal-mudell.

It-tagħlim tal-premju għandu l-għan li jiżviluppa chatbot li jipproduċi tweġibiet ta’ kwalità għolja li l-utenti umani jippreferu. Biex tagħmel dan, teknika ta 'tagħlim tal-magni imsejħa tagħlim ta’ rinfurzar—li jinkludi tagħlim minn feedback fil-forma ta 'premjijiet—jintuża biex iħarreġ il-mudell.

Iċ-chatbot iwieġeb il-mistoqsijiet tal-utent, pereżempju, skont il-ħakma attwali tiegħu tal-kompitu, li jiġi fornut lilu waqt it-tagħlim tal-premju. Imbagħad jingħata sinjal ta’ premju bbażat fuq kemm iwettaq b’mod effettiv iċ-chatbot ladarba t-tweġibiet ikunu ġew evalwati minn imħallfin umani.

Dan is-sinjal tal-premju jintuża mill-chatbot biex jimmodifika s-settings tiegħu. U, ittejjeb il-prestazzjoni tal-kompitu.

Xi Limitazzjonijiet fuq it-Tagħlim tal-Premju

Żvantaġġ tat-tagħlim tal-premju huwa li r-rispons dwar it-tweġibiet taċ-chatbot jista 'ma jasal għal xi żmien peress li s-sinjal tal-premju jista' jkun skars u mdewwem. Bħala riżultat, jista 'jkun ta' sfida li tħarreġ b'suċċess iċ-chatbot minħabba li jista 'ma jirċievix feedback dwar tweġibiet speċifiċi sa ħafna aktar tard.

Kwistjoni oħra hija li l-imħallfin umani jista 'jkollhom fehmiet jew interpretazzjonijiet varjati ta' dak li jagħmel rispons ta 'suċċess, li jista' jwassal għal preġudizzju fis-sinjal tal-premju. Biex jitnaqqas dan, huwa spiss utilizzat minn diversi imħallfin biex jagħti sinjal ta 'premju aktar affidabbli.

X'jagħmel il-Futur?

Hemm diversi passi futuri potenzjali biex itejbu aktar il-prestazzjoni ta' ChatGPT.

Biex tiżdied il-komprensjoni tal-mudell, rotta futura potenzjali hija li tinkludi aktar settijiet ta 'dejta ta' taħriġ u sorsi ta 'dejta. It-titjib tal-kapaċità tal-mudell li jifhem u jqis inputs mhux testwali huwa possibbli wkoll.

Pereżempju, mudelli tal-lingwa jistgħu jifhmu viżwali jew ħsejjes.

Billi jinkorporaw tekniki speċifiċi ta 'taħriġ, ChatGPT jista' wkoll jittejjeb għal ċerti kompiti. Per eżempju, jista 'jwettaq analiżi ta 'sentiment jew produzzjoni tal-lingwa naturali. Bħala konklużjoni, ChatGPT u mudelli lingwistiċi relatati juru wegħda kbira għall-avvanz.

Il-Proċess ta' Taħriġ kollu ta' ChatGPT Spjegat

Ħarsa ġenerali lejn it-Taħriġ

Taħriġ minn qabel Ġenerattiv

Il-Kwistjoni tal-Allinjament

Irfinar Issorveljat

Limitazzjonijiet ta' Superviżjoni: Shift Distribuzzjonali

Ibbażat fuq il-preferenzi, it-Tagħlim tal-Premju

Xi Limitazzjonijiet fuq it-Tagħlim tal-Premju

X'jagħmel il-Futur?

dwar İlke Candan Bengi

Aktar Artikoli fuq HashDork:

Kif tnaqqas l-alluċinazzjonijiet fl-AI tiegħek

Colossyan vs Heygen

Dan Future Tech Newsletter Ma Terdax

Il-Proċess ta' Taħriġ kollu ta' ChatGPT Spjegat

Ħarsa ġenerali lejn it-Taħriġ

Taħriġ minn qabel Ġenerattiv

Il-Kwistjoni tal-Allinjament

Irfinar Issorveljat

Limitazzjonijiet ta' Superviżjoni: Shift Distribuzzjonali

Ibbażat fuq il-preferenzi, it-Tagħlim tal-Premju

Xi Limitazzjonijiet fuq it-Tagħlim tal-Premju

X'jagħmel il-Futur?

dwar İlke Candan Bengi

Aktar Artikoli fuq HashDork:

Kif tnaqqas l-alluċinazzjonijiet fl-AI tiegħek

10 L-Aħjar Għodod tal-AI għall-Midja Soċjali

Colossyan vs Heygen

10 L-Aħjar Għodod Animated Video Maker AI

Interazzjonijiet Reader

Ħalli Irrispondi Ikkanċella risposta

Dan Future Tech Newsletter Ma Terdax