I gjithë procesi i trajnimit të ChatGPT Shpjegohet

Përmbajtje[Fshih][Shfaqje]

Para-trajnimi gjenerues+-
- Çështja e shtrirjes
Akordim i shkëlqyer i mbikëqyrur+-
- Kufizimet e Mbikëqyrjes: Ndërrimi i Shpërndarjes
Bazuar në Preferencat, Shpërbleni Mësimin
Çfarë mban e ardhmja?

ChatGPT është një model i mrekullueshëm i gjuhës së inteligjencës artificiale. Ne të gjithë e përdorim atë për të na ndihmuar në detyra të ndryshme.

A keni pyetur ndonjëherë se si ishte trajnuar për të prodhuar përgjigje që duken kaq të ngjashme me njeriun? Në këtë artikull, ne do të shqyrtojmë trajnimin e ChatGPT.

Ne do të shpjegojmë se si ka evoluar në një nga më të shquarit modelet gjuhësore. Ndërsa eksplorojmë botën intriguese të ChatGPT, ejani në një udhëtim zbulimi.

Pasqyrë e Trajnimit

ChatGPT është një model përpunimi i gjuhës natyrore.

Me ChatGPT, ne mund të përfshihemi në dialogë ndërveprues dhe diskutime të ngjashme me njerëzit. Ai përdor një qasje të ngjashme me atë të Udhëzoni GPT, i cili është një model gjuhësor më i avancuar. Ai u zhvillua pak përpara ChatGPT.

Ai përdor një metodë më tërheqëse. Kjo mundëson ndërveprime natyrale të përdoruesve. Pra, është një mjet i përsosur për një sërë aplikacionesh të tilla si chatbots dhe asistentë virtualë.

Procedura e trajnimit të ChatGPT është një proces me shumë faza. Paratrajnimi gjenerues është hapi i parë në trajnimin e ChatGPT.

Në këtë fazë, modeli trajnohet duke përdorur një korpus të konsiderueshëm të dhënash teksti. Më pas, modeli zbulon korrelacionet statistikore dhe modelet që gjenden në gjuhën natyrore. Pra, mund të kemi një përgjigje gramatikisht të saktë dhe koherente.

Më pas ndjekim një hap të rregullimit të mbikëqyrur. Në këtë pjesë, modeli trajnohet për një detyrë të caktuar. Për shembull, mund të kryejë përkthim gjuhësor ose përgjigje në pyetje.

Më në fund, ChatGPT përdor të mësuarit e shpërblimeve nga reagimet njerëzore.

Tani, le të shqyrtojmë këto hapa.

Para-trajnimi gjenerues

Niveli fillestar i trajnimit është Paratrajnimi Gjenerativ. Është një metodë e zakonshme për trajnimin e modeleve gjuhësore. Për të krijuar sekuenca simbolike, metoda zbaton "paradigmën e parashikimit të hapit tjetër".

Farë do të thotë?

Çdo shenjë është një ndryshore unike. Ato përfaqësojnë një fjalë ose një pjesë të një fjale. Modeli përpiqet të përcaktojë se cila fjalë ka më shumë gjasa të vijë më pas duke pasur parasysh fjalët para saj. Ai përdor shpërndarjen e probabilitetit në të gjithë termat në sekuencën e tij.

Qëllimi i modeleve gjuhësore është të ndërtojnë sekuenca simbolike. Këto sekuenca duhet të përfaqësojnë modelet dhe strukturat e gjuhës njerëzore. Kjo është e mundur duke trajnuar modele në sasi të mëdha të të dhënave tekstuale.

Më pas, këto të dhëna përdoren për të kuptuar se si shpërndahen fjalët në gjuhë.

Gjatë trajnimit, modeli ndryshon parametrat e shpërndarjes së probabilitetit.

Dhe, ai përpiqet të zvogëlojë diferencën midis shpërndarjes së pritur dhe asaj aktuale të fjalëve në një tekst. Kjo është e mundur me përdorimin e një funksioni humbjeje. Funksioni i humbjes njehson diferencën midis shpërndarjes së pritur dhe asaj aktuale.

Përpunimi i gjuhës natyrale vizion kompjuteri janë një nga fushat ku ne përdorim Paratrajnimin Gjenerativ.

Openai 2

Çështja e shtrirjes

Problemi i shtrirjes është një nga vështirësitë në Paratrajnimin Gjenerativ. Kjo i referohet vështirësisë në përputhjen e shpërndarjes së probabilitetit të modelit me shpërndarjen e të dhënave aktuale.
Me fjalë të tjera, përgjigjet e krijuara nga modeli duhet të jenë më të ngjashme me njeriun.

Modeli herë pas here mund të japë përgjigje të papritura ose të pahijshme. Dhe, kjo mund të shkaktohet nga një sërë shkaqesh, të tilla si paragjykimi i të dhënave të trajnimit ose mungesa e ndërgjegjësimit të kontekstit të modelit. Problemi i shtrirjes duhet të adresohet për të përmirësuar cilësinë e modeleve gjuhësore.

Për të kapërcyer këtë problem, modelet gjuhësore si ChatGPT përdorin teknika të rregullimit të imët.

Akordim i shkëlqyer i mbikëqyrur

Pjesa e dytë e trajnimit ChatGPT është rregullimi i mbikëqyrur. Zhvilluesit njerëzorë angazhohen në dialog në këtë pikë, duke vepruar si përdorues njerëzor dhe si chatbot.

Këto biseda regjistrohen dhe grumbullohen në një grup të dhënash. Çdo kampion trajnimi përfshin një histori të veçantë bisedash të përputhur me përgjigjen tjetër të zhvilluesit njerëzor që shërben si "chatbot".

Qëllimi i akordimit të mbikëqyrur është të maksimizojë probabilitetin e caktuar për sekuencën e shenjave në përgjigjen shoqëruese nga modeli. Kjo metodë njihet si "të mësuarit imitues" ose "klonimi i sjelljes".

Në këtë mënyrë modeli mund të mësojë të japë përgjigje më të natyrshme dhe koherente. Ai po përsërit përgjigjet e dhëna nga kontraktorët njerëzorë.

Rregullimi i mbikëqyrur është vendi ku modeli i gjuhës mund të rregullohet për një detyrë të caktuar.

Le të japim një shembull. Supozoni se duam të mësojmë një chatbot për të ofruar rekomandime për filma. Ne do të trajnojmë modelin e gjuhës për të parashikuar vlerësimet e filmave bazuar në përshkrimet e filmit. Dhe, ne do të përdornim një grup të dhënash të përshkrimeve dhe vlerësimeve të filmave.

Algoritmi përfundimisht do të kuptonte se cilat aspekte të një filmi korrespondonin me vlerësime të larta ose të dobëta.

Pasi të trajnohet, ne mund të përdorim modelin tonë për t'u sugjeruar filma përdoruesve njerëzorë. Përdoruesit mund të përshkruajnë një film që u pëlqen, dhe chatbot do të përdorte modelin e rafinuar të gjuhës për të rekomanduar më shumë filma që janë të krahasueshëm me të.

Kufizimet e Mbikëqyrjes: Ndërrimi i Shpërndarjes

Përshtatja e mbikëqyrur është të mësosh një model gjuhësor për të përmbushur një qëllim të caktuar. Kjo është e mundur duke ushqyer modelin a databaza dhe më pas e trajnoni për të bërë parashikime. Sidoqoftë, ky sistem ka kufizime të njohura si "kufizime të mbikëqyrjes".

Një nga këto kufizime është "zhvendosja e shpërndarjes". Ai i referohet mundësisë që të dhënat e trajnimit të mos pasqyrojnë me saktësi shpërndarjen në botën reale të inputeve që modeli do të haste.

Le të shqyrtojmë shembullin e mëparshëm. Në shembullin e sugjerimit të filmit, grupi i të dhënave i përdorur për të trajnuar modelin mund të mos pasqyrojë me saktësi shumëllojshmërinë e filmave dhe preferencat e përdoruesve që do të haste chatbot. Chatbot mund të mos funksionojë aq mirë sa do të dëshironim.

Si rezultat, ai plotëson inpute që janë të ndryshme nga ato që vëzhgoi gjatë trajnimit.

Për mësimin e mbikëqyrur, kur modeli trajnohet vetëm në një grup të caktuar shembujsh, lind ky problem.

Për më tepër, modeli mund të performojë më mirë përballë një ndryshimi të shpërndarjes nëse përdoret mësimi përforcues për ta ndihmuar atë të përshtatet me kontekstet e reja dhe të mësojë nga gabimet e tij.

Bazuar në Preferencat, Shpërbleni Mësimin

Mësimi me shpërblim është faza e tretë e trajnimit në zhvillimin e një chatbot. Në mësimin e shpërblimit, modeli mësohet të maksimizojë një sinjal shpërblimi.

Është një rezultat që tregon se sa efektivisht modeli po e kryen punën. Sinjali i shpërblimit bazohet në të dhëna nga njerëzit që vlerësojnë ose vlerësojnë përgjigjet e modelit.

Mësimi i shpërblimit synon të zhvillojë një chatbot që prodhon përgjigje me cilësi të lartë që preferojnë përdoruesit njerëzorë. Për ta bërë këtë, një teknikë e mësimit të makinës quhet të mësuarit përforcues – që përfshin të mësuarit nga reagimet në formën e shpërblimeve-përdoret për të trajnuar modelin.

Chatbot u përgjigjet pyetjeve të përdoruesve, për shembull, në varësi të zotërimit aktual të detyrës, e cila i jepet atij gjatë mësimit të shpërblimit. Më pas jepet një sinjal shpërblimi bazuar në atë se sa efektivisht funksionon chatbot pasi përgjigjet të jenë vlerësuar nga gjyqtarët njerëzorë.

Ky sinjal shpërblimi përdoret nga chatbot për të modifikuar cilësimet e tij. Dhe, rrit performancën e detyrës.

Disa kufizime në të mësuarit me shpërblim

Një pengesë e mësimit të shpërblimit është se reagimet për përgjigjet e chatbot-it mund të mos vijnë për ca kohë pasi sinjali i shpërblimit mund të jetë i rrallë dhe i vonuar. Si rezultat, mund të jetë sfiduese për të trajnuar me sukses chatbot sepse mund të mos marrë reagime për përgjigje specifike deri shumë më vonë.

Një çështje tjetër është se gjyqtarët njerëzorë mund të kenë pikëpamje ose interpretime të ndryshme të asaj që e bën një përgjigje të suksesshme, gjë që mund të çojë në njëanshmëri në sinjalin e shpërblimit. Për ta zvogëluar këtë, shpesh përdoret nga disa gjyqtarë për të dhënë një sinjal shpërblimi më të besueshëm.

Çfarë mban e ardhmja?

Ka disa hapa të mundshëm në të ardhmen për të përmirësuar më tej performancën e ChatGPT.

Për të rritur të kuptuarit e modelit, një rrugë e mundshme në të ardhmen është përfshirja e më shumë grupeve të të dhënave të trajnimit dhe burimeve të të dhënave. Rritja e kapacitetit të modelit për të kuptuar dhe marrë parasysh inputet jotekstuale është gjithashtu i mundur.

Për shembull, modelet gjuhësore mund të kuptojnë pamjet ose tingujt.

Duke përfshirë teknika specifike trajnimi, ChatGPT mund të përmirësohet edhe për detyra të caktuara. Për shembull, mund të performojë Analiza ndjenjë ose prodhimi i gjuhës natyrore. Si përfundim, ChatGPT dhe modelet e gjuhës përkatëse tregojnë premtime të mëdha për avancim.

Shpjegohet i gjithë procesi i trajnimit të ChatGPT

Pasqyrë e Trajnimit

Para-trajnimi gjenerues

Çështja e shtrirjes

Akordim i shkëlqyer i mbikëqyrur

Kufizimet e Mbikëqyrjes: Ndërrimi i Shpërndarjes

Bazuar në Preferencat, Shpërbleni Mësimin

Disa kufizime në të mësuarit me shpërblim

Çfarë mban e ardhmja?

Rreth Nesh İlke Candan Bengi

Më shumë artikuj në HashDork:

Si të reduktoni halucinacionet në AI tuaj

Colossyan vs Heygen

Ky buletin i teknologjisë së së ardhmes nuk është i këndshëm

Shpjegohet i gjithë procesi i trajnimit të ChatGPT

Pasqyrë e Trajnimit

Para-trajnimi gjenerues

Çështja e shtrirjes

Akordim i shkëlqyer i mbikëqyrur

Kufizimet e Mbikëqyrjes: Ndërrimi i Shpërndarjes

Bazuar në Preferencat, Shpërbleni Mësimin

Disa kufizime në të mësuarit me shpërblim

Çfarë mban e ardhmja?

Rreth Nesh İlke Candan Bengi

Më shumë artikuj në HashDork:

Si të reduktoni halucinacionet në AI tuaj

10 Mjetet më të mira të AI për mediat sociale

Colossyan vs Heygen

10 Mjetet më të mira të krijimit të videove të animuara me AI

Ndërveprimet lexues

Lini një Përgjigju Cancel përgjigje

Ky buletin i teknologjisë së së ardhmes nuk është i këndshëm