Hele træningsprocessen i ChatGPT forklaret

Indholdsfortegnelse[Skjule][At vise]

Generativ fortræning+-
- Tilpasningsspørgsmålet
Overvåget finjustering+-
- Tilsynsbegrænsninger: Distributionsskift
Baseret på præferencer, belønningslæring
Hvad skal fremtiden holde?

ChatGPT er en bemærkelsesværdig kunstig intelligens sprogmodel. Vi bruger det alle til at hjælpe os med forskellige opgaver.

Har du nogensinde stillet spørgsmålstegn ved, hvordan den blev trænet til at producere svar, der virker så menneskelignende? I denne artikel vil vi undersøge træningen af ChatGPT.

Vi vil forklare, hvordan den har udviklet sig til en af de mest fremragende sprogmodeller. Mens vi udforsker ChatGPT's spændende verden, så tag med på en opdagelsesrejse.

Oversigt over træning

ChatGPT er en naturlig sprogbehandlingsmodel.

Med ChatGPT kan vi deltage i interaktive dialoger og menneskelignende diskussioner. Den anvender en tilgang svarende til Instruer GPT, som er en banebrydende sprogmodel. Det blev udviklet kort før ChatGPT.

Det bruger en mere engagerende metode. Dette muliggør naturlige brugerinteraktioner. Så det er et perfekt værktøj til en række applikationer såsom chatbots og virtuelle assistenter.

ChatGPTs træningsprocedure er en proces i flere trin. Generativ fortræning er det første trin i træningen af ChatGPT.

I denne fase trænes modellen ved hjælp af et betydeligt korpus af tekstdata. Derefter opdager modellen de statistiske korrelationer og mønstre, der findes i naturligt sprog. Så vi kan få et grammatisk nøjagtigt og sammenhængende svar.

Derefter følger vi et trin med overvåget finjustering. I denne del trænes modellen på en bestemt opgave. For eksempel kan den udføre sprogoversættelse eller besvarelse af spørgsmål.

Endelig bruger ChatGPT belønningslæring fra menneskelig feedback.

Lad os nu undersøge disse trin.

Generativ fortræning

Det indledende træningsniveau er Generativ fortræning. Det er en almindelig metode til træning af sprogmodeller. For at skabe token-sekvenser anvender metoden "næste trins forudsigelsesparadigme".

Hvad betyder det?

Hvert token er en unik variabel. De repræsenterer et ord eller en del af et ord. Modellen forsøger at bestemme, hvilket ord der er mest sandsynligt, der kommer næste gang givet ordene før det. Den bruger sandsynlighedsfordelingen på tværs af alle termerne i sin rækkefølge.

Formålet med sprogmodeller er at konstruere token-sekvenser. Disse sekvenser skal repræsentere det menneskelige sprogs mønstre og strukturer. Dette er muligt ved at træne modeller på enorme mængder tekstdata.

Derefter bruges disse data til at forstå, hvordan ord bliver fordelt på sproget.

Under træning ændrer modellen sandsynlighedsfordelingsparametrene.

Og det forsøger at reducere forskellen mellem den forventede og faktiske fordeling af ord i en tekst. Dette er muligt ved brug af en tabsfunktion. Tabsfunktionen beregner forskellen mellem den forventede og faktiske fordeling.

Naturlig sprogbehandling , computersyn er et af de områder, hvor vi bruger Generativ fortræning.

Openai 2

Tilpasningsspørgsmålet

Tilpasningsproblemet er en af vanskelighederne ved Generativ fortræning. Dette refererer til vanskeligheden ved at matche modellens sandsynlighedsfordeling med fordelingen af de faktiske data.
Med andre ord burde modellens genererede svar være mere menneskelignende.

Modellen kan lejlighedsvis give uventede eller ukorrekte svar. Og dette kan være forårsaget af en række forskellige årsager, såsom træningsdatabias eller modellens manglende kontekstbevidsthed. Tilpasningsproblemet skal løses for at forbedre kvaliteten af sprogmodeller.

For at overvinde dette problem anvender sprogmodeller som ChatGPT finjusteringsteknikker.

Overvåget finjustering

Den anden del af ChatGPT-træningen er superviseret finjustering. Menneskelige udviklere engagerer sig i dialoger på dette tidspunkt og fungerer som både den menneskelige bruger og chatbot.

Disse samtaler optages og aggregeres i et datasæt. Hver træningsprøve indeholder en særskilt samtalehistorik, der matches med det næste svar fra den menneskelige udvikler, der fungerer som "chatbot".

Formålet med overvåget finjustering er at maksimere sandsynligheden, der er tildelt sekvensen af tokens i det tilknyttede svar af modellen. Denne metode er kendt som "imitationslæring" eller "adfærdskloning".

På denne måde kan modellen lære at give mere naturligt klingende og sammenhængende svar. Det replikerer svarene fra menneskelige entreprenører.

Superviseret finjustering er, hvor sprogmodellen kan justeres til en bestemt opgave.

Lad os give et eksempel. Antag, at vi vil lære en chatbot at give filmanbefalinger. Vi ville træne sprogmodellen til at forudsige filmvurderinger baseret på filmbeskrivelser. Og vi ville bruge et datasæt med filmbeskrivelser og vurderinger.

Algoritmen ville til sidst finde ud af, hvilke aspekter af en film, der svarede til høje eller dårlige ratings.

Efter at den er blevet trænet, kan vi bruge vores model til at foreslå film til menneskelige brugere. Brugere kan beskrive en film, de kan lide, og chatbotten ville bruge den raffinerede sprogmodel til at anbefale flere film, der kan sammenlignes med den.

Tilsynsbegrænsninger: Distributionsskift

Superviseret finjustering er at lære en sprogmodel til at udføre et bestemt mål. Dette er muligt ved at fodre modellen med en datasæt og derefter træne den til at lave forudsigelser. Dette system har dog grænser kendt som "overvågningsbegrænsninger."

En af disse begrænsninger er "fordelingsskifte". Det henviser til muligheden for, at træningsdataene muligvis ikke nøjagtigt afspejler den virkelige fordeling af input, som modellen ville støde på.

Lad os gennemgå eksemplet fra tidligere. I eksemplet med filmforslag afspejler det datasæt, der bruges til at træne modellen, muligvis ikke nøjagtigt de mange forskellige film og brugerpræferencer, som chatbotten ville støde på. Chatbotten fungerer muligvis ikke så godt, som vi ønsker.

Som et resultat, møder den input, der er forskellig fra dem, den observerede under træning.

For superviseret læring, når modellen kun trænes på et givet sæt af instanser, opstår dette problem.

Derudover kan modellen præstere bedre i lyset af en fordelingsændring, hvis forstærkende læring bruges til at hjælpe den med at tilpasse sig nye kontekster og lære af sine fejl.

Baseret på præferencer, belønningslæring

Belønningslæring er det tredje træningstrin i at udvikle en chatbot. I belønningslæring læres modellen at maksimere et belønningssignal.

Det er en score, der angiver, hvor effektivt modellen udfører jobbet. Belønningssignalet er baseret på input fra personer, der vurderer eller vurderer modellens svar.

Belønningslæring sigter mod at udvikle en chatbot, der producerer svar af høj kvalitet, som menneskelige brugere foretrækker. For at gøre dette kaldes en maskinlæringsteknik forstærkende læring - som inkluderer læring fra feedback i form af belønninger — bruges til at træne modellen.

Chatbotten besvarer brugerforespørgsler, f.eks. afhængigt af dens aktuelle forståelse af opgaven, som leveres til den under belønningslæring. Der gives derefter et belønningssignal baseret på, hvor effektivt chatbotten præsterer, når svarene er blevet vurderet af menneskelige dommere.

Dette belønningssignal bruges af chatbotten til at ændre dens indstillinger. Og det forbedrer opgavens ydeevne.

Nogle begrænsninger for belønningslæring

En ulempe ved belønningslæring er, at feedbacken på chatbottens svar muligvis ikke kommer i nogen tid, da belønningssignalet kan være sparsomt og forsinket. Som følge heraf kan det være udfordrende at træne chatbotten med succes, fordi den muligvis ikke modtager feedback på specifikke svar før meget senere.

Et andet problem er, at menneskelige dommere kan have forskellige synspunkter eller fortolkninger af, hvad der gør et vellykket svar, hvilket kan føre til skævhed i belønningssignalet. For at mindske dette, bliver det ofte brugt af flere dommere til at levere et mere pålideligt belønningssignal.

Hvad skal fremtiden holde?

Der er flere potentielle fremtidige trin til yderligere at forbedre ChatGPTs ydeevne.

For at øge modellens forståelse er en potentiel fremtidig rute at inkludere flere træningsdatasæt og datakilder. Det er også muligt at forbedre modellens evne til at forstå og tage hensyn til ikke-tekstuelle input.

For eksempel kunne sprogmodeller forstå billeder eller lyde.

Ved at inkorporere specifikke træningsteknikker kan ChatGPT også forbedres til visse opgaver. For eksempel kan den præstere følelser analyse eller naturlig sprogproduktion. Som konklusion viser ChatGPT og relaterede sprogmodeller et stort løfte om at komme videre.