ChatGPT är en anmärkningsvärd språkmodell med artificiell intelligens. Vi använder det alla för att hjälpa oss i olika uppgifter.
Har du någonsin ifrågasatt hur det tränades att producera svar som verkar så mänskliga? I den här artikeln kommer vi att undersöka träningen av ChatGPT.
Vi kommer att förklara hur det har utvecklats till en av de mest framstående språkmodeller. När vi utforskar ChatGPTs spännande värld, följ med på en upptäcktsresa.
Översikt över utbildning
ChatGPT är en naturlig språkbehandlingsmodell.
Med ChatGPT kan vi delta i interaktiva dialoger och mänskliga diskussioner. Den använder ett tillvägagångssätt som liknar det för Instruera GPT, som är en banbrytande språkmodell. Det utvecklades strax före ChatGPT.
Den använder en mer engagerande metod. Detta möjliggör naturliga användarinteraktioner. Så det är ett perfekt verktyg för en mängd olika applikationer som chatbots och virtuella assistenter.
ChatGPT:s utbildningsprocedur är en process i flera steg. Generativ förträning är det första steget i träningen av ChatGPT.
I denna fas tränas modellen med hjälp av en ansenlig korpus av textdata. Sedan upptäcker modellen de statistiska korrelationerna och mönstren som finns i naturligt språk. Så vi kan ha ett grammatiskt korrekt och sammanhängande svar.
Sedan följer vi ett steg med övervakad finjustering. I denna del tränas modellen på en viss uppgift. Den kan till exempel utföra språköversättning eller svara på frågor.
Slutligen använder ChatGPT belöningsinlärning från mänsklig feedback.
Låt oss nu undersöka dessa steg.
Generativ förträning
Den initiala utbildningsnivån är Generativ förträning. Det är en vanlig metod för att träna språkmodeller. För att skapa tokensekvenser tillämpar metoden "nästa stegs förutsägelseparadigm".
Vad betyder det?
Varje token är en unik variabel. De representerar ett ord eller en del av ett ord. Modellen försöker avgöra vilket ord som är mest sannolikt att komma härnäst givet orden före det. Den använder sannolikhetsfördelningen över alla termer i sin sekvens.
Syftet med språkmodeller är att konstruera tokensekvenser. Dessa sekvenser bör representera mönster och strukturer i mänskligt språk. Detta är möjligt genom att träna modeller på enorma mängder textdata.
Sedan används dessa data för att förstå hur ord distribueras i språket.
Under träningen ändrar modellen sannolikhetsfördelningsparametrarna.
Och den försöker minska skillnaden mellan den förväntade och faktiska distributionen av ord i en text. Detta är möjligt med hjälp av en förlustfunktion. Förlustfunktionen beräknar skillnaden mellan den förväntade och faktiska fördelningen.
Naturlig språkbehandling och dator vision är ett av de områden där vi använder Generativ förträning.
Inriktningsfrågan
Anpassningsproblemet är en av svårigheterna i Generativ förträning. Detta syftar på svårigheten att matcha modellens sannolikhetsfördelning med fördelningen av faktiska data.
Med andra ord borde modellens genererade svar vara mer mänskliga.
Modellen kan ibland ge oväntade eller felaktiga svar. Och detta kan orsakas av en mängd olika orsaker, som träningsdatabias eller modellens bristande kontextmedvetenhet. Anpassningsproblemet måste åtgärdas för att förbättra kvaliteten på språkmodeller.
För att övervinna detta problem använder språkmodeller som ChatGPT finjusteringstekniker.
Övervakad finjustering
Den andra delen av ChatGPT-utbildningen är övervakad finjustering. Mänskliga utvecklare deltar i dialoger vid denna tidpunkt och agerar både som den mänskliga användaren och chatboten.
Dessa samtal spelas in och aggregeras till en datauppsättning. Varje träningsexempel innehåller en distinkt konversationshistorik matchad med nästa svar från den mänskliga utvecklaren som fungerar som "chatbot".
Syftet med övervakad finjustering är att maximera sannolikheten som tilldelas sekvensen av tokens i det associerade svaret av modellen. Denna metod är känd som "imitationsinlärning" eller "beteendekloning."
På så sätt kan modellen lära sig att ge mer naturligt klingande och sammanhängande svar. Det replikerar svaren från mänskliga entreprenörer.
Övervakad finjustering är där språkmodellen kan anpassas för en viss uppgift.
Låt oss ge ett exempel. Anta att vi vill lära en chatbot att ge filmrekommendationer. Vi skulle träna språkmodellen att förutsäga filmbetyg baserat på filmbeskrivningar. Och vi skulle använda en datauppsättning med filmbeskrivningar och betyg.
Algoritmen skulle så småningom ta reda på vilka aspekter av en film som motsvarade höga eller dåliga betyg.
Efter att den har tränats kan vi använda vår modell för att föreslå filmer för mänskliga användare. Användare kan beskriva en film som de tycker om, och chatboten skulle använda den förfinade språkmodellen för att rekommendera fler filmer som är jämförbara med den.
Övervakningsbegränsningar: Distributionsskifte
Övervakad finjustering är att lära ut en språkmodell för att utföra ett specifikt mål. Detta är möjligt genom att mata modellen a dataset och sedan träna den att göra förutsägelser. Detta system har dock gränser som kallas "övervakningsbegränsningar".
En av dessa restriktioner är "fördelningsskifte". Det hänvisar till möjligheten att träningsdata kanske inte exakt återspeglar den verkliga fördelningen av indata som modellen skulle stöta på.
Låt oss granska exemplet från tidigare. I exemplet med filmförslag kanske datauppsättningen som används för att träna modellen inte exakt återspeglar de olika filmer och användarpreferenser som chatboten skulle stöta på. Chatboten kanske inte fungerar så bra som vi skulle vilja.
Som ett resultat möter den input som skiljer sig från dem den observerade under träningen.
För övervakat lärande, när modellen endast tränas på en given uppsättning instanser, uppstår detta problem.
Dessutom kan modellen prestera bättre inför en fördelningsförändring om förstärkningsinlärning används för att hjälpa den att anpassa sig till nya sammanhang och lära av sina misstag.
Baserat på preferenser, belöna lärande
Belöningsinlärning är det tredje utbildningssteget i att utveckla en chatbot. I belöningsinlärning lärs modellen att maximera en belöningssignal.
Det är en poäng som indikerar hur effektivt modellen utför jobbet. Belöningssignalen baseras på input från personer som betygsätter eller bedömer modellens svar.
Belöningsinlärning syftar till att utveckla en chatbot som producerar högkvalitativa svar som mänskliga användare föredrar. För att göra detta kallas en maskininlärningsteknik förstärkningsinlärning – vilket inkluderar lärande från feedback i form av belöningar—används för att träna modellen.
Chatboten svarar på användarförfrågningar, till exempel beroende på dess nuvarande grepp om uppgiften, som tillförs den under belöningsinlärning. En belöningssignal ges sedan baserat på hur effektivt chatboten presterar när svaren har bedömts av mänskliga domare.
Denna belöningssignal används av chatboten för att ändra dess inställningar. Och det förbättrar uppgiftens prestanda.
Några begränsningar för belöningsinlärning
En nackdel med belöningsinlärning är att feedbacken på chatbotens svar kanske inte kommer på ett tag eftersom belöningssignalen kan vara sparsam och försenad. Som ett resultat kan det vara utmanande att framgångsrikt träna chatboten eftersom den kanske inte får feedback på specifika svar förrän långt senare.
En annan fråga är att mänskliga domare kan ha olika åsikter eller tolkningar av vad som gör ett framgångsrikt svar, vilket kan leda till partiskhet i belöningssignalen. För att minska detta, används den ofta av flera domare för att leverera en mer pålitlig belöningssignal.
Vad har framtiden att erbjuda?
Det finns flera potentiella framtida steg för att ytterligare förbättra ChatGPT:s prestanda.
För att öka modellens förståelse är en potentiell framtida väg att inkludera fler utbildningsdatauppsättningar och datakällor. Det är också möjligt att förbättra modellens förmåga att förstå och ta hänsyn till icke-textuella indata.
Till exempel kan språkmodeller förstå bilder eller ljud.
Genom att införliva specifika träningstekniker kan ChatGPT också förbättras för vissa uppgifter. Till exempel kan den prestera känsla analys eller naturlig språkproduktion. Sammanfattningsvis visar ChatGPT och relaterade språkmodeller stora löften för avancemang.
Kommentera uppropet