Het volledige trainingsproces van ChatGPT uitgelegd

Inhoudsopgave[Zich verstoppen][Laten zien]

Generatieve voortraining+-
- Het afstemmingsprobleem
Begeleide fijnafstemming+-
- Toezichtbeperkingen: verdelingsverschuiving
Gebaseerd op voorkeuren, beloon leren
Wat heeft de toekomst in petto?

ChatGPT is een opmerkelijk taalmodel voor kunstmatige intelligentie. We gebruiken het allemaal om ons bij verschillende taken te helpen.

Heb je je ooit afgevraagd hoe het is getraind om antwoorden te produceren die zo menselijk lijken? In dit artikel gaan we in op de training van ChatGPT.

We zullen uitleggen hoe het is uitgegroeid tot een van de meest opvallende taalmodellen. Ga mee op ontdekkingsreis terwijl we de intrigerende wereld van ChatGPT verkennen.

Overzicht van trainingen

ChatGPT is een model voor natuurlijke taalverwerking.

Met ChatGPT kunnen we interactieve dialogen en menselijke discussies aangaan. Het maakt gebruik van een aanpak vergelijkbaar met die van Instrueer GPT, een geavanceerd taalmodel. Het is kort voor ChatGPT ontwikkeld.

Het maakt gebruik van een meer boeiende methode. Dit maakt natuurlijke gebruikersinteracties mogelijk. Het is dus een perfecte tool voor een verscheidenheid aan toepassingen, zoals chatbots en virtuele assistenten.

De trainingsprocedure van ChatGPT bestaat uit meerdere fasen. Generatieve Pretraining is de eerste stap in de training van ChatGPT.

In deze fase wordt het model getraind met behulp van een omvangrijk corpus aan tekstgegevens. Vervolgens ontdekt het model de statistische correlaties en patronen in natuurlijke taal. We kunnen dus een grammaticaal correct en coherent antwoord hebben.

Daarna volgen we een stap van begeleide finetuning. In dit deel wordt het model getraind op een bepaalde taak. Het kan bijvoorbeeld taalvertaling uitvoeren of vragen beantwoorden.

Ten slotte maakt ChatGPT gebruik van beloningsleren van menselijke feedback.

Laten we nu eens kijken naar deze stappen.

Generatieve voortraining

Het initiële trainingsniveau is generatieve voortraining. Het is een veelgebruikte methode om taalmodellen te trainen. Om tokensequenties te creëren, past de methode het "volgende stap voorspellingsparadigma" toe.

Wat betekent het?

Elk token is een unieke variabele. Ze vertegenwoordigen een woord of een deel van een woord. Het model probeert te bepalen welk woord het meest waarschijnlijk als volgende komt gezien de woorden ervoor. Het gebruikt de kansverdeling over alle termen in de reeks.

Het doel van taalmodellen is het construeren van tokenreeksen. Deze reeksen moeten de patronen en structuren van de menselijke taal weergeven. Dit is mogelijk door modellen te trainen op enorme hoeveelheden tekstdata.

Vervolgens worden deze gegevens gebruikt om te begrijpen hoe woorden in de taal worden verspreid.

Tijdens de training verandert het model de kansverdelingsparameters.

En het probeert het verschil tussen de verwachte en daadwerkelijke verdeling van woorden in een tekst te verkleinen. Dit is mogelijk met behulp van een verliesfunctie. De verliesfunctie berekent het verschil tussen de verwachte en werkelijke verdelingen.

Natuurlijke taalverwerking en computer visie zijn een van de gebieden waarop we Generatieve Voortraining gebruiken.

Openai 2

Het afstemmingsprobleem

Het afstemmingsprobleem is een van de moeilijkheden bij generatieve pretraining. Dit verwijst naar de moeilijkheid om de waarschijnlijkheidsverdeling van het model af te stemmen op de verdeling van de feitelijke gegevens.
Met andere woorden, de door het model gegenereerde antwoorden zouden menselijker moeten zijn.

Het model kan af en toe onverwachte of ongepaste antwoorden geven. En dit kan worden veroorzaakt door verschillende oorzaken, zoals vooringenomenheid bij het trainen van gegevens of het gebrek aan contextbewustzijn van het model. Het afstemmingsprobleem moet worden aangepakt om de kwaliteit van taalmodellen te verbeteren.

Om dit probleem op te lossen, gebruiken taalmodellen zoals ChatGPT technieken voor fijnafstemming.

Begeleide fijnafstemming

Het tweede deel van de ChatGPT-training is het gesuperviseerd finetunen. Menselijke ontwikkelaars gaan op dit punt dialogen aan en treden op als zowel de menselijke gebruiker als de chatbot.

Deze gesprekken worden opgenomen en samengevoegd tot een dataset. Elk trainingsvoorbeeld bevat een afzonderlijke gespreksgeschiedenis die overeenkomt met het volgende antwoord van de menselijke ontwikkelaar die als "chatbot" fungeert.

Het doel van fijnafstemming onder toezicht is het maximaliseren van de waarschijnlijkheid die door het model wordt toegewezen aan de reeks tokens in het bijbehorende antwoord. Deze methode staat bekend als 'imitatieleren' of 'gedragsklonen'.

Op deze manier kan het model leren om meer natuurlijk klinkende en coherente antwoorden te geven. Het repliceert de antwoorden van menselijke aannemers.

Supervised fine-tuning is waar het taalmodel kan worden aangepast voor een bepaalde taak.

Laten we een voorbeeld geven. Stel dat we een chatbot willen leren om filmaanbevelingen te geven. We zouden het taalmodel trainen om filmbeoordelingen te voorspellen op basis van filmbeschrijvingen. En we zouden een dataset met filmbeschrijvingen en beoordelingen gebruiken.

Het algoritme zou uiteindelijk uitzoeken welke aspecten van een film overeenkwamen met hoge of slechte beoordelingen.

Nadat het is getraind, kunnen we ons model gebruiken om films aan menselijke gebruikers voor te stellen. Gebruikers kunnen een film beschrijven die ze leuk vinden, en de chatbot gebruikt het verfijnde taalmodel om meer vergelijkbare films aan te bevelen.

Toezichtbeperkingen: verdelingsverschuiving

Supervised fine-tuning is het aanleren van een taalmodel om een bepaald doel te bereiken. Dit is mogelijk door het model a te voeden dataset en vervolgens trainen om voorspellingen te doen. Dit systeem heeft echter limieten die bekend staan als 'toezichtbeperkingen'.

Een van deze beperkingen is "distributieverschuiving". Het verwijst naar de mogelijkheid dat de trainingsgegevens de real-world distributie van inputs die het model zou tegenkomen, mogelijk niet nauwkeurig weergeven.

Laten we het voorbeeld van eerder bekijken. In het voorbeeld van de filmsuggestie geeft de dataset die wordt gebruikt om het model te trainen mogelijk niet nauwkeurig de verscheidenheid aan films en gebruikersvoorkeuren weer die de chatbot zou tegenkomen. De chatbot presteert mogelijk niet zo goed als we zouden willen.

Als gevolg hiervan ontmoet het input die niet overeenkomt met de input die het tijdens de training heeft waargenomen.

Voor gesuperviseerd leren, wanneer het model alleen wordt getraind op een bepaalde set instanties, doet dit probleem zich voor.

Bovendien kan het model beter presteren in het licht van een distributieverandering als versterkend leren wordt gebruikt om het te helpen zich aan te passen aan nieuwe contexten en te leren van zijn fouten.

Gebaseerd op voorkeuren, beloon leren

Beloningsleren is de derde trainingsfase bij het ontwikkelen van een chatbot. Bij beloningsleren wordt het model geleerd om een beloningssignaal te maximaliseren.

Het is een score die aangeeft hoe effectief het model de taak uitvoert. Het beloningssignaal is gebaseerd op input van mensen die de antwoorden van het model beoordelen of beoordelen.

Beloningsleren heeft tot doel een chatbot te ontwikkelen die antwoorden van hoge kwaliteit produceert waar menselijke gebruikers de voorkeur aan geven. Om dit te doen, wordt een machine learning-techniek genoemd bekrachtigend leren – inclusief leren van feedback in de vorm van beloningen - wordt gebruikt om het model te trainen.

De chatbot beantwoordt bijvoorbeeld vragen van gebruikers, afhankelijk van zijn huidige begrip van de taak, die hem tijdens beloningsleren wordt verstrekt. Er wordt dan een beloningssignaal gegeven op basis van hoe effectief de chatbot presteert nadat de antwoorden zijn beoordeeld door menselijke beoordelaars.

Dit beloningssignaal wordt door de chatbot gebruikt om zijn instellingen aan te passen. En het verbetert de taakprestaties.

Enkele beperkingen op beloningsleren

Een nadeel van beloningsleren is dat de feedback op de antwoorden van de chatbot mogelijk enige tijd niet komt, omdat het beloningssignaal schaars en vertraagd kan zijn. Als gevolg hiervan kan het een uitdaging zijn om de chatbot succesvol te trainen, omdat deze mogelijk pas veel later feedback ontvangt op specifieke antwoorden.

Een ander probleem is dat menselijke beoordelaars verschillende opvattingen of interpretaties kunnen hebben over wat een succesvolle reactie is, wat kan leiden tot vertekening in het beloningssignaal. Om dit te verminderen, wordt het vaak door verschillende juryleden gebruikt om een betrouwbaarder beloningssignaal af te geven.

Wat heeft de toekomst in petto?

Er zijn verschillende mogelijke toekomstige stappen om de prestaties van ChatGPT verder te verbeteren.

Om het begrip van het model te vergroten, is een mogelijke toekomstige route om meer trainingsgegevenssets en gegevensbronnen op te nemen. Het verbeteren van het vermogen van het model om niet-tekstuele invoer te begrijpen en er rekening mee te houden, is ook mogelijk.

Taalmodellen kunnen bijvoorbeeld beelden of geluiden begrijpen.

Door het inbouwen van specifieke trainingstechnieken kan ChatGPT ook voor bepaalde taken verbeterd worden. Het kan bijvoorbeeld optreden sentiment analyse of natuurlijke taalproductie. Concluderend, ChatGPT en gerelateerde taalmodellen zijn veelbelovend voor vooruitgang.