Die hele opleidingsproses van ChatGPT verduidelik

INHOUDSOPGAWE[Versteek][Wys]

Generatiewe Vooropleiding+-
- Die belyningskwessie
Onder toesig fyninstelling+-
- Toesigbeperkings: Verspreidingsverskuiwing
Gebaseer op voorkeure, beloon leer
Wat hou die toekoms in?

ChatGPT is 'n merkwaardige kunsmatige intelligensie-taalmodel. Ons almal gebruik dit om ons in verskeie take by te staan.

Het jy al ooit bevraagteken hoe dit opgelei is om antwoorde te lewer wat so menslik lyk? In hierdie artikel sal ons die opleiding van ChatGPT ondersoek.

Ons sal verduidelik hoe dit tot een van die mees uitstaande ontwikkel het taalmodelle. Terwyl ons die intrigerende wêreld van ChatGPT verken, kom saam op 'n ontdekkingsreis.

Oorsig van opleiding

ChatGPT is 'n natuurlike taalverwerkingsmodel.

Met ChatGPT kan ons betrokke raak by interaktiewe dialoë en mensagtige besprekings. Dit gebruik 'n benadering soortgelyk aan dié van Gee GPT opdrag, wat 'n toonaangewende taalmodel is. Dit is ontwikkel kort voor ChatGPT.

Dit gebruik 'n meer innemende metode. Dit maak natuurlike gebruikersinteraksies moontlik. Dit is dus 'n perfekte hulpmiddel vir 'n verskeidenheid toepassings soos chatbots en virtuele assistente.

ChatGPT se opleidingsprosedure is 'n multi-stadium proses. Generatiewe vooropleiding is die eerste stap in die opleiding van ChatGPT.

In hierdie fase word die model opgelei met behulp van 'n aansienlike korpus teksdata. Dan ontdek die model die statistiese korrelasies en patrone wat in natuurlike taal gevind word. So, ons kan 'n grammatikaal akkurate en samehangende reaksie hê.

Dan volg ons 'n stap van fyninstelling onder toesig. In hierdie deel word die model op 'n bepaalde taak opgelei. Dit kan byvoorbeeld taalvertaling of vraagbeantwoording uitvoer.

Ten slotte, ChatGPT gebruik beloning leer uit menslike terugvoer.

Kom ons kyk nou na hierdie stappe.

Generatiewe Vooropleiding

Die aanvanklike vlak van opleiding is Generatiewe Vooropleiding. Dit is 'n algemene metode om taalmodelle op te lei. Om tekenreekse te skep, pas die metode die "volgende stap voorspellingsparadigma" toe.

Wat beteken dit?

Elke teken is 'n unieke veranderlike. Hulle verteenwoordig 'n woord of 'n deel van 'n woord. Die model probeer vasstel watter woord heel waarskynlik volgende sal kom gegewe die woorde voor dit. Dit gebruik die waarskynlikheidsverdeling oor al die terme in sy volgorde.

Die doel van taalmodelle is om tekenreekse te konstrueer. Hierdie reekse moet die patrone en strukture van menslike taal verteenwoordig. Dit is moontlik deur modelle op te lei op groot hoeveelhede teksdata.

Dan word hierdie data gebruik om te verstaan hoe woorde in die taal versprei word.

Tydens opleiding verander die model die waarskynlikheidsverspreidingsparameters.

En dit probeer om die verskil tussen die verwagte en werklike verspreiding van woorde in 'n teks te verminder. Dit is moontlik met die gebruik van 'n verliesfunksie. Die verliesfunksie bereken die verskil tussen die verwagte en werklike verdelings.

Natuurlike taalverwerking en rekenaarvisie is een van die areas waar ons Generatiewe Vooropleiding gebruik.

Openai 2

Die belyningskwessie

Die belyningsprobleem is een van die probleme in Generatiewe Vooropleiding. Dit verwys na die moeilikheid om die model se waarskynlikheidsverdeling by die verspreiding van die werklike data te pas.
Met ander woorde, die model se gegenereerde antwoorde moet meer mensagtig wees.

Die model kan soms onverwagte of onbehoorlike reaksies verskaf. En dit kan deur 'n verskeidenheid oorsake veroorsaak word, soos opleidingsdata-vooroordeel of die model se gebrek aan konteksbewustheid. Die belyningsprobleem moet aangespreek word om die kwaliteit van taalmodelle te verbeter.

Om hierdie probleem te oorkom, gebruik taalmodelle soos ChatGPT verfyntegnieke.

Onder toesig fyninstelling

Die tweede deel van ChatGPT-opleiding is fyninstelling onder toesig. Menslike ontwikkelaars tree op hierdie stadium in dialoë en tree op as beide die menslike gebruiker en die kletsbot.

Hierdie praatjies word opgeneem en saamgevoeg in 'n datastel. Elke opleidingmonster bevat 'n duidelike gesprekgeskiedenis wat ooreenstem met die volgende antwoord van die menslike ontwikkelaar wat as die "chatbot" dien.

Die doel van fyninstelling onder toesig is om die waarskynlikheid wat aan die volgorde van tekens in die geassosieerde antwoord deur die model toegeken word, te maksimeer. Hierdie metode staan bekend as "nabootsing leer" of "gedrag kloning."

Op hierdie manier kan model leer om meer natuurlike klinkende en samehangende reaksies te verskaf. Dit herhaal die antwoorde wat deur menslike kontrakteurs gegee is.

Verfyning onder toesig is waar die taalmodel vir 'n bepaalde taak aangepas kan word.

Kom ons gee 'n voorbeeld. Gestel ons wil 'n kletsbot leer om fliekaanbevelings te verskaf. Ons sal die taalmodel oplei om fliekgraderings op grond van fliekbeskrywings te voorspel. En ons sal 'n datastel van filmbeskrywings en -graderings gebruik.

Die algoritme sal uiteindelik uitvind watter aspekte van 'n fliek ooreenstem met hoë of swak graderings.

Nadat dit opgelei is, kan ons ons model gebruik om flieks aan menslike gebruikers voor te stel. Gebruikers kan 'n film beskryf wat hulle geniet, en die kletsbot sal die verfynde taalmodel gebruik om meer films aan te beveel wat daarmee vergelykbaar is.

Toesigbeperkings: Verspreidingsverskuiwing

Verfyning onder toesig is om 'n taalmodel aan te leer om 'n bepaalde doel te bereik. Dit is moontlik deur die model a te voed dataset en oefen dit dan om voorspellings te maak. Hierdie stelsel het egter perke bekend as "toesigbeperkings."

Een van hierdie beperkings is "verspreidingsverskuiwing". Dit verwys na die moontlikheid dat die opleidingsdata dalk nie die werklike verspreiding van insette wat die model sou teëkom, akkuraat weerspieël nie.

Kom ons hersien die voorbeeld van vroeër. In die rolprentvoorstelvoorbeeld sal die datastel wat gebruik word om die model op te lei moontlik nie die verskeidenheid flieks en gebruikervoorkeure wat die kletsbot sou teëkom, akkuraat weerspieël nie. Die kletsbot sal dalk nie so goed presteer as wat ons sou wou hê nie.

As gevolg hiervan, voldoen dit aan insette wat verskil van dié wat dit tydens opleiding waargeneem het.

Vir leer onder toesig, wanneer die model slegs op 'n gegewe stel gevalle opgelei word, ontstaan hierdie probleem.

Daarbenewens kan die model beter presteer in die lig van 'n verdelingsverandering as versterkingsleer gebruik word om dit te help om by nuwe kontekste aan te pas en uit sy foute te leer.

Gebaseer op voorkeure, beloon leer

Beloning leer is die derde opleiding stadium in die ontwikkeling van 'n chatbot. In beloningsleer word die model geleer om 'n beloningsein te maksimeer.

Dit is 'n telling wat aandui hoe effektief die model die werk verrig. Die beloningsein is gebaseer op insette van mense wat die model se antwoorde beoordeel of beoordeel.

Beloonleer het ten doel om 'n kletsbot te ontwikkel wat antwoorde van hoë gehalte lewer wat menslike gebruikers verkies. Om dit te doen, 'n masjienleer tegniek genoem versterkingsleer—wat leer uit terugvoer insluit in die vorm van belonings—word gebruik om die model op te lei.

Die kletsbot beantwoord gebruikersnavrae, byvoorbeeld, afhangende van sy huidige begrip van die taak, wat aan hom verskaf word tydens beloningleer. 'n Beloningsein word dan gegee op grond van hoe effektief die kletsbot presteer sodra die antwoorde deur menslike beoordelaars beoordeel is.

Hierdie beloningsein word deur die kletsbot gebruik om sy instellings te verander. En dit verbeter taakverrigting.

Sommige beperkings op beloningsleer

'n Nadeel van beloningleer is dat die terugvoer oor die kletsbot se antwoorde dalk vir 'n geruime tyd nie kom nie, aangesien die beloningsein yl en vertraag kan wees. Gevolglik kan dit uitdagend wees om die kletsbot suksesvol op te lei, want dit sal moontlik eers veel later terugvoer oor spesifieke antwoorde ontvang.

Nog 'n probleem is dat menslike beoordelaars verskillende sienings of interpretasies kan hê van wat 'n suksesvolle reaksie maak, wat kan lei tot vooroordeel in die beloningsein. Om dit te verminder, word dit gereeld deur verskeie beoordelaars gebruik om 'n meer betroubare beloningsein te lewer.

Wat hou die toekoms in?

Daar is verskeie potensiële toekomstige stappe om ChatGPT se prestasie verder te verbeter.

Om die model se begrip te verhoog, is een potensiële toekomstige roete om meer opleidingsdatastelle en databronne in te sluit. Die verbetering van die model se vermoë om nie-tekstuele insette te begryp en in ag te neem is ook moontlik.

Taalmodelle kan byvoorbeeld beeldmateriaal of klanke verstaan.

Deur spesifieke opleidingstegnieke in te sluit, kan ChatGPT ook vir sekere take verbeter word. Dit kan byvoorbeeld presteer sentiment analise of natuurlike taalproduksie. Ten slotte, ChatGPT en verwante taalmodelle toon groot belofte om te vorder.