ChatGPT kogu koolitusprotsessi selgitus

Sisukord[Peida][Näita]

Generatiivne eelkoolitus+-
- Joondamise probleem
Kontrollitud peenhäälestus+-
- Järelevalve piirangud: jaotusvahetus
Põhineb eelistustel, tasu õppimine
Mida hoiab tulevik?

ChatGPT on tähelepanuväärne tehisintellekti keelemudel. Me kõik kasutame seda erinevate ülesannete täitmisel.

Kas olete kunagi küsinud, kuidas seda õpetati andma vastuseid, mis tunduvad nii inimlikud? Selles artiklis uurime ChatGPT koolitust.

Selgitame, kuidas see on kujunenud üheks silmapaistvamaks keelemudelid. Kui uurime ChatGPT intrigeerivat maailma, tulge avastusretkele.

Koolituse ülevaade

ChatGPT on loomuliku keele töötlemise mudel.

ChatGPT abil saame osaleda interaktiivsetes dialoogides ja inimlikes aruteludes. See kasutab sarnast lähenemisviisi GPT juhendamine, mis on tipptasemel keelemudel. See töötati välja vahetult enne ChatGPT-d.

See kasutab köitvamat meetodit. See võimaldab kasutajate loomulikku suhtlemist. Seega on see ideaalne tööriist mitmesuguste rakenduste jaoks, nagu vestlusrobotid ja virtuaalsed assistendid.

ChatGPT koolitusprotseduur on mitmeetapiline protsess. Generatiivne eelkoolitus on esimene samm ChatGPT koolitusel.

Selles etapis koolitatakse mudelit, kasutades suurt tekstiandmete korpust. Seejärel avastab mudel loomulikus keeles leitud statistilised korrelatsioonid ja mustrid. Seega saame grammatiliselt täpse ja sidusa vastuse.

Seejärel järgime kontrollitud peenhäälestuse etappi. Selles osas koolitatakse mudelit konkreetse ülesande täitmiseks. Näiteks võib see tõlkida keelde või vastata küsimustele.

Lõpuks kasutab ChatGPT inimeste tagasisidest saadud tasu õppimist.

Nüüd uurime neid samme.

Generatiivne eelkoolitus

Koolituse algtase on generatiivne eeltreening. See on levinud meetod keelemudelite koolitamiseks. Tokenide jadade loomiseks rakendab meetod "järgmise sammu ennustamise paradigmat".

Mida see tähendab?

Iga tunnus on kordumatu muutuja. Need esindavad sõna või sõna osa. Mudel püüab kindlaks teha, milline sõna kõige tõenäolisemalt järgmisena tuleb, arvestades sellele eelnevaid sõnu. See kasutab tõenäosusjaotust kõigi oma järjestuse terminite vahel.

Keelemudelite eesmärk on konstrueerida märgijadasid. Need järjestused peaksid esindama inimkeele mustreid ja struktuure. See on võimalik, kui treenida mudeleid tohutul hulgal tekstiandmetel.

Seejärel kasutatakse neid andmeid selleks, et mõista, kuidas sõnad keeles levivad.

Treeningu käigus muudab mudel tõenäosusjaotuse parameetreid.

Ja see püüab vähendada erinevust sõnade eeldatava ja tegeliku jaotuse vahel tekstis. See on võimalik kaotusfunktsiooni kasutamisega. Kaofunktsioon arvutab erinevuse eeldatava ja tegeliku jaotuse vahel.

Loomuliku keele töötlemine ja arvuti nägemine on üks valdkondi, kus kasutame generatiivset eelkoolitust.

Avatud 2

Joondamise probleem

Joondamise probleem on üks generatiivse eelkoolituse raskusi. See viitab raskusele mudeli tõenäosusjaotuse ja tegelike andmete jaotuse sobitamisel.
Teisisõnu peaksid mudeli genereeritud vastused olema inimlikumad.

Mudel võib aeg-ajalt pakkuda ootamatuid või sobimatuid vastuseid. Ja selle põhjuseks võivad olla mitmed põhjused, näiteks koolitusandmete kallutatus või mudeli kontekstiteadlikkuse puudumine. Keelemudelite kvaliteedi parandamiseks tuleb tegeleda joondamise probleemiga.

Selle probleemi lahendamiseks kasutavad keelemudelid, nagu ChatGPT, peenhäälestustehnikaid.

Kontrollitud peenhäälestus

ChatGPT koolituse teine osa on juhendatud peenhäälestus. Inimeste arendajad osalevad sel hetkel dialoogides, toimides nii inimkasutaja kui ka vestlusrobotina.

Need kõned salvestatakse ja koondatakse andmekogumiks. Iga koolitusnäidis sisaldab selget vestluse ajalugu, mis on sobitatud vestlusbotina toimiva inimarendaja järgmise vastusega.

Järelevalvega peenhäälestuse eesmärk on maksimeerida mudeli poolt seotud vastuses olevate märkide jadale määratud tõenäosust. Seda meetodit tuntakse kui "imitatsiooniõppimist" või "käitumise kloonimist".

Nii saab mudel õppida andma loomulikumalt kõlavaid ja ühtsemaid vastuseid. See kordab inimtöövõtjate antud vastuseid.

Järelevalvega peenhäälestusega saab keelemudelit konkreetse ülesande jaoks kohandada.

Toome näite. Oletame, et tahame õpetada vestlusrobotit pakkuma filmisoovitusi. Treeniksime keelemudelit, et ennustada filmide hinnanguid filmide kirjelduste põhjal. Ja me kasutaksime filmide kirjelduste ja hinnangute andmekogumit.

Algoritm selgitab lõpuks välja, millised filmi aspektid vastasid kõrgetele või halbadele hinnangutele.

Pärast selle väljaõpetamist saame kasutada oma mudelit, et soovitada inimkasutajatele filme. Kasutajad võivad kirjeldada filmi, mis neile meeldib, ja vestlusrobot kasutab rafineeritud keelemudelit, et soovitada rohkem filme, mis on sellega võrreldavad.

Järelevalve piirangud: jaotusvahetus

Juhendatud peenhäälestus on keelemudeli õpetamine konkreetse eesmärgi saavutamiseks. See on võimalik modelli söötmisega a andmestik ja seejärel treenige seda ennustama. Sellel süsteemil on aga piirangud, mida nimetatakse "järelevalvepiiranguteks".

Üks neist piirangutest on "jaotuse nihe". See viitab võimalusele, et koolitusandmed ei pruugi täpselt kajastada sisendite tegelikku jaotust, millega mudel kokku puutub.

Vaatame varasemat näidet. Filmisoovituse näites ei pruugi mudeli koolitamiseks kasutatav andmestik täpselt kajastada erinevaid filme ja kasutajaeelistusi, millega vestlusrobot kokku puutub. Vestlusbot ei pruugi toimida nii hästi, kui me tahaksime.

Selle tulemusena vastab see sisenditele, mis erinevad treeningu ajal täheldatud sisenditest.

Juhendatud õppimise puhul, kui mudelit õpetatakse ainult teatud eksemplaride komplekti jaoks, tekib see probleem.

Lisaks võib mudel jaotusmuutuste korral paremini toimida, kui kasutatakse tugevdavat õpet, mis aitab tal kohaneda uute kontekstidega ja õppida oma vigadest.

Põhineb eelistustel, tasu õppimine

Tasuõpe on vestlusroboti arendamise kolmas koolitusetapp. Tasuõppes õpetatakse mudelit tasusignaali maksimeerima.

See on skoor, mis näitab, kui tõhusalt mudel oma tööd täidab. Preemiasignaal põhineb inimeste sisendil, kes hindavad või hindavad mudeli vastuseid.

Tasuõppe eesmärk on töötada välja vestlusrobot, mis toodab kvaliteetseid vastuseid, mida inimkasutajad eelistavad. Selleks kasutati masinõppetehnikat nn tugevdav õpe – mis hõlmab tagasisidest õppimist preemiate vormis – kasutatakse modelli koolitamiseks.

Vestlusbot vastab kasutaja päringutele, näiteks olenevalt sellest, kuidas ta ülesandest hetkest aru saab, mis talle preemiaõppe ajal antakse. Pärast seda, kui inimkohtunikud on vastuseid hinnanud, antakse preemiasignaal selle põhjal, kui tõhusalt vestlusrobot töötab.

Seda preemiasignaali kasutab vestlusbot oma seadete muutmiseks. Ja see suurendab ülesannete täitmist.

Mõned tasustamise piirangud

Preemiaõppe puuduseks on see, et tagasisidet vestlusroboti vastustele ei pruugita mõnda aega tulla, kuna preemiasignaal võib olla hõre ja hilinenud. Seetõttu võib vestlusroboti edukas väljaõpetamine olla keeruline, kuna see võib konkreetsete vastuste kohta tagasisidet saada alles palju hiljem.

Teine probleem on see, et inimkohtunikel võivad olla erinevad seisukohad või tõlgendused selle kohta, mis annab eduka vastuse, mis võib põhjustada tasu signaali kallutatust. Selle vähendamiseks kasutavad mitmed kohtunikud seda sageli usaldusväärsema tasusignaali edastamiseks.

Mida hoiab tulevik?

ChatGPT jõudluse edasiseks parandamiseks on mitmeid potentsiaalseid tulevasi samme.

Mudeli mõistmise suurendamiseks on üks võimalik tulevane viis lisada rohkem koolitusandmekogumeid ja andmeallikaid. Samuti on võimalik suurendada mudeli suutlikkust mõista ja arvestada mittetekstuaalseid sisendeid.

Näiteks võiksid keelemudelid mõista visuaale või helisid.

Spetsiifiliste treeningtehnikate kaasamisega saab ChatGPT-d ka teatud ülesannete jaoks täiustada. Näiteks võib see esineda sentiment analüüs või loomuliku keele tootmine. Kokkuvõtteks võib öelda, et ChatGPT ja sellega seotud keelemudelid näitavad edu saavutamiseks suurt lubadust.