Paaiškintas visas „ChatGPT“ mokymo procesas

Turinys[Slėpti][Rodyti]

Generatyvinis parengimas+-
- Išlyginimo problema
Prižiūrimas tikslus derinimas+-
- Priežiūros apribojimai: paskirstymo pamaina
Remiantis nuostatomis, atlyginimas mokymuisi
Ką laiko ateitis?

ChatGPT yra puikus dirbtinio intelekto kalbos modelis. Mes visi jį naudojame norėdami padėti mums atlikti įvairias užduotis.

Ar kada nors klausėte, kaip ji buvo išmokyta pateikti atsakymus, kurie atrodo tokie žmogiški? Šiame straipsnyje mes išnagrinėsime ChatGPT mokymą.

Paaiškinsime, kaip jis tapo vienu iškiliausių kalbos modeliai. Kai tyrinėjame intriguojantį ChatGPT pasaulį, leiskitės į atradimų kelionę.

Mokymo apžvalga

„ChatGPT“ yra natūralus kalbos apdorojimo modelis.

Naudodami ChatGPT galime užmegzti interaktyvius dialogus ir į žmones panašias diskusijas. Jame naudojamas metodas, panašus į Nurodykite GPT, kuris yra pažangiausias kalbos modelis. Jis buvo sukurtas prieš pat „ChatGPT“.

Jame naudojamas labiau įtraukiantis metodas. Tai įgalina natūralią vartotojo sąveiką. Taigi, tai puikus įrankis įvairioms programoms, tokioms kaip pokalbių robotai ir virtualūs asistentai.

ChatGPT mokymo procedūra yra kelių etapų procesas. Generatyvusis parengimas yra pirmasis ChatGPT mokymo žingsnis.

Šiame etape modelis mokomas naudojant nemažą tekstinių duomenų korpusą. Tada modelis atranda statistines koreliacijas ir modelius, randamus natūralia kalba. Taigi galime gauti gramatiškai tikslų ir nuoseklų atsakymą.

Tada atliekame prižiūrimo koregavimo žingsnį. Šioje dalyje modelis mokomas atlikti tam tikrą užduotį. Pavyzdžiui, jis gali atlikti kalbos vertimą arba atsakyti į klausimus.

Galiausiai, „ChatGPT“ naudoja atlygio mokymąsi iš žmonių atsiliepimų.

Dabar panagrinėkime šiuos veiksmus.

Generatyvinis parengimas

Pradinis mokymo lygis yra generatyvinis išankstinis mokymas. Tai įprastas kalbos modelių mokymo metodas. Norėdami sukurti žetonų sekas, metodas taiko „kito žingsnio numatymo paradigmą“.

Ką tai reiškia?

Kiekvienas prieigos raktas yra unikalus kintamasis. Jie žymi žodį arba žodžio dalį. Modelis bando nustatyti, kuris žodis greičiausiai bus kitas, atsižvelgiant į prieš jį esančius žodžius. Jis naudoja tikimybių pasiskirstymą per visus savo sekos terminus.

Kalbos modelių paskirtis – sudaryti žetonų sekas. Šios sekos turėtų atspindėti žmogaus kalbos modelius ir struktūras. Tai įmanoma mokant modelius ant didžiulio teksto duomenų kiekio.

Tada šie duomenys naudojami norint suprasti, kaip žodžiai paskirstomi kalboje.

Treniruotės metu modelis keičia tikimybių pasiskirstymo parametrus.

Taip pat bandoma sumažinti skirtumą tarp laukiamo ir tikrojo žodžių pasiskirstymo tekste. Tai įmanoma naudojant praradimo funkciją. Nuostolių funkcija apskaičiuoja skirtumą tarp laukiamo ir faktinio pasiskirstymo.

Natūralios kalbos apdorojimas ir kompiuterio vizija yra viena iš sričių, kurioje naudojame generacinį išankstinį mokymą.

Openai 2

Išlyginimo problema

Suderinimo problema yra vienas iš generatyvinio parengiamojo mokymo sunkumų. Tai reiškia, kad sunku suderinti modelio tikimybių pasiskirstymą su faktinių duomenų pasiskirstymu.
Kitaip tariant, modelio sugeneruoti atsakymai turėtų būti panašesni į žmogų.

Modelis kartais gali pateikti netikėtų ar netinkamų atsakymų. Ir tai gali sukelti įvairios priežastys, pvz., mokymo duomenų paklaida arba modelio konteksto suvokimo trūkumas. Suderinimo problema turi būti sprendžiama siekiant pagerinti kalbos modelių kokybę.

Kad išspręstų šią problemą, kalbų modeliuose, tokiuose kaip „ChatGPT“, naudojami koregavimo metodai.

Prižiūrimas tikslus derinimas

Antroji ChatGPT mokymo dalis yra prižiūrimas koregavimas. Žmonių kūrėjai šiuo metu dalyvauja dialoguose, veikdami ir kaip vartotojas, ir kaip pokalbių robotas.

Šie pokalbiai įrašomi ir sujungiami į duomenų rinkinį. Kiekviename mokymo pavyzdyje yra atskira pokalbių istorija, suderinta su kitu žmogaus kūrėjo atsakymu, kuris yra „pokalbių robotas“.

Prižiūrimo tikslaus derinimo tikslas yra maksimaliai padidinti tikimybę, priskirtą žetonų sekai susijusiame atsakyme pagal modelį. Šis metodas žinomas kaip „mokymasis imitacija“ arba „elgesio klonavimas“.

Tokiu būdu modelis gali išmokti pateikti natūraliau skambančius ir nuoseklesnius atsakymus. Tai atkartoja žmonių rangovų pateiktus atsakymus.

Prižiūrimas tikslus derinimas yra tai, kai kalbos modelis gali būti pritaikytas konkrečiai užduočiai.

Pateikime pavyzdį. Tarkime, kad norime išmokyti pokalbių robotą teikti filmų rekomendacijas. Išmokytume kalbos modelį numatyti filmų reitingus pagal filmų aprašymus. Ir mes naudotume filmų aprašymų ir įvertinimų duomenų rinkinį.

Algoritmas galiausiai išsiaiškins, kurie filmo aspektai atitiko aukštus ar prastus įvertinimus.

Išmokę savo modelį galėtume pasiūlyti filmus žmonėms. Vartotojai gali apibūdinti jiems patinkantį filmą, o pokalbių robotas naudotų patobulintą kalbos modelį, kad rekomenduotų daugiau su juo panašių filmų.

Priežiūros apribojimai: paskirstymo pamaina

Prižiūrimas koregavimas – tai kalbos modelio mokymas pasiekti nurodytą tikslą. Tai įmanoma pamaitinus modelį a duomenų rinkinys ir tada išmokyti jį prognozuoti. Tačiau ši sistema turi apribojimų, vadinamų „priežiūros apribojimais“.

Vienas iš šių apribojimų yra „paskirstymo poslinkis“. Tai reiškia galimybę, kad mokymo duomenys gali tiksliai neatspindėti realaus įvesties pasiskirstymo, su kuria susidurs modelis.

Panagrinėkime anksčiau pateiktą pavyzdį. Filmo pasiūlymo pavyzdyje duomenų rinkinys, naudojamas modeliui parengti, gali tiksliai neatspindėti filmų ir naudotojo nuostatų, su kuriomis susidurs pokalbių robotas, įvairovė. Pokalbių robotas gali neveikti taip gerai, kaip norėtume.

Dėl to jis atitinka įvestis, kurios skiriasi nuo tų, kurios buvo pastebėtos treniruotės metu.

Prižiūrėtam mokymuisi, kai modelis mokomas tik tam tikram atvejų rinkiniui, ši problema iškyla.

Be to, modelis gali geriau veikti pasiskirstymo pokyčio akivaizdoje, jei naudojamas mokymasis, padedantis prisitaikyti prie naujų kontekstų ir mokytis iš klaidų.

Remiantis nuostatomis, atlyginimas mokymuisi

Atlygio mokymasis yra trečiasis pokalbių roboto kūrimo mokymo etapas. Atlygio mokymosi metu modelis mokomas maksimaliai padidinti atlygio signalą.

Tai balas, rodantis, kaip efektyviai modelis atlieka užduotį. Atlygio signalas pagrįstas žmonių, kurie vertina arba vertina modelio atsakymus, įvestis.

Mokymosi už atlygį tikslas yra sukurti pokalbių robotą, kuris gamina aukštos kokybės atsakymus, kuriems labiau patinka žmonės. Tam naudojama mašininio mokymosi technika, vadinama sustiprinimo mokymasis – tai mokymasis iš grįžtamojo ryšio atlygio pavidalu – naudojamas modeliui apmokyti.

Pokalbių robotas atsako į vartotojų užklausas, pavyzdžiui, atsižvelgdamas į jo dabartinį supratimą apie užduotį, kuri jam pateikiama mokantis už atlygį. Tada duodamas atlygio signalas, pagrįstas pokalbių roboto efektyvumu, kai atsakymus įvertina teisėjai.

Šį atlygio signalą pokalbių robotas naudoja savo nustatymams keisti. Ir tai pagerina užduočių atlikimą.

Kai kurie mokymosi už atlygį apribojimai

Mokymosi už atlygį trūkumas yra tas, kad grįžtamasis ryšys apie pokalbių roboto atsakymus kurį laiką gali negauti, nes atlygio signalas gali būti negausus ir uždelstas. Dėl to gali būti sudėtinga sėkmingai išmokyti pokalbių robotą, nes jis gali gauti atsiliepimų apie konkrečius atsakymus tik daug vėliau.

Kita problema yra ta, kad žmonių teisėjai gali turėti įvairių požiūrių ar interpretacijų, kas lemia sėkmingą atsakymą, o tai gali sukelti atlygio signalo šališkumą. Norėdami tai sumažinti, keli teisėjai dažnai naudoja jį, kad pateiktų patikimesnį atlygio signalą.

Ką laiko ateitis?

Yra keli galimi ateities žingsniai, siekiant dar labiau pagerinti „ChatGPT“ našumą.

Siekiant pagerinti modelio supratimą, vienas galimas ateities būdas yra įtraukti daugiau mokymo duomenų rinkinių ir duomenų šaltinių. Taip pat galima padidinti modelio gebėjimą suprasti ir atsižvelgti į netekstinę įvestį.

Pavyzdžiui, kalbos modeliai gali suprasti vaizdus ar garsus.

Įtraukus specifinius mokymo metodus, ChatGPT taip pat gali būti patobulintas atliekant tam tikras užduotis. Pavyzdžiui, jis gali atlikti nuotaikos analizė arba natūralios kalbos gamyba. Apibendrinant galima pasakyti, kad „ChatGPT“ ir susijusių kalbų modeliai rodo didelį pažadą tobulėti.