Pojasnjen celoten proces usposabljanja za ChatGPT

Kazalo[Skrij][Pokaži]

Generativno predusposabljanje+-
- Težava pri poravnavi
Nadzorovano fino uravnavanje+-
- Omejitve nadzora: Distribucijski premik
Na podlagi preferenc, nagrajevanje učenja
Kaj ima prihodnost?

ChatGPT je izjemen jezikovni model umetne inteligence. Vsi ga uporabljamo kot pomoč pri različnih opravilih.

Ste se kdaj vprašali, kako je bil usposobljen za ustvarjanje odgovorov, ki se zdijo tako podobni človeškim? V tem članku bomo preučili usposabljanje ChatGPT.

Pojasnili bomo, kako se je razvil v enega najbolj izjemnih jezikovni modeli. Ko raziskujemo zanimivi svet ChatGPT, se odpravite na pot odkrivanja.

Pregled usposabljanja

ChatGPT je model obdelave naravnega jezika.

S ChatGPT se lahko vključimo v interaktivne dialoge in človeške razprave. Uporablja podoben pristop kot pri Navodila GPT, ki je vrhunski jezikovni model. Razvit je bil malo pred ChatGPT.

Uporablja bolj privlačno metodo. To omogoča naravne interakcije uporabnikov. Torej je odlično orodje za različne aplikacije, kot so chatboti in virtualni pomočniki.

Postopek usposabljanja ChatGPT je večstopenjski proces. Generativno predusposabljanje je prvi korak v usposabljanju ChatGPT.

V tej fazi se model uri z uporabo obsežnega korpusa besedilnih podatkov. Nato model odkrije statistične korelacije in vzorce, ki jih najdemo v naravnem jeziku. Tako lahko dobimo slovnično natančen in skladen odgovor.

Nato sledi korak nadzorovane natančne nastavitve. V tem delu se model uri na določeni nalogi. Na primer, lahko izvaja jezikovno prevajanje ali odgovarjanje na vprašanja.

Nazadnje, ChatGPT uporablja učenje nagrajevanja iz človeških povratnih informacij.

Zdaj pa preučimo te korake.

Generativno predusposabljanje

Začetna stopnja usposabljanja je generativno predusposabljanje. Je običajna metoda za usposabljanje jezikovnih modelov. Za ustvarjanje zaporedij žetonov metoda uporablja "paradigmo napovedi naslednjega koraka".

Kaj to pomeni?

Vsak žeton je edinstvena spremenljivka. Predstavljajo besedo ali del besede. Model poskuša ugotoviti, katera beseda bo najverjetneje naslednja glede na besede pred njo. Uporablja porazdelitev verjetnosti za vse izraze v svojem zaporedju.

Namen jezikovnih modelov je konstruirati zaporedja žetonov. Ta zaporedja bi morala predstavljati vzorce in strukture človeškega jezika. To je mogoče z usposabljanjem modelov na ogromnih količinah besedilnih podatkov.

Nato se ti podatki uporabijo za razumevanje, kako se besede porazdelijo v jeziku.

Med treningom model spreminja parametre porazdelitve verjetnosti.

In poskuša zmanjšati razliko med pričakovano in dejansko porazdelitvijo besed v besedilu. To je mogoče z uporabo funkcije izgube. Funkcija izgube izračuna razliko med pričakovano in dejansko porazdelitvijo.

Obdelava naravnega jezika in računalniški vid so eno od področij, kjer uporabljamo generativno predusposabljanje.

Odpri 2

Težava pri poravnavi

Problem poravnave je ena od težav pri generativnem predusposabljanju. To se nanaša na težave pri ujemanju verjetnostne porazdelitve modela s porazdelitvijo dejanskih podatkov.
Z drugimi besedami, odgovori modela bi morali biti bolj podobni ljudem.

Model lahko občasno ponudi nepričakovane ali nepravilne odzive. In to lahko povzročijo različni vzroki, kot je pristranskost podatkov o usposabljanju ali pomanjkanje zavedanja konteksta modela. Za izboljšanje kakovosti jezikovnih modelov je treba obravnavati problem poravnave.

Da bi rešili to težavo, jezikovni modeli, kot je ChatGPT, uporabljajo tehnike natančnega prilagajanja.

Nadzorovano fino uravnavanje

Drugi del usposabljanja ChatGPT je nadzorovano fino uravnavanje. Človeški razvijalci na tej točki sodelujejo v dialogih, pri čemer delujejo tako kot človeški uporabnik kot kot chatbot.

Ti pogovori so posneti in združeni v nabor podatkov. Vsak vzorec usposabljanja vključuje ločeno zgodovino pogovorov, ki se ujema z naslednjim odgovorom človeškega razvijalca, ki služi kot »klepetalni robot«.

Namen nadzorovanega natančnega prilagajanja je povečati verjetnost, ki jo model dodeli zaporedju žetonov v povezanem odgovoru. Ta metoda je znana kot "imitacijsko učenje" ali "kloniranje vedenja".

Na ta način se lahko model nauči zagotavljati bolj naravno zveneče in skladne odzive. Posnema odgovore človeških izvajalcev.

Nadzorovano fino uravnavanje je mesto, kjer je jezikovni model mogoče prilagoditi za določeno nalogo.

Dajmo primer. Recimo, da želimo klepetalnega robota naučiti zagotavljati filmska priporočila. Jezikovni model bi usposobili za napovedovanje filmskih ocen na podlagi filmskih opisov. Uporabili bi tudi nabor opisov in ocen filmov.

Algoritem bi sčasoma ugotovil, kateri vidiki filma ustrezajo visokim ali slabim ocenam.

Ko je usposobljen, bi lahko uporabili naš model za predlaganje filmov uporabnikom. Uporabniki lahko opišejo film, ki jim je všeč, chatbot pa bi uporabil izpopolnjen jezikovni model, da bi priporočil več filmov, ki so primerljivi z njim.

Omejitve nadzora: Distribucijski premik

Nadzorovano natančno prilagajanje je učenje jezikovnega modela za izvedbo določenega cilja. To je mogoče s hranjenjem modela a nabor podatkov nato pa ga usposobimo za napovedovanje. Ta sistem pa ima omejitve, znane kot "omejitve nadzora".

Ena od teh omejitev je "distribucijski premik". Nanaša se na možnost, da podatki o usposabljanju ne odražajo natančno porazdelitve vhodnih podatkov v resničnem svetu, na katere bi naletel model.

Oglejmo si prejšnji primer. V primeru predloga za film nabor podatkov, uporabljen za usposabljanje modela, morda ne odraža natančno raznolikosti filmov in uporabniških preferenc, na katere bi naletel chatbot. Klepetalni robot morda ne bo deloval tako dobro, kot bi si želeli.

Posledično naleti na vnose, ki se razlikujejo od tistih, ki jih je opazil med usposabljanjem.

Ta težava se pojavi pri nadzorovanem učenju, ko se model uri le na danem naboru primerkov.

Poleg tega se lahko model ob distribucijskih spremembah obnese bolje, če se uporablja učenje z okrepitvijo, ki mu pomaga pri prilagajanju na nove kontekste in se uči iz svojih napak.

Na podlagi preferenc, nagrajevanje učenja

Učenje z nagrajevanjem je tretja stopnja usposabljanja pri razvoju chatbota. Pri učenju nagrajevanja je model naučen maksimizirati signal nagrajevanja.

To je rezultat, ki kaže, kako učinkovito model opravlja delo. Signal za nagrado temelji na prispevkih ljudi, ki ocenjujejo ali ocenjujejo odgovore modela.

Namen učenja z nagrajevanjem je razviti klepetalnega robota, ki daje visokokakovostne odgovore, ki jih imajo raje človeški uporabniki. Za to se uporablja tehnika strojnega učenja, imenovana krepitveno učenje—ki vključuje učenje iz povratnih informacij v obliki nagrad—uporablja se za usposabljanje modela.

Klepetalni robot odgovarja na vprašanja uporabnikov, na primer glede na trenutno razumevanje naloge, ki mu je bila posredovana med učenjem nagrajevanja. Nato se na podlagi tega, kako učinkovit je klepetalni robot, potem ko odgovore ocenijo človeški sodniki, podeli znak za nagrado.

Klepetalni robot uporablja ta znak nagrade za spreminjanje svojih nastavitev. In izboljša učinkovitost nalog.

Nekatere omejitve pri učenju z nagrajevanjem

Pomanjkljivost učenja z nagrajevanjem je, da povratne informacije o odgovorih klepetalnega robota morda ne bodo prispele nekaj časa, ker je signal za nagrajevanje lahko redek in z zamudo. Posledično je morda težko uspešno usposobiti klepetalnega robota, ker morda ne prejme povratne informacije o določenih odgovorih veliko pozneje.

Druga težava je, da imajo lahko človeški sodniki različne poglede ali razlage o tem, kaj pomeni uspešen odziv, kar lahko povzroči pristranskost v signalu za nagrajevanje. Da bi to zmanjšali, ga pogosto uporablja več sodnikov za zagotovitev bolj zanesljivega signala za nagrado.

Kaj ima prihodnost?

Obstaja več možnih prihodnjih korakov za nadaljnje izboljšanje učinkovitosti ChatGPT.

Za izboljšanje razumevanja modela je ena možna prihodnja pot vključitev več naborov podatkov za usposabljanje in virov podatkov. Možna je tudi izboljšava zmožnosti modela za razumevanje in upoštevanje nebesedilnih vnosov.

Na primer, jezikovni modeli bi lahko razumeli slike ali zvoke.

Z vključitvijo posebnih tehnik usposabljanja je mogoče ChatGPT izboljšati tudi za določene naloge. Na primer, lahko izvaja Analiza klime ali produkcija naravnega jezika. Skratka, ChatGPT in sorodni jezikovni modeli veliko obetajo za napredek.