ChatGPT je izuzetan model jezika umjetne inteligencije. Svi ga koristimo da nam pomogne u raznim zadacima.
Jeste li se ikada zapitali kako je obučeno da proizvodi odgovore koji izgledaju tako ljudski? U ovom članku ćemo ispitati obuku ChatGPT-a.
Objasnićemo kako je evoluirao u jednu od najistaknutijih jezički modeli. Dok istražujemo intrigantan svijet ChatGPT-a, dođite na put otkrivanja.
Pregled obuke
ChatGPT je model obrade prirodnog jezika.
Uz ChatGPT, možemo se uključiti u interaktivne dijaloge i diskusije nalik ljudima. Koristi pristup sličan onom Uputite GPT, koji je vrhunski jezički model. Razvijen je neposredno prije ChatGPT-a.
Koristi zanimljiviju metodu. Ovo omogućava prirodne interakcije korisnika. Dakle, to je savršen alat za razne aplikacije kao što su chatbotovi i virtualni asistenti.
ChatGPT-ova obuka je proces u više faza. Generativna predtrening je prvi korak u obuci ChatGPT-a.
U ovoj fazi, model se obučava korištenjem velikog korpusa tekstualnih podataka. Zatim, model otkriva statističke korelacije i obrasce pronađene u prirodnom jeziku. Dakle, možemo imati gramatički tačan i koherentan odgovor.
Zatim slijedimo korak nadziranog finog podešavanja. U ovom dijelu model se obučava za određeni zadatak. Na primjer, može izvršiti prevod jezika ili odgovaranje na pitanja.
Konačno, ChatGPT koristi učenje za nagrađivanje iz povratnih informacija ljudi.
Sada, hajde da ispitamo ove korake.
Generativni pretrening
Početni nivo obuke je Generativni pretrening. To je uobičajena metoda za obuku jezičkih modela. Za kreiranje sekvenci tokena, metoda primjenjuje “paradigmu predviđanja sljedećeg koraka”.
Šta to znači?
Svaki token je jedinstvena varijabla. Oni predstavljaju riječ ili dio riječi. Model pokušava odrediti koja će riječ najvjerovatnije doći s obzirom na riječi prije nje. Koristi raspodjelu vjerovatnoće za sve pojmove u svom nizu.
Svrha jezičkih modela je da konstruišu sekvence tokena. Ove sekvence treba da predstavljaju obrasce i strukture ljudskog jezika. To je moguće obučavanjem modela na ogromnim količinama tekstualnih podataka.
Zatim se ovi podaci koriste da bi se razumjelo kako se riječi distribuiraju u jeziku.
Tokom obuke, model mijenja parametre distribucije vjerovatnoće.
I pokušava smanjiti razliku između očekivane i stvarne distribucije riječi u tekstu. To je moguće uz korištenje funkcije gubitka. Funkcija gubitka izračunava razliku između očekivane i stvarne distribucije.
Obrada prirodnog jezika i računarski vid su jedna od oblasti u kojoj koristimo generativnu pretrening.
Pitanje poravnanja
Problem usklađivanja je jedna od poteškoća u generativnom pretreningu. Ovo se odnosi na poteškoće u usklađivanju distribucije vjerovatnoće modela sa distribucijom stvarnih podataka.
Drugim riječima, generirani odgovori modela trebali bi biti sličniji ljudima.
Model može povremeno dati neočekivane ili nepravilne odgovore. A ovo može biti uzrokovano raznim uzrocima, kao što su pristrasnost podataka o obuci ili nedostatak svijesti o kontekstu. Problem usklađivanja se mora riješiti kako bi se poboljšao kvalitet jezičkih modela.
Da bi se prevazišao ovaj problem, jezički modeli kao što je ChatGPT koriste tehnike finog podešavanja.
Nadzirano fino podešavanje
Drugi dio ChatGPT obuke je nadgledano fino podešavanje. Ljudski programeri se u ovom trenutku uključuju u dijaloge, djelujući i kao ljudski korisnik i kao chatbot.
Ovi razgovori se snimaju i objedinjuju u skup podataka. Svaki uzorak obuke uključuje posebnu historiju razgovora usklađenu sa sljedećim odgovorom ljudskog programera koji služi kao "čet za razgovor".
Svrha nadziranog finog podešavanja je maksimiziranje vjerovatnoće dodijeljene nizu tokena u pridruženom odgovoru od strane modela. Ova metoda je poznata kao „učenje imitacijom“ ili „kloniranje ponašanja“.
Na ovaj način model može naučiti da pruži prirodnije i koherentnije odgovore. Replicira odgovore koje su dali ljudski izvođači.
Nadzirano fino podešavanje je mjesto gdje se jezički model može prilagoditi za određeni zadatak.
Dajemo primjer. Pretpostavimo da želimo naučiti chatbot da daje preporuke za filmove. Obučili bismo jezički model da predvidi ocjene filmova na osnovu opisa filmova. I, koristili bismo skup podataka opisa i ocjena filmova.
Algoritam bi na kraju otkrio koji aspekti filma odgovaraju visokim ili lošim ocjenama.
Nakon što je obučen, mogli bismo koristiti naš model da predložimo filmove ljudskim korisnicima. Korisnici mogu opisati film u kojem uživaju, a chatbot bi koristio rafinirani jezički model kako bi preporučio više filmova koji su uporedivi s njim.
Ograničenja nadzora: Distributivni pomak
Nadzirano fino podešavanje je podučavanje jezičkog modela da izvrši određeni cilj. Ovo je moguće hranjenjem modela a podataka a zatim ga trenirati za predviđanje. Ovaj sistem, međutim, ima ograničenja poznata kao "ograničenja nadzora".
Jedno od ovih ograničenja je “distribucijski pomak”. Odnosi se na mogućnost da podaci o obuci možda ne odražavaju tačno distribuciju inputa u stvarnom svijetu na koju bi model naišao.
Pogledajmo primjer od ranije. U primjeru prijedloga filma, skup podataka koji se koristi za obuku modela možda neće tačno odražavati različite filmove i korisničke preferencije na koje bi chatbot naišao. Chatbot možda neće raditi onako dobro kako bismo željeli.
Kao rezultat toga, susreće se sa inputima koji su različiti od onih koje je uočio tokom treninga.
Za nadgledano učenje, kada je model obučen samo na datom skupu instanci, javlja se ovaj problem.
Osim toga, model može bolje funkcionirati u suočavanju s promjenom distribucije ako se koristi učenje s pojačanjem kako bi se prilagodio novim kontekstima i učio iz svojih grešaka.
Na osnovu preferencija, nagrađivanje učenja
Nagrađivanje je treća faza obuke u razvoju chat bota. U učenju nagrađivanja, model se uči da maksimizira signal nagrade.
To je rezultat koji pokazuje koliko efikasno model obavlja posao. Signal nagrade zasniva se na unosu ljudi koji ocjenjuju ili procjenjuju odgovore modela.
Učenje nagrađivanja ima za cilj razvoj chat bota koji proizvodi visokokvalitetne odgovore koje preferiraju ljudski korisnici. Da biste to učinili, tehnika mašinskog učenja tzv učenje s pojačanjem—što uključuje učenje iz povratnih informacija u obliku nagrada—koristi se za obuku modela.
Chatbot odgovara na upite korisnika, na primjer, ovisno o njegovom trenutnom razumijevanju zadatka, koji mu se dostavlja tokom učenja za nagrađivanje. Zatim se daje signal za nagradu na osnovu toga koliko efikasno chatbot radi nakon što su odgovori procijenjeni od strane ljudskih sudija.
Ovaj nagradni signal koristi chatbot za promjenu svojih postavki. I, poboljšava performanse zadataka.
Neka ograničenja u učenju nagrađivanja
Nedostatak učenja o nagrađivanju je taj što povratne informacije o odgovorima chatbot-a možda neće doći neko vrijeme jer signal za nagradu može biti rijedak i odgođen. Kao rezultat toga, može biti izazovno uspješno obučiti chatbot jer možda neće dobiti povratne informacije o određenim odgovorima mnogo kasnije.
Drugi problem je da ljudski sudije mogu imati različite poglede ili interpretacije onoga što čini uspješan odgovor, što može dovesti do pristranosti u signalu nagrade. Da bi se to umanjilo, nekoliko sudija ga često koristi za isporuku pouzdanijeg nagrađnog signala.
Šta drži budućnost?
Postoji nekoliko potencijalnih budućih koraka za dalje poboljšanje performansi ChatGPT-a.
Da bi se povećalo razumijevanje modela, jedan potencijalni budući put je uključiti više skupova podataka za obuku i izvora podataka. Moguće je i povećanje kapaciteta modela da razumije i uzme u obzir netekstualne unose.
Na primjer, jezički modeli mogu razumjeti vizualne ili zvukove.
Uključujući specifične tehnike obuke, ChatGPT se takođe može poboljšati za određene zadatke. Na primjer, može raditi analiza raspoloženja ili produkcija prirodnog jezika. U zaključku, ChatGPT i srodni modeli jezika pokazuju velika obećanja za napredak.
Ostavite odgovor