Ang ChatGPT ay isang kahanga-hangang modelo ng artificial intelligence language. Ginagamit nating lahat ito para tulungan tayo sa iba't ibang gawain.
Naitanong mo na ba kung paano ito sinanay upang makagawa ng mga tugon na tila parang tao? Sa artikulong ito, susuriin natin ang pagsasanay ng ChatGPT.
Ipapaliwanag namin kung paano ito naging isa sa mga pinaka-namumukod-tanging mga modelo ng wika. Habang ginalugad namin ang nakakaintriga na mundo ng ChatGPT, sumama sa isang paglalakbay ng pagtuklas.
Pangkalahatang-ideya ng Pagsasanay
Ang ChatGPT ay isang natural na modelo ng pagpoproseso ng wika.
Sa ChatGPT, maaari tayong makisali sa mga interactive na diyalogo at mala-tao na mga talakayan. Gumagamit ito ng diskarte na katulad ng sa Atasan ang GPT, na isang makabagong modelo ng wika. Ito ay binuo ilang sandali bago ang ChatGPT.
Gumagamit ito ng mas nakakaengganyong pamamaraan. Nagbibigay-daan ito sa mga natural na pakikipag-ugnayan ng user. Kaya, ito ay isang perpektong tool para sa iba't ibang mga application tulad ng mga chatbot at virtual assistant.
Ang pamamaraan ng pagsasanay ng ChatGPT ay isang proseso ng maraming yugto. Ang Generative Pretraining ay ang unang hakbang sa pagsasanay ng ChatGPT.
Sa yugtong ito, ang modelo ay sinanay gamit ang isang malaking corpus ng data ng teksto. Pagkatapos, natuklasan ng modelo ang mga istatistikal na ugnayan at pattern na matatagpuan sa natural na wika. Kaya, maaari tayong magkaroon ng tumpak at magkakaugnay na tugon sa gramatika.
Pagkatapos ay sinusunod namin ang isang hakbang ng pinangangasiwaang fine-tuning. Sa bahaging ito, ang modelo ay sinanay sa isang partikular na gawain. Halimbawa, maaari itong magsagawa ng pagsasalin ng wika o pagsagot sa tanong.
Panghuli, gumagamit ang ChatGPT ng reward learning mula sa feedback ng tao.
Ngayon, suriin natin ang mga hakbang na ito.
Generative Pretraining
Ang paunang antas ng pagsasanay ay Generative Pretraining. Ito ay isang karaniwang paraan para sa pagsasanay ng mga modelo ng wika. Upang lumikha ng mga pagkakasunud-sunod ng token, inilalapat ng pamamaraan ang "paradigm ng hula sa susunod na hakbang".
Ano ang ibig sabihin nito?
Ang bawat token ay isang natatanging variable. Kinakatawan nila ang isang salita o bahagi ng isang salita. Sinusubukan ng modelo na tukuyin kung aling salita ang pinaka-malamang na susunod na dumating dahil sa mga salita bago nito. Ginagamit nito ang pamamahagi ng posibilidad sa lahat ng termino sa pagkakasunud-sunod nito.
Ang layunin ng mga modelo ng wika ay bumuo ng mga token sequence. Ang mga pagkakasunud-sunod na ito ay dapat na kumakatawan sa mga pattern at istruktura ng wika ng tao. Ito ay posible sa pamamagitan ng mga modelo ng pagsasanay sa malaking dami ng data ng teksto.
Pagkatapos, ang data na ito ay ginagamit upang maunawaan kung paano naipamahagi ang mga salita sa wika.
Sa panahon ng pagsasanay, binabago ng modelo ang mga parameter ng pamamahagi ng posibilidad.
At, sinusubukan nitong bawasan ang pagkakaiba sa pagitan ng inaasahan at aktwal na pamamahagi ng mga salita sa isang teksto. Posible ito sa paggamit ng loss function. Kinakalkula ng function ng pagkawala ang pagkakaiba sa pagitan ng inaasahan at aktwal na mga pamamahagi.
Natural na pagproseso ng wika at computer vision ay isa sa mga lugar kung saan ginagamit namin ang Generative Pretraining.
Ang Isyu sa Pag-align
Ang problema sa pagkakahanay ay isa sa mga kahirapan sa Generative Pretraining. Ito ay tumutukoy sa kahirapan sa pagtutugma ng probability distribution ng modelo sa pamamahagi ng aktwal na data.
Sa madaling salita, ang mga nabuong sagot ng modelo ay dapat na mas katulad ng tao.
Ang modelo ay maaaring magbigay paminsan-minsan ng hindi inaasahan o hindi tamang mga tugon. At, maaaring sanhi ito ng iba't ibang dahilan, gaya ng bias ng data ng pagsasanay o kawalan ng kamalayan sa konteksto ng modelo. Ang problema sa pagkakahanay ay dapat matugunan upang mapabuti ang kalidad ng mga modelo ng wika.
Upang malampasan ang isyung ito, ang mga modelo ng wika tulad ng ChatGPT ay gumagamit ng mga diskarte sa fine-tuning.
Pinangangasiwaan ang Fine-Tuning
Ang ikalawang bahagi ng pagsasanay sa ChatGPT ay pinangangasiwaan ng fine-tuning. Ang mga taong developer ay nakikibahagi sa mga diyalogo sa puntong ito, na kumikilos bilang parehong gumagamit ng tao at ang chatbot.
Ang mga pag-uusap na ito ay itinatala at pinagsama-sama sa isang dataset. Ang bawat sample ng pagsasanay ay may kasamang natatanging kasaysayan ng pag-uusap na tumugma sa susunod na sagot ng human developer na nagsisilbing "chatbot."
Ang layunin ng pinangangasiwaang fine-tuning ay upang i-maximize ang posibilidad na itinalaga sa pagkakasunud-sunod ng mga token sa nauugnay na sagot ng modelo. Ang pamamaraang ito ay kilala bilang "pag-aaral ng imitasyon" o "pag-clone ng pag-uugali."
Sa ganitong paraan matututo ang modelo na magbigay ng mas natural na tunog at magkakaugnay na mga tugon. Ito ay kinokopya ang mga tugon na ibinigay ng mga taong kontratista.
Ang pinangangasiwaang fine-tuning ay kung saan maaaring isaayos ang modelo ng wika para sa isang partikular na gawain.
Magbigay tayo ng halimbawa. Ipagpalagay na gusto naming turuan ang isang chatbot na magbigay ng mga rekomendasyon sa pelikula. Sanayin namin ang modelo ng wika upang mahulaan ang mga rating ng pelikula batay sa mga paglalarawan ng pelikula. At, gagamit kami ng dataset ng mga paglalarawan at rating ng pelikula.
Malalaman ng algorithm sa kalaunan kung aling mga aspeto ng isang pelikula ang tumutugma sa mataas o mahinang rating.
Matapos itong sanayin, maaari naming gamitin ang aming modelo upang magmungkahi ng mga pelikula sa mga taong gumagamit. Maaaring ilarawan ng mga user ang isang pelikulang kinagigiliwan nila, at gagamitin ng chatbot ang modelo ng pinong wika upang magrekomenda ng higit pang mga pelikulang maihahambing dito.
Mga Limitasyon sa Pangangasiwa: Distributional Shift
Ang pinangangasiwaang fine-tuning ay nagtuturo ng modelo ng wika na magsagawa ng isang tinukoy na layunin. Ito ay posible sa pamamagitan ng pagpapakain sa modelo a dataset at pagkatapos ay sanayin ito upang gumawa ng mga hula. Gayunpaman, ang sistemang ito ay may mga limitasyon na kilala bilang "mga paghihigpit sa pangangasiwa."
Isa sa mga paghihigpit na ito ay "distributional shift". Ito ay tumutukoy sa posibilidad na ang data ng pagsasanay ay maaaring hindi tumpak na sumasalamin sa real-world na pamamahagi ng mga input na makakaharap ng modelo.
Suriin natin ang halimbawa mula sa mas maaga. Sa halimbawa ng mungkahi ng pelikula, ang dataset na ginamit upang sanayin ang modelo ay maaaring hindi tumpak na nagpapakita ng iba't ibang mga pelikula at mga kagustuhan ng user na makakaharap ng chatbot. Maaaring hindi gumanap nang maayos ang chatbot gaya ng gusto natin.
Bilang resulta, natutugunan nito ang mga input na hindi katulad sa mga naobserbahan nito sa panahon ng pagsasanay.
Para sa pinangangasiwaang pag-aaral, kapag ang modelo ay sinanay lamang sa isang partikular na hanay ng mga pagkakataon, ang problemang ito ay lumitaw.
Bukod pa rito, maaaring gumanap nang mas mahusay ang modelo sa harap ng isang pagbabago sa pamamahagi kung gagamitin ang reinforcement learning upang matulungan itong umangkop sa mga bagong konteksto at matuto mula sa mga pagkakamali nito.
Batay sa Mga Kagustuhan, Gantimpala sa Pag-aaral
Ang pag-aaral ng gantimpala ay ang ikatlong yugto ng pagsasanay sa pagbuo ng isang chatbot. Sa pag-aaral ng reward, itinuro ang modelo na i-maximize ang signal ng reward.
Ito ay isang marka na nagsasaad kung gaano kaepektibo ang pagtupad ng modelo sa trabaho. Ang signal ng reward ay batay sa input mula sa mga taong nagre-rate o nag-assess ng mga tugon ng modelo.
Ang pag-aaral ng gantimpala ay naglalayong bumuo ng isang chatbot na gumagawa ng mga de-kalidad na tugon na mas gusto ng mga user ng tao. Upang gawin ito, tinatawag ang isang machine learning technique reinforcement learning—na kinabibilangan ng pag-aaral mula sa feedback sa anyo ng mga gantimpala—ay ginagamit upang sanayin ang modelo.
Ang chatbot ay sumasagot sa mga katanungan ng user, halimbawa, depende sa kasalukuyang kaalaman nito sa gawain, na ibinibigay dito sa panahon ng pag-aaral ng reward. Pagkatapos ay ibibigay ang reward signal batay sa kung gaano kahusay ang pagganap ng chatbot kapag nasuri na ng mga taong hurado ang mga tugon.
Ang reward signal na ito ay ginagamit ng chatbot para baguhin ang mga setting nito. At, pinahuhusay nito ang pagganap ng gawain.
Ilang Limitasyon sa Pag-aaral ng Gantimpala
Ang isang disbentaha ng pag-aaral ng reward ay ang feedback sa mga tugon ng chatbot ay maaaring hindi dumating nang ilang panahon dahil ang signal ng reward ay maaaring kalat-kalat at maantala. Bilang resulta, maaaring maging mahirap na matagumpay na sanayin ang chatbot dahil maaaring hindi ito makatanggap ng feedback sa mga partikular na tugon hanggang sa ibang pagkakataon.
Ang isa pang isyu ay ang mga hukom ng tao ay maaaring may iba't ibang pananaw o interpretasyon kung ano ang nagiging matagumpay na tugon, na maaaring humantong sa pagkiling sa signal ng reward. Upang mabawasan ito, ito ay madalas na ginagamit ng ilang mga hukom upang maghatid ng isang mas maaasahang signal ng reward.
Ano ang Hinaharap?
Mayroong ilang mga potensyal na hakbang sa hinaharap upang higit pang mapahusay ang pagganap ng ChatGPT.
Upang pataasin ang pang-unawa ng modelo, ang isang potensyal na ruta sa hinaharap ay ang pagsasama ng higit pang mga dataset ng pagsasanay at mga pinagmumulan ng data. Posible rin ang pagpapahusay sa kapasidad ng modelo na maunawaan at isaalang-alang ang mga di-tekstuwal na input.
Halimbawa, maaaring maunawaan ng mga modelo ng wika ang mga visual o tunog.
Sa pamamagitan ng pagsasama ng mga partikular na diskarte sa pagsasanay, ang ChatGPT ay maaari ding mapabuti para sa ilang mga gawain. Halimbawa, maaari itong gumanap damdamin pagsusuri o natural na produksyon ng wika. Bilang konklusyon, ang ChatGPT at mga kaugnay na modelo ng wika ay nagpapakita ng magandang pangako para sa pagsulong.
Mag-iwan ng Sagot