Ang Tibuok nga Proseso sa Pagbansay sa ChatGPT Gipatin-aw

Kaundan[Itago][Ipakita]

Generative Pretraining+-
- Ang Isyu sa Alignment
Gibantayan nga Fine-Tuning+-
- Mga Limitasyon sa Pagdumala: Distributional Shift
Base sa Preferences, Ganti sa Pagkat-on
Unsa ang Umaabut sa Umaabut?

Ang ChatGPT usa ka talagsaon nga modelo sa pinulongang artipisyal nga paniktik. Kitang tanan naggamit niini sa pagtabang kanato sa lain-laing mga buluhaton.

Nakapangutana ka na ba kung giunsa kini gibansay sa paghimo og mga tubag nga morag sama sa tawo? Niini nga artikulo, atong susihon ang pagbansay sa ChatGPT.

Atong ipatin-aw kung giunsa kini nahimong usa sa labing talagsaon mga modelo sa pinulongan. Samtang nagsuhid kami sa makaiikag nga kalibutan sa ChatGPT, kuyog sa usa ka panaw sa pagkadiskobre.

Overview sa Paghanas

Ang ChatGPT usa ka natural nga modelo sa pagproseso sa pinulongan.

Uban sa ChatGPT, mahimo kitang makiglambigit sa mga interactive nga dayalogo ug mga panaghisgot nga sama sa tawo. Naggamit kini usa ka pamaagi nga parehas sa Itudlo ang GPT, nga mao ang usa ka cutting-edge nga modelo sa pinulongan. Naugmad kini sa wala pa ang ChatGPT.

Naggamit kini usa ka labi ka makapadani nga pamaagi. Makapahimo kini sa natural nga interaksyon sa tiggamit. Mao nga, kini usa ka hingpit nga himan alang sa lainlaing mga aplikasyon sama sa mga chatbot ug virtual nga katabang.

Ang pamaagi sa pagbansay sa ChatGPT usa ka multi-stage nga proseso. Ang Generative Pretraining mao ang unang lakang sa pagbansay sa ChatGPT.

Niini nga hugna, ang modelo gibansay gamit ang usa ka dako nga corpus sa datos sa teksto. Dayon, ang modelo nakadiskobre sa statistical correlations ug patterns nga makita sa natural nga pinulongan. Busa, kita makabaton sa usa ka gramatika tukma ug managsama nga tubag.

Dayon among gisunod ang usa ka lakang sa gibantayan nga pag-ayo. Niini nga bahin, ang modelo gibansay sa usa ka partikular nga buluhaton. Pananglitan, kini makahimo sa paghubad sa pinulongan o pagtubag sa pangutana.

Sa katapusan, ang ChatGPT naggamit sa pagkat-on sa ganti gikan sa feedback sa tawo.

Karon, atong susihon kini nga mga lakang.

Generative Pretraining

Ang inisyal nga lebel sa pagbansay mao ang Generative Pretraining. Usa kini ka komon nga pamaagi sa pagbansay sa mga modelo sa pinulongan. Aron makahimo og mga han-ay sa token, ang pamaagi magamit ang "sunod nga lakang nga paradigma sa panagna".

Unsa ang gipasabut?

Ang matag timaan usa ka talagsaon nga variable. Kini nagrepresentar sa usa ka pulong o bahin sa usa ka pulong. Ang modelo mosulay sa pagtino kon unsang pulonga ang labing lagmit nga mosunod nga gihatag ang mga pulong sa wala pa niini. Gigamit niini ang pag-apud-apod sa kalagmitan sa tanang termino sa pagkasunodsunod niini.

Ang katuyoan sa mga modelo sa lengguwahe mao ang paghimo og mga han-ay sa token. Kini nga mga han-ay kinahanglan magrepresentar sa mga sumbanan ug istruktura sa pinulongan sa tawo. Posible kini pinaagi sa pagbansay sa mga modelo sa daghang gidaghanon sa datos sa teksto.

Dayon, kini nga datos gigamit aron masabtan kung giunsa ang mga pulong maapod-apod sa pinulongan.

Atol sa pagbansay, ang modelo nag-usab sa kalagmitan sa pag-apod-apod nga mga parameter.

Ug, kini naningkamot sa pagpakunhod sa kalainan tali sa gipaabot ug aktuwal nga pag-apod-apod sa mga pulong sa usa ka teksto. Kini mao ang posible nga sa paggamit sa usa ka pagkawala function. Ang function sa pagkawala nagkuwenta sa kalainan tali sa gipaabot ug aktuwal nga pag-apod-apod.

Pagproseso sa natural nga pinulongan ug computer vision mao ang usa sa mga lugar diin gigamit namon ang Generative Pretraining.

Openay 2

Ang Isyu sa Alignment

Ang problema sa pag-align usa sa mga kalisud sa Generative Pretraining. Kini nagtumong sa kalisud sa pagpares sa posibilidad nga apod-apod sa modelo ngadto sa pag-apod-apod sa aktuwal nga datos.
Sa laing pagkasulti, ang namugna nga mga tubag sa modelo kinahanglan nga mas sama sa tawo.

Ang modelo usahay makahatag og wala damha o dili husto nga mga tubag. Ug, kini mahimong tungod sa lain-laing mga hinungdan, sama sa pagbansay-bansay data bias o ang modelo sa kakulang sa konteksto kahibalo. Ang problema sa paglinya kinahanglang sulbaron aron mapauswag ang kalidad sa mga modelo sa pinulongan.

Aron mabuntog kini nga isyu, ang mga modelo sa lengguwahe sama sa ChatGPT naggamit ug maayong mga pamaagi sa pag-tune.

Gibantayan nga Fine-Tuning

Ang ikaduhang bahin sa pagbansay sa ChatGPT gibantayan pag-ayo. Ang mga nag-develop sa tawo nakigbahin sa mga diyalogo sa kini nga punto, nga naglihok ingon ang tawhanon nga tiggamit ug ang chatbot.

Kini nga mga pakigpulong girekord ug giipon sa usa ka dataset. Ang matag sample sa pagbansay naglakip sa usa ka lahi nga kasaysayan sa panag-istoryahanay nga gipares sa sunod nga tubag sa developer sa tawo nga nagsilbi nga "chatbot".

Ang katuyoan sa supervised fine-tuning mao ang pagpa-maximize sa probabilidad nga gi-assign sa han-ay sa mga token sa kalambigit nga tubag sa modelo. Kini nga pamaagi nailhan nga "imitation learning" o "behavior cloning."

Niining paagiha ang modelo makakat-on sa paghatag ug mas natural nga tingog ug nagkauyon nga mga tubag. Gisundog niini ang mga tubag nga gihatag sa mga kontraktor sa tawo.

Ang gibantayan pag-ayo mao ang pag-adjust sa modelo sa pinulongan para sa usa ka partikular nga buluhaton.

Maghatag ta ug pananglitan. Ibutang ta nga gusto namon magtudlo sa usa ka chatbot aron maghatag mga rekomendasyon sa sine. Among bansayon ang modelo sa pinulongan sa pagtagna sa mga rating sa salida base sa mga deskripsyon sa salida. Ug, mogamit kami usa ka dataset sa mga paghulagway sa pelikula ug mga rating.

Ang algorithm sa katapusan mahibal-an kung unsang mga aspeto sa usa ka salida ang katumbas sa taas o dili maayo nga mga rating.

Human kini mabansay, mahimo namong gamiton ang among modelo sa pagsugyot og mga salida sa mga tawo nga tiggamit. Mahimong ihulagway sa mga tiggamit ang usa ka pelikula nga ilang nalingaw, ug ang chatbot mogamit sa pino nga modelo sa lengguwahe aron irekomenda ang daghang mga pelikula nga ikatandi niini.

Mga Limitasyon sa Pagdumala: Distributional Shift

Ang supervised fine-tuning mao ang pagtudlo sa usa ka modelo sa pinulongan sa paghimo sa usa ka piho nga tumong. Mahimo kini pinaagi sa pagpakaon sa modelo a set sa datos ug dayon pagbansay niini sa paghimog mga panagna. Kini nga sistema, bisan pa, adunay mga limitasyon nga nailhan nga "mga pagdili sa pagdumala."

Usa sa kini nga mga pagdili mao ang "pagbalhin sa pag-apod-apod". Kini nagtumong sa posibilidad nga ang datos sa pagbansay mahimong dili tukma nga nagpakita sa tinuod nga kalibutan nga pag-apod-apod sa mga input nga masugatan sa modelo.

Atong repasohon ang pananglitan gikan sa una. Sa pananglitan sa sugyot sa salida, ang dataset nga gigamit sa pagbansay sa modelo mahimong dili tukma nga nagpakita sa lain-laing mga salida ug mga gusto sa user nga masugatan sa chatbot. Ang chatbot mahimong dili molihok sama sa among gusto.

Ingon usa ka sangputanan, kini nakatagbo sa mga input nga lahi sa mga naobserbahan sa panahon sa pagbansay.

Alang sa gibantayan nga pagkat-on, kung ang modelo gibansay lamang sa gihatag nga set sa mga higayon, kini nga problema mitungha.

Dugang pa, ang modelo mahimong mas maayo sa atubang sa usa ka pagbag-o sa pag-apod-apod kung gigamit ang pagkat-on sa pagpalig-on aron matabangan kini nga mohaum sa mga bag-ong konteksto ug makat-on gikan sa mga sayup niini.

Base sa Preferences, Ganti sa Pagkat-on

Ang pagkat-on sa ganti mao ang ikatulo nga yugto sa pagbansay sa pagpalambo sa usa ka chatbot. Sa pagkat-on sa ganti, ang modelo gitudlo aron mapadako ang usa ka signal sa ganti.

Kini usa ka marka nga nagpakita kung unsa ka epektibo ang modelo nga nagtuman sa trabaho. Ang reward signal gibase sa input gikan sa mga tawo nga nag-rate o nag-assess sa mga tubag sa modelo.

Ang pagkat-on sa ganti nagtumong sa paghimo ug chatbot nga nagpatunghag taas nga kalidad nga mga tubag nga gusto sa mga tawo nga tiggamit. Aron mahimo kini, usa ka teknik sa pagkat-on sa makina nga gitawag reinforcement nga pagkat-on-nga naglakip sa pagkat-on gikan sa feedback sa porma sa mga ganti—gigamit sa pagbansay sa modelo.

Gitubag sa chatbot ang mga pangutana sa tiggamit, pananglitan, depende sa karon nga pagsabot sa buluhaton, nga gihatag niini sa panahon sa pagkat-on sa ganti. Gihatag dayon ang usa ka signal sa ganti base sa kung unsa ka epektibo ang gihimo sa chatbot sa higayon nga ang mga tubag gisusi sa mga maghuhukom sa tawo.

Kini nga reward signal gigamit sa chatbot aron usbon ang mga setting niini. Ug, gipauswag niini ang paghimo sa buluhaton.

Pipila ka Limitasyon sa Pagtuon sa Ganti

Ang usa ka disbentaha sa pagkat-on sa ganti mao nga ang feedback sa mga tubag sa chatbot mahimong dili moabut sa pipila ka panahon tungod kay ang signal sa ganti mahimo’g gamay ug malangan. Ingon usa ka sangputanan, mahimo’g mahagit ang malampuson nga pagbansay sa chatbot tungod kay mahimo’g dili kini makadawat mga feedback sa piho nga mga tubag hangtod sa ulahi.

Ang usa pa nga isyu mao nga ang mga maghuhukom sa tawo mahimo’g adunay lainlaing mga panan-aw o interpretasyon kung unsa ang naghimo sa usa ka malampuson nga tubag, nga mahimong mosangput sa pagpihig sa signal sa ganti. Aron maminusan kini, kanunay kini nga gigamit sa daghang mga maghuhukom aron maghatag usa ka mas kasaligan nga signal sa ganti.

Unsa ang Umaabut sa Umaabut?

Adunay ubay-ubay nga potensyal nga umaabot nga mga lakang aron mapauswag pa ang pasundayag sa ChatGPT.

Aron madugangan ang pagsabut sa modelo, usa ka potensyal nga ruta sa umaabot mao ang paglakip sa daghang mga set sa pagbansay ug mga gigikanan sa datos. Posible usab ang pagpausbaw sa kapasidad sa modelo sa pagsabot ug pagkonsiderar sa mga non-textual inputs.

Pananglitan, ang mga modelo sa pinulongan mahimong makasabut sa mga biswal o mga tingog.

Pinaagi sa pag-apil sa piho nga mga teknik sa pagbansay ang ChatGPT mahimo usab nga mapauswag alang sa pipila nga mga buluhaton. Pananglitan, kini makahimo pagtuki sa sentimento o natural nga produksyon sa pinulongan. Sa konklusyon, ang ChatGPT ug ang may kalabutan nga mga modelo sa pinulongan nagpakita sa dakong saad alang sa pag-uswag.