Sakabeh Prosés Pelatihan ChatGPT Dijelaskeun

Daptar eusi[Sumputkeun][Témbongkeun]

Generative Pretraining+-
- Masalah Alignment
Diawasan Fine-Tuning+-
- Watesan pangawasan: Shift Distribusi
Dumasar Préferénsi, Pangajaran Diajar
Naon Mangsa Kahareup?

ChatGPT mangrupikeun modél basa intelijen buatan anu luar biasa. Urang sadayana nganggo éta pikeun ngabantosan urang dina sagala rupa tugas.

Naha anjeun kantos naroskeun kumaha éta dilatih pikeun ngahasilkeun balesan anu sigana sapertos manusa? Dina artikel ieu, urang bakal nalungtik palatihan ChatGPT.

Kami bakal ngajelaskeun kumaha éta parantos mekar janten salah sahiji anu paling luar biasa modél basa. Salaku urang ngajajah dunya intriguing of ChatGPT, datangna sapanjang dina lalampahan kapanggihna.

Tinjauan Pelatihan

ChatGPT mangrupikeun modél ngolah basa alami.

Kalayan ChatGPT, urang tiasa kalibet dina dialog interaktif sareng diskusi sapertos manusa. Éta ngagunakeun pendekatan anu sami sareng Ajar GPT, anu mangrupa modél basa anu canggih. Éta dikembangkeun teu lami sateuacan ChatGPT.

Éta ngagunakeun metode anu langkung pikaresepeun. Ieu ngamungkinkeun interaksi pamaké alam. Janten, éta mangrupikeun alat anu sampurna pikeun sababaraha aplikasi sapertos chatbots sareng asisten virtual.

Prosedur latihan ChatGPT nyaéta prosés multi-tahap. Generative Pretraining mangrupikeun léngkah munggaran dina palatihan ChatGPT.

Dina fase ieu, modél dilatih ngagunakeun korpus data téks anu ageung. Lajeng, modél manggihan korelasi statistik jeung pola kapanggih dina basa alam. Janten, urang tiasa gaduh réspon gramatikal anu akurat sareng koheren.

Teras we tuturkeun léngkah-léngkah panyetelan anu diawaskeun. Dina bagian ieu, modél dilatih dina tugas nu tangtu. Contona, bisa ngalakukeun tarjamahan basa atawa ngajawab patarosan.

Tungtungna, ChatGPT ngagunakeun ganjaran diajar tina eupan balik manusa.

Ayeuna, hayu urang nalungtik léngkah ieu.

Generative Pretraining

Tingkat awal latihan nyaéta Generative Pretraining. Ieu mangrupikeun metode anu umum pikeun ngalatih modél basa. Pikeun nyieun runtuyan token, métode nerapkeun "paradigma prediksi lengkah saterusna".

Naon éta hartosna?

Unggal token mangrupakeun variabel unik. Aranjeunna ngagambarkeun kecap atawa bagian tina kecap. Modél nyoba nangtukeun kecap mana nu paling dipikaresep datang hareup dibere kecap saméméh éta. Ngagunakeun distribusi probabiliti dina sakabéh istilah dina runtuyan na.

Tujuan model basa nya éta pikeun ngawangun runtuyan token. Runtuyan ieu kudu ngagambarkeun pola jeung struktur basa manusa. Ieu mungkin ku model latihan dina jumlah badag data téks.

Lajeng, data ieu dipaké pikeun ngarti kumaha kecap bisa disebarkeun dina basa.

Salila latihan, modél ngarobah parameter distribusi probabiliti.

Sareng, éta nyobian ngirangan bédana antara distribusi kecap anu dipiharep sareng aktual dina téks. Ieu mungkin ku pamakéan hiji fungsi leungitna. Fungsi leungitna ngitung bédana antara sebaran ekspektasi jeung sabenerna.

Pamrosésan basa anu alami jeung visi komputer mangrupikeun salah sahiji daérah dimana kami nganggo Generative Pretraining.

Buka 2

Masalah Alignment

Masalah alignment mangrupikeun salah sahiji kasusah dina Generative Pretraining. Ieu nujul kana kasusah dina cocog sebaran probabiliti model jeung distribusi data sabenerna.
Dina basa sejen, jawaban model urang dihasilkeun kudu leuwih manusa-kawas.

Model kadang-kadang tiasa masihan réspon anu teu kaduga atanapi teu leres. Jeung, ieu bisa jadi dibalukarkeun ku rupa-rupa sabab, kayaning bias data latihan atawa kurangna model urang kasadaran konteks. Masalah alignment kudu diungkulan pikeun ngaronjatkeun kualitas model basa.

Pikeun ngungkulan masalah ieu, modél basa kawas ChatGPT ngagunakeun téknik fine-tuning.

Diawasan Fine-Tuning

Bagian kadua latihan ChatGPT diawaskeun fine-tuning. Pamekar manusa kalibet dina dialog dina titik ieu, bertindak salaku pangguna manusa sareng chatbot.

Ceramah ieu dirékam sareng dihijikeun kana set data. Unggal sampel latihan ngawengku sajarah paguneman béda loyog jeung jawaban salajengna ti developer manusa porsi salaku "chatbot".

Tujuan diawasan fine-tuning nyaéta pikeun maksimalkeun pungsi probabiliti ditugaskeun ka runtuyan tokens dina jawaban pakait ku model. Metoda ieu katelah "pangajaran imitasi" atanapi "kloning paripolah."

Modél cara ieu tiasa diajar masihan réspon anu langkung alami sareng koheren. Éta réplikasi balesan anu dipasihkeun ku kontraktor manusa.

Diawasan fine-tuning nyaeta dimana model basa bisa disaluyukeun pikeun tugas nu tangtu.

Hayu urang masihan conto. Anggap urang hoyong ngajar chatbot pikeun masihan rekomendasi pilem. Urang bakal ngalatih modél basa pikeun ngaduga rating pilem dumasar kana déskripsi pilem. Sareng, urang bakal ngagunakeun set data déskripsi sareng rating pilem.

Algoritma antukna bakal terang naon aspék pilem anu cocog sareng rating anu luhur atanapi goréng.

Saatos éta dilatih, urang tiasa nganggo modél urang pikeun nyarankeun pilem ka pangguna manusa. Pamaké tiasa ngajelaskeun pilem anu aranjeunna resep, sareng chatbot bakal ngagunakeun modél basa anu disempurnakeun pikeun nyarankeun langkung seueur pilem anu sabanding sareng éta.

Watesan pangawasan: Shift Distribusi

Diawasan fine-tuning nyaeta ngajarkeun model basa pikeun ngalakukeun tujuan nu tangtu. Ieu mungkin ku nyoco model a susunan data terus ngalatih nyieun prediksi. Sistem ieu, kumaha oge, gaduh wates anu katelah "larangan pangawasan."

Salah sahiji larangan ieu nyaéta "shift distribusi". Ieu nujul kana kamungkinan yén data latihan bisa jadi teu akurat ngagambarkeun distribusi real-dunya inputs yén modél bakal sapatemon.

Hayu urang marios conto ti baheula. Dina conto bongbolongan pilem, set data anu digunakeun pikeun ngalatih modél tiasa henteu akurat ngagambarkeun rupa-rupa pilem sareng kahoyong pangguna anu bakal dipendakan ku chatbot. Chatbot tiasa henteu ngalaksanakeun sakumaha anu dipikahoyong.

Hasilna, éta nyumponan input anu béda ti anu dititénan nalika latihan.

Pikeun pangajaran diawasan, nalika model ngan dilatih dina set tina instansi tinangtu, masalah ieu timbul.

Salaku tambahan, modél tiasa langkung saé dina nyanghareupan parobihan distribusi upami diajar penguatan dianggo pikeun ngabantosanana adaptasi kana kontéks énggal sareng diajar tina kasalahanana.

Dumasar Préferénsi, Pangajaran Diajar

Diajar ganjaran mangrupa tahap latihan katilu dina ngamekarkeun chatbot a. Dina pangajaran ganjaran, modél diajarkeun pikeun maksimalkeun sinyal ganjaran.

Éta mangrupikeun skor anu nunjukkeun kumaha efektifna modél ngalaksanakeun padamelan éta. Sinyal ganjaran dumasar kana input ti jalma anu meunteun atanapi meunteun balesan model.

Diajar ganjaran tujuanana pikeun ngembangkeun chatbot anu ngahasilkeun balesan kualitas luhur anu dipikaresep ku pangguna manusa. Jang ngalampahkeun ieu, téknik machine learning disebut reinforcement learning-nu ngawengku diajar tina eupan balik dina bentuk ganjaran-dipaké pikeun ngalatih modél.

Chatbot ngajawab patarosan pangguna, contona, gumantung kana keupeul tugasna ayeuna, anu disayogikeun nalika diajar ganjaran. Sinyal ganjaran teras dipasihkeun dumasar kana kumaha efektifna chatbot nalika balesanna ditaksir ku hakim manusa.

Sinyal ganjaran ieu dianggo ku chatbot pikeun ngarobih setélanna. Sareng, éta ningkatkeun kinerja tugas.

Sababaraha Watesan dina Diajar Ganjaran

Kelemahan tina diajar ganjaran nyaéta réspon kana balesan chatbot moal dugi ka sababaraha waktos sabab sinyal ganjaran tiasa jarang sareng ditunda. Hasilna, éta tiasa janten tantangan pikeun suksés ngalatih chatbot sabab éta moal nampi tanggapan kana balesan khusus dugi ka engké.

Masalah anu sanés nyaéta hakim manusa tiasa gaduh pandangan atanapi interpretasi anu béda-béda ngeunaan naon anu nyababkeun réspon anu suksés, anu tiasa nyababkeun bias dina sinyal ganjaran. Pikeun ngirangan ieu, éta sering dianggo ku sababaraha hakim pikeun nganteurkeun sinyal ganjaran anu langkung diandelkeun.

Naon Mangsa Kahareup?

Aya sababaraha léngkah anu bakal datang pikeun ningkatkeun kamampuan ChatGPT.

Pikeun ningkatkeun pamahaman modél, salah sahiji jalur anu bakal datang nyaéta ngalebetkeun langkung seueur set data pelatihan sareng sumber data. Ningkatkeun kapasitas modél pikeun ngarti sareng merhatikeun input non-tékstual ogé mungkin.

Contona, modél basa bisa ngarti visual atawa sora.

Ku incorporating téhnik latihan husus ChatGPT ogé bisa ningkat pikeun tugas nu tangtu. Salaku conto, éta tiasa ngalaksanakeun analisis sentimen atawa produksi basa alam. Kasimpulanana, ChatGPT sareng model basa anu aya hubunganana nunjukkeun jangji anu hadé pikeun maju.