Keseluruhan Proses Latihan ChatGPT Dijelaskan

Jadual Kandungan[Sembunyi][Tunjukkan]

Pralatihan Generatif+-
- Isu Penjajaran
Penyeliaan Penalaan Halus+-
- Had Penyeliaan: Anjakan Pengedaran
Berdasarkan Keutamaan, Pembelajaran Ganjaran
Apa Masa Depan?

ChatGPT ialah model bahasa kecerdasan buatan yang luar biasa. Kita semua menggunakannya untuk membantu kita dalam pelbagai tugas.

Pernahkah anda mempersoalkan bagaimana ia dilatih untuk menghasilkan balasan yang kelihatan seperti manusia? Dalam artikel ini, kami akan mengkaji latihan ChatGPT.

Kami akan menerangkan bagaimana ia telah berkembang menjadi salah satu yang paling cemerlang model bahasa. Sambil kami meneroka dunia ChatGPT yang menarik, sertai perjalanan penemuan.

Gambaran Keseluruhan Latihan

ChatGPT ialah model pemprosesan bahasa semula jadi.

Dengan ChatGPT, kita boleh terlibat dalam dialog interaktif dan perbincangan seperti manusia. Ia menggunakan pendekatan yang serupa dengan Arahkan GPT, yang merupakan model bahasa yang canggih. Ia dibangunkan sejurus sebelum ChatGPT.

Ia menggunakan kaedah yang lebih menarik. Ini membolehkan interaksi pengguna semula jadi. Jadi, ia adalah alat yang sempurna untuk pelbagai aplikasi seperti chatbots dan pembantu maya.

Prosedur latihan ChatGPT ialah proses berbilang peringkat. Pralatihan Generatif ialah langkah pertama dalam latihan ChatGPT.

Dalam fasa ini, model dilatih menggunakan korpus data teks yang besar. Kemudian, model menemui korelasi statistik dan corak yang terdapat dalam bahasa semula jadi. Jadi, kita boleh mempunyai respons yang tepat dari segi tatabahasa dan koheren.

Kemudian kami mengikuti langkah penalaan halus yang diawasi. Dalam bahagian ini, model dilatih mengenai tugas tertentu. Sebagai contoh, ia boleh melakukan terjemahan bahasa atau menjawab soalan.

Akhir sekali, ChatGPT menggunakan pembelajaran ganjaran daripada maklum balas manusia.

Sekarang, mari kita periksa langkah-langkah ini.

Pralatihan Generatif

Peringkat awal latihan ialah Pralatihan Generatif. Ia adalah kaedah biasa untuk melatih model bahasa. Untuk mencipta jujukan token, kaedah ini menggunakan "paradigma ramalan langkah seterusnya".

Apakah maksudnya?

Setiap token ialah pembolehubah unik. Mereka mewakili perkataan atau sebahagian daripada perkataan. Model cuba menentukan perkataan mana yang paling berkemungkinan akan datang seterusnya memandangkan perkataan sebelum itu. Ia menggunakan taburan kebarangkalian merentas semua istilah dalam urutannya.

Tujuan model bahasa adalah untuk membina urutan token. Urutan ini harus mewakili corak dan struktur bahasa manusia. Ini boleh dilakukan dengan melatih model pada kuantiti data teks yang besar.

Kemudian, data ini digunakan untuk memahami cara perkataan diedarkan dalam bahasa.

Semasa latihan, model menukar parameter taburan kebarangkalian.

Dan, ia cuba mengurangkan perbezaan antara pengedaran perkataan yang dijangka dan sebenar dalam teks. Ini boleh dilakukan dengan menggunakan fungsi kehilangan. Fungsi kerugian mengira perbezaan antara pengagihan yang dijangka dan sebenar.

Pemprosesan bahasa semulajadi and penglihatan komputer adalah salah satu bidang di mana kami menggunakan Pralatihan Generatif.

Openai 2

Isu Penjajaran

Masalah penjajaran adalah salah satu kesukaran dalam Pralatihan Generatif. Ini merujuk kepada kesukaran untuk memadankan taburan kebarangkalian model dengan taburan data sebenar.
Dalam erti kata lain, jawapan yang dihasilkan model harus lebih seperti manusia.

Model mungkin kadangkala memberikan respons yang tidak dijangka atau tidak wajar. Dan, ini mungkin disebabkan oleh pelbagai sebab, seperti bias data latihan atau kekurangan kesedaran konteks model. Masalah penjajaran mesti ditangani untuk meningkatkan kualiti model bahasa.

Untuk mengatasi isu ini, model bahasa seperti ChatGPT menggunakan teknik penalaan halus.

Penyeliaan Penalaan Halus

Bahagian kedua latihan ChatGPT diselia penalaan halus. Pembangun manusia terlibat dalam dialog pada ketika ini, bertindak sebagai pengguna manusia dan chatbot.

Perbincangan ini direkodkan dan diagregatkan ke dalam set data. Setiap sampel latihan termasuk sejarah perbualan berbeza yang dipadankan dengan jawapan seterusnya pembangun manusia yang berfungsi sebagai "chatbot".

Tujuan penalaan halus diselia adalah untuk memaksimumkan kebarangkalian yang diberikan kepada jujukan token dalam jawapan yang berkaitan oleh model. Kaedah ini dikenali sebagai "pembelajaran tiruan" atau "pengklonan tingkah laku."

Model cara ini boleh belajar untuk memberikan respons yang lebih bunyi semula jadi dan koheren. Ia meniru balasan yang diberikan oleh kontraktor manusia.

Penalaan halus yang diselia ialah tempat model bahasa boleh dilaraskan untuk tugas tertentu.

Mari kita beri contoh. Katakan kami ingin mengajar chatbot untuk memberikan cadangan filem. Kami akan melatih model bahasa untuk meramalkan rating filem berdasarkan huraian filem. Dan, kami akan menggunakan set data perihalan dan penilaian filem.

Algoritma akhirnya akan mengetahui aspek filem yang sepadan dengan rating tinggi atau buruk.

Selepas ia dilatih, kami boleh menggunakan model kami untuk mencadangkan filem kepada pengguna manusia. Pengguna mungkin menerangkan filem yang mereka gemari dan chatbot akan menggunakan model bahasa yang diperhalusi untuk mengesyorkan lebih banyak filem yang setanding dengannya.

Had Penyeliaan: Anjakan Pengedaran

Penalaan halus yang diselia ialah mengajar model bahasa untuk melaksanakan matlamat tertentu. Ini boleh dilakukan dengan memberi makan kepada model a dataset dan kemudian melatihnya untuk membuat ramalan. Sistem ini, bagaimanapun, mempunyai had yang dikenali sebagai "sekatan pengawasan."

Salah satu sekatan ini ialah "anjakan pengedaran". Ia merujuk kepada kemungkinan bahawa data latihan mungkin tidak menggambarkan dengan tepat pengedaran input dunia sebenar yang akan dihadapi oleh model tersebut.

Mari kita semak contoh dari awal. Dalam contoh cadangan filem, set data yang digunakan untuk melatih model mungkin tidak menggambarkan dengan tepat kepelbagaian filem dan pilihan pengguna yang akan dihadapi oleh chatbot. Chatbot mungkin tidak berfungsi sebaik yang kita mahukan.

Akibatnya, ia memenuhi input yang berbeza daripada yang diperhatikan semasa latihan.

Untuk pembelajaran diselia, apabila model hanya dilatih pada set contoh tertentu, masalah ini timbul.

Selain itu, model mungkin berprestasi lebih baik dalam menghadapi perubahan pengagihan jika pembelajaran peneguhan digunakan untuk membantunya menyesuaikan diri dengan konteks baharu dan belajar daripada kesilapannya.

Berdasarkan Keutamaan, Pembelajaran Ganjaran

Pembelajaran ganjaran adalah peringkat latihan ketiga dalam membangunkan chatbot. Dalam pembelajaran ganjaran, model ini diajar untuk memaksimumkan isyarat ganjaran.

Ia adalah skor yang menunjukkan sejauh mana keberkesanan model itu mencapai kerja. Isyarat ganjaran adalah berdasarkan input daripada orang yang menilai atau menilai balasan model.

Pembelajaran ganjaran bertujuan untuk membangunkan chatbot yang menghasilkan balasan berkualiti tinggi yang disukai pengguna manusia. Untuk melakukan ini, teknik pembelajaran mesin dipanggil pembelajaran pengukuhan—yang merangkumi pembelajaran daripada maklum balas dalam bentuk ganjaran-digunakan untuk melatih model.

Chatbot menjawab pertanyaan pengguna, contohnya, bergantung pada pemahaman semasa tugas itu, yang dibekalkan kepadanya semasa pembelajaran ganjaran. Isyarat ganjaran kemudiannya diberikan berdasarkan sejauh mana prestasi chatbot sebaik sahaja balasan telah dinilai oleh hakim manusia.

Isyarat ganjaran ini digunakan oleh chatbot untuk mengubah suai tetapannya. Dan, ia meningkatkan prestasi tugas.

Beberapa Had pada Pembelajaran Ganjaran

Kelemahan pembelajaran ganjaran ialah maklum balas pada balasan chatbot mungkin tidak datang untuk beberapa lama memandangkan isyarat ganjaran mungkin jarang dan tertangguh. Akibatnya, mungkin sukar untuk berjaya melatih bot sembang kerana ia mungkin tidak menerima maklum balas tentang balasan tertentu sehingga lama kemudian.

Isu lain ialah hakim manusia mungkin mempunyai pandangan atau tafsiran yang berbeza-beza tentang perkara yang menjadikan respons berjaya, yang mungkin membawa kepada berat sebelah dalam isyarat ganjaran. Untuk mengurangkan ini, ia sering digunakan oleh beberapa hakim untuk menyampaikan isyarat ganjaran yang lebih boleh dipercayai.

Apa Masa Depan?

Terdapat beberapa langkah masa hadapan yang berpotensi untuk meningkatkan lagi prestasi ChatGPT.

Untuk meningkatkan kefahaman model, satu laluan masa depan yang berpotensi ialah memasukkan lebih banyak set data latihan dan sumber data. Meningkatkan kapasiti model untuk memahami dan mengambil kira input bukan teks adalah mungkin juga.

Contohnya, model bahasa boleh memahami visual atau bunyi.

Dengan menggabungkan teknik latihan khusus ChatGPT juga boleh dipertingkatkan untuk tugasan tertentu. Sebagai contoh, ia boleh melaksanakan analisis sentimen atau penghasilan bahasa semula jadi. Kesimpulannya, ChatGPT dan model bahasa yang berkaitan menunjukkan janji besar untuk memajukan.