Masalah klasik dalam kecerdasan buatan ialah mengejar mesin yang boleh memahami bahasa manusia.
Contohnya, apabila mencari "restoran Itali berdekatan" pada enjin carian kegemaran anda, algoritma perlu menganalisis setiap perkataan dalam pertanyaan anda dan mengeluarkan hasil yang berkaitan. Aplikasi terjemahan yang baik perlu memahami konteks perkataan tertentu dalam bahasa Inggeris dan entah bagaimana menjelaskan perbezaan dalam tatabahasa antara bahasa.
Semua tugas ini dan banyak lagi terletak di bawah subbidang sains komputer yang dikenali sebagai Pemprosesan Bahasa Asli atau NLP. Kemajuan dalam NLP telah membawa kepada pelbagai aplikasi praktikal daripada pembantu maya seperti Amazon's Alexa kepada penapis spam yang mengesan e-mel berniat jahat.
Kejayaan terbaru dalam NLP ialah idea a model bahasa yang besar atau LLM. LLM seperti GPT-3 telah menjadi begitu berkuasa sehinggakan ia kelihatan berjaya dalam hampir mana-mana tugas NLP atau kes penggunaan.
Dalam artikel ini, kita akan melihat apa sebenarnya LLM, cara model ini dilatih dan had semasa yang mereka ada.
Apakah model bahasa yang besar?
Pada terasnya, model bahasa hanyalah algoritma yang mengetahui kemungkinan urutan perkataan adalah ayat yang sah.
Model bahasa yang sangat mudah yang dilatih pada beberapa ratus buku sepatutnya dapat memberitahu bahawa "Dia pulang ke rumah" lebih sah daripada "Home pergi dia".
Jika kita menggantikan set data yang agak kecil dengan set data besar yang dikikis dari internet, kita mula mendekati idea a model bahasa yang besar.
Menggunakan rangkaian saraf, penyelidik boleh melatih LLM pada sejumlah besar data teks. Oleh kerana jumlah data teks model telah melihat, LLM menjadi sangat baik dalam meramalkan perkataan seterusnya dalam urutan.
Model ini menjadi begitu canggih, ia boleh melaksanakan banyak tugas NLP. Tugas-tugas ini termasuk meringkaskan teks, mencipta kandungan novel, dan juga mensimulasikan perbualan seperti manusia.
Sebagai contoh, model bahasa GPT-3 yang sangat popular dilatih dengan lebih 175 bilion parameter dan dianggap sebagai model bahasa paling maju setakat ini.
Ia mampu menjana kod kerja, menulis keseluruhan artikel dan boleh menjawab soalan tentang sebarang topik.
Bagaimanakah LLM Dilatih?
Kami telah menyentuh secara ringkas fakta bahawa LLM berhutang banyak kuasa mereka kepada saiz data latihan mereka. Terdapat sebab mengapa kami memanggil mereka model bahasa "besar".
Pra-latihan dengan Seni Bina Transformer
Semasa peringkat pra-latihan, LLM diperkenalkan kepada data teks sedia ada untuk mempelajari struktur umum dan peraturan sesuatu bahasa.
Dalam beberapa tahun kebelakangan ini, LLM telah dilatih terlebih dahulu mengenai set data yang merangkumi sebahagian besar internet awam. Sebagai contoh, model bahasa GPT-3 telah dilatih pada data daripada Rangkak Biasa set data, korpus siaran web, halaman web dan buku digital yang dikikis daripada lebih 50 juta domain.
Dataset besar kemudiannya dimasukkan ke dalam model yang dikenali sebagai a pengubah. Transformer ialah sejenis rangkaian saraf yang mendalam yang paling sesuai untuk data berjujukan.
Transformer menggunakan an seni bina pengekod-penyahkod untuk mengendalikan input dan output. Pada asasnya, pengubah mengandungi dua rangkaian saraf: pengekod dan penyahkod. Pengekod boleh mengekstrak makna teks input dan menyimpannya sebagai vektor. Penyahkod kemudiannya menerima vektor dan menghasilkan tafsirannya terhadap teks.
Walau bagaimanapun, konsep utama yang membolehkan seni bina transformer berfungsi dengan baik ialah penambahan a mekanisme perhatian diri. Konsep perhatian kendiri membolehkan model memberi perhatian kepada perkataan yang paling penting dalam ayat yang diberikan. Mekanisme ini juga mempertimbangkan pemberat antara perkataan yang berjauhan secara berurutan.
Satu lagi faedah perhatian diri ialah proses itu boleh disejajarkan. Daripada memproses data berjujukan mengikut tertib, model transformer boleh memproses semua input sekaligus. Ini membolehkan transformer melatih sejumlah besar data secara relatif cepat berbanding kaedah lain.
Penalaan halus
Selepas peringkat pra-latihan, anda boleh memilih untuk memperkenalkan teks baharu untuk LLM asas untuk dilatih. Kami memanggil proses ini penalaan halus dan sering digunakan untuk menambah baik lagi output LLM pada tugas tertentu.
Sebagai contoh, anda mungkin mahu menggunakan LLM untuk menjana kandungan untuk akaun Twitter anda. Kami boleh menyediakan model dengan beberapa contoh tweet anda sebelum ini untuk memberikan idea tentang output yang diingini.
Terdapat beberapa jenis penalaan halus.
Pembelajaran beberapa pukulan merujuk kepada proses memberi model sebilangan kecil contoh dengan jangkaan bahawa model bahasa akan memikirkan cara untuk membuat output yang serupa. Pembelajaran satu pukulan adalah proses yang serupa kecuali hanya satu contoh disediakan.
Had Model Bahasa Besar
LLM seperti GPT-3 mampu melaksanakan sejumlah besar kes penggunaan walaupun tanpa penalaan halus. Walau bagaimanapun, model ini masih datang dengan set had mereka sendiri.
Kekurangan Pemahaman Semantik Dunia
Di permukaan, LLM kelihatan mempamerkan kecerdasan. Walau bagaimanapun, model ini tidak beroperasi dengan cara yang sama otak manusia tidak. LLM hanya bergantung pada pengiraan statistik untuk menjana output. Mereka tidak mempunyai keupayaan untuk menaakul idea dan konsep sendiri.
Oleh sebab itu, LLM boleh mengeluarkan jawapan yang tidak masuk akal hanya kerana perkataan itu kelihatan "betul" atau "kemungkinan statistik" apabila diletakkan dalam susunan tertentu itu.
Halusinasi
Model seperti GPT-3 juga mengalami tindak balas yang tidak tepat. LLM boleh mengalami fenomena yang dikenali sebagai halusinasi di mana model mengeluarkan respons yang salah secara fakta tanpa sebarang kesedaran bahawa respons itu tidak mempunyai asas dalam realiti.
Sebagai contoh, pengguna boleh meminta model untuk menerangkan pemikiran Steve Jobs tentang iPhone terbaharu. Model ini mungkin menghasilkan petikan dari udara nipis berdasarkan data latihannya.
Bias dan Pengetahuan Terhad
Seperti kebanyakan algoritma lain, model bahasa besar cenderung untuk mewarisi bias yang terdapat dalam data latihan. Semasa kami mula bergantung lebih pada LLM untuk mendapatkan maklumat, pembangun model ini harus mencari cara untuk mengurangkan kesan yang mungkin berbahaya daripada tindak balas berat sebelah.
Dalam kapasiti yang sama, titik buta data latihan model juga akan menghalang model itu sendiri. Pada masa ini, model bahasa besar mengambil masa berbulan-bulan untuk dilatih. Model ini juga bergantung pada set data yang terhad dalam skop. Itulah sebabnya ChatGPT hanya mempunyai pengetahuan terhad tentang peristiwa yang berlaku pada tahun 2021 lalu.
Kesimpulan
Model bahasa yang besar mempunyai potensi untuk benar-benar mengubah cara kita berinteraksi dengan teknologi dan dunia kita secara amnya.
Jumlah besar data yang tersedia di internet telah memberi penyelidik cara untuk memodelkan kerumitan bahasa. Walau bagaimanapun, sepanjang perjalanan, model bahasa ini nampaknya telah mengambil pemahaman seperti manusia tentang dunia sebagaimana adanya.
Apabila orang ramai mula mempercayai model bahasa ini untuk memberikan output yang tepat, penyelidik dan pembangun sudah pun mencari cara untuk menambah pagar supaya teknologi itu kekal beretika.
Pada pendapat anda, apakah masa depan LLM?
Sila tinggalkan balasan anda