Model Bahasa Besar: Semua yang Perlu Anda Ketahui

Daftar Isi[Bersembunyi][Menunjukkan]

Apa itu model bahasa besar?
Bagaimana LLM Dilatih?+-
- Pra-pelatihan dengan Arsitektur Transformer
- Mencari setelan
Keterbatasan Model Bahasa Besar+-
Kesimpulan

Masalah klasik dalam kecerdasan buatan adalah mengejar mesin yang dapat memahami bahasa manusia.

Misalnya, saat menelusuri "restoran Italia terdekat" di mesin telusur favorit Anda, algoritme harus menganalisis setiap kata dalam kueri Anda dan menampilkan hasil yang relevan. Aplikasi terjemahan yang layak harus memahami konteks kata tertentu dalam bahasa Inggris dan entah bagaimana memperhitungkan perbedaan tata bahasa antar bahasa.

Semua tugas ini dan lebih banyak lagi berada di bawah subbidang ilmu komputer yang dikenal sebagai Pengolahan Bahasa alami atau NLP. Kemajuan dalam NLP telah menghasilkan beragam aplikasi praktis dari asisten virtual seperti Amazon's Alexa hingga filter spam yang mendeteksi email berbahaya.

Terobosan terbaru dalam NLP adalah gagasan tentang a model bahasa besar atau LLM. LLM seperti GPT-3 telah menjadi sangat kuat sehingga tampaknya berhasil di hampir semua tugas atau kasus penggunaan NLP.

Pada artikel ini, kita akan melihat apa sebenarnya LLM itu, bagaimana model ini dilatih, dan batasan yang mereka miliki saat ini.

Apa itu model bahasa besar?

Pada intinya, model bahasa hanyalah sebuah algoritme yang mengetahui seberapa besar kemungkinan urutan kata menjadi kalimat yang valid.

Model bahasa yang sangat sederhana yang dilatih pada beberapa ratus buku harus dapat mengatakan bahwa "Dia pulang" lebih valid daripada "Dia pulang".

Jika kita mengganti kumpulan data yang relatif kecil dengan kumpulan data besar yang diambil dari internet, kita mulai mendekati ide a model bahasa besar.

Menggunakan jaringan saraf, peneliti dapat melatih LLM pada sejumlah besar data teks. Karena jumlah data teks yang dilihat model, LLM menjadi sangat baik dalam memprediksi kata berikutnya secara berurutan.

Modelnya menjadi sangat canggih, sehingga dapat melakukan banyak tugas NLP. Tugas-tugas ini termasuk meringkas teks, membuat konten baru, dan bahkan mensimulasikan percakapan seperti manusia.

model bahasa besar dapat membuat konten baru berdasarkan petunjuknya

Misalnya, model bahasa GPT-3 yang sangat populer dilatih dengan lebih dari 175 miliar parameter dan sejauh ini dianggap sebagai model bahasa paling canggih.

Itu dapat menghasilkan kode yang berfungsi, menulis seluruh artikel, dan dapat mencoba menjawab pertanyaan tentang topik apa pun.

Bagaimana LLM Dilatih?

Kami telah secara singkat menyentuh fakta bahwa LLM sangat bergantung pada ukuran data pelatihan mereka. Ada alasan mengapa kami menyebutnya model bahasa "besar".

Pra-pelatihan dengan Arsitektur Transformer

Selama tahap pra-pelatihan, LLM diperkenalkan ke data teks yang ada untuk mempelajari struktur umum dan aturan bahasa.

Dalam beberapa tahun terakhir, LLM telah dilatih sebelumnya pada kumpulan data yang mencakup sebagian besar internet publik. Misalnya, model bahasa GPT-3 dilatih berdasarkan data dari Perayapan Umum kumpulan data, kumpulan postingan web, halaman web, dan buku digital yang diambil dari lebih dari 50 juta domain.

Kumpulan data besar kemudian dimasukkan ke dalam model yang dikenal sebagai a transformator. Transformer adalah salah satu jenis jaringan saraf yang dalam yang bekerja paling baik untuk data berurutan.

model bahasa besar menggunakan transformer

Transformer menggunakan arsitektur encoder-decoder untuk menangani masukan dan keluaran. Pada dasarnya, trafo berisi dua jaringan saraf: encoder dan decoder. Encoder dapat mengekstrak makna teks input dan menyimpannya sebagai vektor. Dekoder kemudian menerima vektor dan menghasilkan interpretasinya terhadap teks.

Namun, konsep kunci yang memungkinkan arsitektur trafo bekerja dengan baik adalah penambahan a mekanisme perhatian diri. Konsep perhatian diri memungkinkan model memperhatikan kata-kata terpenting dalam kalimat tertentu. Mekanisme tersebut bahkan mempertimbangkan bobot antar kata yang berjauhan secara berurutan.

Manfaat lain dari perhatian diri adalah bahwa prosesnya dapat diparalelkan. Alih-alih memproses data berurutan, model transformator dapat memproses semua input sekaligus. Hal ini memungkinkan transformer melatih data dalam jumlah besar secara relatif lebih cepat dibandingkan dengan metode lain.

Mencari setelan

Setelah tahap pra-pelatihan, Anda dapat memilih untuk memperkenalkan teks baru untuk LLM dasar untuk dilatih. Kami menyebutnya proses ini mencari setelan dan sering digunakan untuk lebih meningkatkan hasil LLM pada tugas tertentu.

Misalnya, Anda mungkin ingin menggunakan LLM untuk membuat konten untuk akun Twitter Anda. Kami dapat memberikan model dengan beberapa contoh tweet Anda sebelumnya untuk memberikan gambaran tentang output yang diinginkan.

Ada beberapa jenis fine-tuning.

model bahasa besar mampu melakukan sedikit pembelajaran tembakan

Pembelajaran sedikit mengacu pada proses pemberian sejumlah kecil contoh kepada model dengan harapan bahwa model bahasa akan mengetahui cara membuat keluaran yang serupa. Pembelajaran satu kesempatan adalah proses yang serupa kecuali hanya satu contoh yang disediakan.

Keterbatasan Model Bahasa Besar

LLM seperti GPT-3 mampu melakukan banyak kasus penggunaan bahkan tanpa penyetelan halus. Namun, model ini masih memiliki batasannya sendiri.

Kurangnya Pemahaman Semantik tentang Dunia

Di permukaan, LLM tampak menampilkan kecerdasan. Namun, model ini tidak beroperasi dengan cara yang sama otak manusia melakukan. LLM hanya mengandalkan perhitungan statistik untuk menghasilkan keluaran. Mereka tidak memiliki kapasitas untuk menalar ide dan konsep mereka sendiri.

Karena itu, LLM dapat menghasilkan jawaban yang tidak masuk akal hanya karena kata-katanya tampak "benar" atau "kemungkinan secara statistik" ketika ditempatkan dalam urutan tertentu.

Halusinasi

Model seperti GPT-3 juga mengalami respons yang tidak akurat. LLM dapat mengalami fenomena yang dikenal sebagai halusinasi di mana model menghasilkan respons yang salah secara faktual tanpa kesadaran apa pun bahwa respons tersebut tidak memiliki dasar dalam kenyataan.

Misalnya, pengguna dapat meminta model untuk menjelaskan pemikiran Steve Jobs tentang iPhone terbaru. Model dapat menghasilkan kutipan dari udara tipis berdasarkan data pelatihannya.

Bias dan Pengetahuan Terbatas

Seperti banyak algoritme lainnya, model bahasa besar cenderung mewarisi bias yang ada dalam data pelatihan. Saat kami mulai lebih mengandalkan LLM untuk mengambil informasi, pengembang model ini harus menemukan cara untuk mengurangi efek yang berpotensi berbahaya dari tanggapan yang bias.

Dalam kapasitas yang sama, titik buta dari data pelatihan model juga akan menghambat model itu sendiri. Saat ini, model bahasa besar membutuhkan waktu berbulan-bulan untuk dilatih. Model ini juga mengandalkan kumpulan data yang cakupannya terbatas. Inilah mengapa ChatGPT hanya memiliki pengetahuan terbatas tentang peristiwa yang terjadi setelah tahun 2021.

Kesimpulan

Model bahasa besar memiliki potensi untuk benar-benar mengubah cara kita berinteraksi dengan teknologi dan dunia kita secara umum.

Banyaknya data yang tersedia di internet telah memberi para peneliti cara untuk memodelkan kompleksitas bahasa. Namun, di sepanjang jalan, model-model bahasa ini tampaknya telah mengambil pemahaman yang mirip manusia tentang dunia sebagaimana adanya.

Saat publik mulai memercayai model bahasa ini untuk memberikan hasil yang akurat, peneliti dan pengembang sudah menemukan cara untuk menambahkan pagar sehingga teknologinya tetap etis.

Menurut Anda, apa masa depan LLM?

Model Bahasa Besar: Semua yang Perlu Anda Ketahui

Apa itu model bahasa besar?

Bagaimana LLM Dilatih?