Jaringan saraf besar yang telah dilatih untuk pengenalan dan generasi bahasa telah menunjukkan hasil yang luar biasa dalam berbagai tugas dalam beberapa tahun terakhir. GPT-3 membuktikan bahwa model bahasa besar (LLM) dapat digunakan untuk pembelajaran beberapa kali dan memperoleh hasil yang sangat baik tanpa memerlukan data khusus tugas yang ekstensif atau mengubah parameter model.
Google, raksasa teknologi Silicon Valley, telah memperkenalkan PaLM, atau Pathways Language Model, ke industri teknologi di seluruh dunia sebagai model bahasa AI generasi berikutnya. Google telah memasukkan yang baru kecerdasan buatan arsitektur ke dalam PaLM dengan tujuan strategis untuk meningkatkan kualitas model bahasa AI.
Dalam posting ini, kami akan memeriksa algoritma Palm secara rinci, termasuk parameter yang digunakan untuk melatihnya, masalah yang dipecahkannya, dan banyak lagi.
Apa itu Algoritma PaLM Google?
Model Bahasa Pathways adalah apa Telapak berdiri untuk. Ini adalah algoritma baru yang dikembangkan oleh Google untuk memperkuat arsitektur Pathways AI. Tujuan utama struktur ini adalah melakukan sejuta aktivitas berbeda sekaligus.
Ini mencakup segala sesuatu mulai dari menguraikan data yang kompleks hingga penalaran deduktif. PaLM memiliki kemampuan untuk melampaui AI mutakhir serta manusia dalam tugas bahasa dan penalaran.
Ini termasuk Pembelajaran Sedikit-Shot, yang meniru cara manusia mempelajari hal-hal baru dan menggabungkan beragam pengetahuan untuk mengatasi tantangan baru yang belum pernah terlihat sebelumnya, dengan manfaat mesin yang dapat menggunakan semua pengetahuannya untuk memecahkan tantangan baru; salah satu contoh skill ini di PaLM adalah kemampuannya untuk menjelaskan lelucon yang belum pernah dia dengar sebelumnya.
PaLM mendemonstrasikan banyak keterampilan terobosan pada berbagai tugas yang menantang, termasuk pemahaman dan kreasi bahasa, aktivitas terkait kode aritmatika bertingkat, penalaran akal sehat, terjemahan, dan banyak lagi.
Ini telah menunjukkan kemampuannya untuk memecahkan masalah rumit menggunakan set NLP multibahasa. PaLM dapat digunakan oleh pasar teknologi di seluruh dunia untuk membedakan sebab dan akibat, kombinasi konseptual, permainan yang berbeda, dan banyak hal lainnya.
Itu juga dapat menghasilkan penjelasan mendalam untuk banyak konteks menggunakan inferensi logis bertingkat, bahasa yang dalam, pengetahuan global, dan teknik lainnya.
Bagaimana Google mengembangkan algoritma PaLM?
Untuk kinerja terobosan Google di PaLM, jalur dijadwalkan untuk meningkatkan hingga 540 miliar parameter. Hal ini diakui sebagai satu-satunya model yang dapat secara efisien dan efektif menggeneralisasi di berbagai domain. Pathways di Google didedikasikan untuk mengembangkan komputasi terdistribusi untuk akselerator.
PaLM adalah model transformator decoder-only yang telah dilatih menggunakan sistem Pathways. PaLM telah berhasil mencapai kinerja beberapa bidikan canggih di beberapa beban kerja, menurut Google. PaLM telah menggunakan sistem Pathways untuk memperluas pelatihan ke konfigurasi sistem berbasis TPU terbesar, yang dikenal sebagai chip 6144 untuk pertama kalinya.
Set data pelatihan untuk model bahasa AI terdiri dari campuran bahasa Inggris dan set data multibahasa lainnya. Dengan kosakata "lossless", ini berisi konten web berkualitas tinggi, diskusi, buku, kode GitHub, Wikipedia, dan banyak lagi. Kosakata lossless diakui untuk mempertahankan spasi putih dan memecah karakter Unicode yang tidak ada dalam kosakata menjadi byte.
PaLM dikembangkan oleh Google dan Pathways menggunakan arsitektur model transformator standar dan konfigurasi dekoder yang mencakup Aktivasi SwiGLU, lapisan paralel, penyematan RoPE, penyematan input-output bersama, perhatian multi-kueri, dan tidak ada bias atau kosakata. PaLM, di sisi lain, siap memberikan dasar yang kuat untuk model bahasa AI Google dan Pathways.
Parameter yang digunakan untuk melatih PaLM
Tahun lalu, Google meluncurkan Pathways, sebuah model tunggal yang dapat dilatih untuk melakukan ribuan, jika bukan jutaan, hal—dijuluki “arsitektur AI generasi berikutnya” karena dapat mengatasi keterbatasan model yang ada untuk dilatih hanya melakukan satu hal . Alih-alih memperluas kemampuan model saat ini, model baru sering kali dibangun dari bawah ke atas untuk menyelesaikan satu pekerjaan.
Hasilnya, mereka telah menciptakan puluhan ribu model untuk puluhan ribu aktivitas yang berbeda. Ini adalah tugas yang memakan waktu dan sumber daya.
Google membuktikan melalui Pathways bahwa satu model dapat menangani berbagai aktivitas dan memanfaatkan serta menggabungkan bakat saat ini untuk mempelajari tugas baru dengan lebih cepat dan efisien.
Model multimodal yang mencakup penglihatan, pemahaman linguistik, dan pemrosesan pendengaran pada saat yang sama dapat diaktifkan melalui jalur. Pathways Language Model (PaLM) memungkinkan pelatihan satu model di berbagai TPU v4 Pod berkat model parameternya yang berjumlah 540 miliar.
PaLM, model Transformer khusus dekoder yang padat, mengungguli kinerja beberapa bidikan yang canggih di berbagai beban kerja. PaLM sedang dilatih pada dua Pod TPU v4 yang terhubung melalui jaringan pusat data (DCN).
Ini mengambil keuntungan dari model dan paralelisme data. Para peneliti menggunakan 3072 prosesor TPU v4 di setiap Pod untuk PaLM, yang terhubung ke 768 host. Menurut para peneliti, ini adalah konfigurasi TPU terbesar yang pernah diungkapkan, memungkinkan mereka untuk menskalakan pelatihan tanpa menggunakan paralelisme pipa.
Pipe lining adalah proses pengumpulan instruksi dari CPU melalui pipeline pada umumnya. Lapisan model dibagi menjadi beberapa fase yang dapat diproses secara paralel melalui paralelisme model pipa (atau paralelisme pipa).
Memori aktivasi dikirim ke langkah berikutnya ketika satu tahap menyelesaikan lintasan maju untuk batch mikro. Gradien kemudian dikirim ke belakang ketika tahap berikut menyelesaikan propagasi mundurnya.
Kemampuan Terobosan PaLM
PaLM menampilkan kemampuan terobosan dalam berbagai tugas yang sulit. Berikut adalah beberapa contoh:
1. Penciptaan dan pemahaman bahasa
PaLM diuji pada 29 tugas NLP berbeda dalam bahasa Inggris.
Dalam beberapa hal, PaLM 540B mengungguli model besar sebelumnya seperti GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, dan LaMDA pada 28 dari 29 tugas, termasuk tugas menjawab pertanyaan varian buku tertutup domain terbuka , tugas cloze dan penyelesaian kalimat, tugas gaya Winograd, tugas pemahaman bacaan dalam konteks, tugas penalaran akal sehat, tugas SuperGLUE, dan inferensi alami.
Pada beberapa tugas BIG-bench, PaLM menunjukkan interpretasi bahasa alami yang sangat baik dan keterampilan generasi. Misalnya, model dapat membedakan antara sebab dan akibat, memahami kombinasi konseptual dalam situasi tertentu, dan bahkan menebak film dari emoji. Meskipun hanya 22% dari korpus pelatihan non-Inggris, PaLM berkinerja baik pada tolok ukur NLP multibahasa, termasuk terjemahan, selain tugas NLP bahasa Inggris.
2. Penalaran
PaLM memadukan ukuran model dengan rangkaian pemikiran yang mendorong untuk menunjukkan keterampilan terobosan dalam tantangan penalaran yang membutuhkan aritmatika multilangkah atau penalaran akal sehat.
LLM sebelumnya, seperti Gopher, kurang diuntungkan dari ukuran model dalam hal meningkatkan kinerja. PaLM 540B dengan dorongan rantai pemikiran bernasib baik pada tiga kumpulan data aritmatika dan dua pemikiran akal sehat.
PaLM mengungguli skor terbaik sebelumnya sebesar 55%, yang diperoleh dengan menyempurnakan model GPT-3 175B dengan set pelatihan 7500 masalah dan menggabungkannya dengan kalkulator dan verifier eksternal untuk menyelesaikan 58 persen masalah di GSM8K, sebuah benchmark dari ribuan soal matematika tingkat sekolah dasar yang sulit menggunakan 8-shot prompting.
Skor baru ini sangat penting karena mendekati rata-rata 60% rintangan yang dialami oleh anak usia 9-12 tahun. Itu juga dapat menanggapi lelucon asli yang tidak tersedia di internet.
3. Pembuatan Kode
LLM juga telah terbukti berkinerja baik dalam tugas pengkodean, termasuk menghasilkan kode dari deskripsi bahasa alami (teks-ke-kode), menerjemahkan kode antar bahasa, dan menyelesaikan kesalahan kompilasi. Meskipun hanya memiliki 5% kode dalam set data pra-pelatihan, PaLM 540B berkinerja baik pada tugas pengkodean dan bahasa alami dalam satu model.
Performa beberapa bidikannya luar biasa, karena cocok dengan Codex 12B yang disempurnakan saat berlatih dengan kode Python 50 kali lebih sedikit. Temuan ini mendukung temuan sebelumnya bahwa model yang lebih besar dapat menjadi sampel yang lebih efisien daripada model yang lebih kecil karena model tersebut dapat lebih efektif mentransfer pembelajaran dari banyak bahasa pemrograman dan data bahasa sederhana.
Kesimpulan
PaLM menunjukkan kapasitas sistem Pathways untuk menskalakan ke ribuan prosesor akselerator melalui dua TPU v4 Pod dengan melatih model parameter 540 miliar secara efektif dengan resep model Transformer khusus dekoder padat yang dipelajari dengan baik.
Ini mencapai terobosan kinerja beberapa bidikan di berbagai pemrosesan bahasa alami, penalaran, dan tantangan pengkodean dengan mendorong batas skala model.
Tinggalkan Balasan