Daftar Isi[Bersembunyi][Menunjukkan]
GPT-3, jaringan saraf terbesar saat itu, diterbitkan pada Mei 2020 oleh OpenAI, startup AI yang didirikan bersama oleh Elon Musk dan Sam Altman. GPT-3 adalah model bahasa mutakhir dengan 175 miliar parameter dibandingkan dengan 1,5 miliar parameter pada pendahulunya GPT-2.
GPT-3 mengungguli model NLG Turing Microsoft (Turing Natural Language Generation), yang sebelumnya memegang rekor jaringan saraf terbesar dengan 17 miliar parameter.
Model bahasa telah dipuji, dikritik, dan bahkan diteliti; itu juga telah melahirkan kegunaan baru dan menarik. Dan sekarang ada laporan bahwa GPT-4, edisi OpenAI berikutnya model bahasa, memang akan segera hadir.
Anda telah tiba di situs yang tepat jika ingin mempelajari lebih lanjut tentang GPT-4. Kita akan melihat GPT-4 secara mendalam di artikel ini, mencakup parameternya, bagaimana membandingkannya dengan model lain, dan banyak lagi.
Jadi, Apa itu GPT-4?
Untuk memahami ruang lingkup GPT-4, pertama-tama kita harus memahami GPT-3, pendahulunya. GPT-3 (Generative Pra-terlatih Transformer, generasi ketiga) adalah alat pembuat konten otonom.
Pengguna memasukkan data ke dalam a Mesin belajar model, yang selanjutnya dapat menghasilkan sejumlah besar tulisan yang relevan sebagai tanggapan, menurut OpenAI. GPT-4 akan jauh lebih baik dalam multitasking dalam kondisi beberapa bidikan — sejenis Mesin belajar – membawa hasil yang lebih dekat dengan manusia.
GPT-3 membutuhkan biaya ratusan juta pound untuk pembuatannya, tetapi GPT-4 diperkirakan akan menelan biaya lebih besar karena skalanya akan lima ratus kali lipat. Untuk menempatkan ini dalam perspektif,
GPT-4 mungkin memiliki karakteristik sebanyak sinapsis di otak. GPT-4 sebagian besar akan menggunakan metode yang sama dengan GPT-3, sehingga alih-alih menjadi lompatan paradigma, GPT-4 akan memperluas apa yang saat ini dicapai GPT-3 — tetapi dengan kemampuan inferensi yang jauh lebih besar.
GPT-3 memungkinkan pengguna untuk memasukkan bahasa alami untuk tujuan praktis, tetapi masih membutuhkan beberapa keahlian untuk merancang prompt yang akan menghasilkan hasil yang baik. GPT-4 akan secara signifikan lebih baik dalam memprediksi niat pengguna.
Apa yang akan menjadi parameter GPT-4?
Meskipun menjadi salah satu kemajuan AI yang paling ditunggu-tunggu, tidak ada yang diketahui tentang GPT-4: seperti apa bentuknya, karakteristik apa yang akan dimilikinya, dan kekuatan apa yang akan dimilikinya.
Tahun lalu, Altman melakukan Q&A dan mengungkapkan beberapa detail tentang ambisi OpenAI untuk GPT-4. Itu tidak akan lebih besar dari GPT-3, menurut Altman. GPT-4 sepertinya bukan yang paling banyak digunakan model bahasa. Meskipun modelnya akan sangat besar dibandingkan dengan generasi sebelumnya jaringan saraf, ukurannya tidak akan menjadi ciri khasnya. GPT-3 dan Gopher adalah kandidat yang paling masuk akal (175B-280B).
Nvidia dan Microsoft Megatron-Turing NLG memegang rekor untuk jaringan saraf terpadat parameter di 530B – tiga kali lipat dari GPT-3 – hingga baru-baru ini ketika PaLM Google mengambilnya di 540B. Anehnya, banyak model yang lebih rendah mengungguli MT-NLG.
Menurut koneksi hukum-kekuatan, Jared Kaplan dan rekan OpenAI menentukan pada tahun 2020 bahwa ketika pemrosesan peningkatan anggaran dihabiskan sebagian besar untuk meningkatkan jumlah parameter, kinerja meningkat paling besar. Google, Nvidia, Microsoft, OpenAI, DeepMind, dan perusahaan pemodelan bahasa lainnya dengan patuh mengikuti peraturan.
Altman menunjukkan bahwa mereka tidak lagi berkonsentrasi pada membangun model besar, melainkan pada memaksimalkan kinerja model yang lebih kecil.
Peneliti OpenAI adalah pendukung awal hipotesis penskalaan, tetapi mereka mungkin telah menemukan bahwa jalur tambahan yang sebelumnya belum ditemukan dapat mengarah pada model yang lebih unggul. GPT-4 tidak akan lebih besar secara signifikan dari GPT-3 karena alasan ini.
OpenAI akan menempatkan fokus yang lebih besar pada aspek lain, seperti data, algoritme, parameterisasi, dan penyelarasan, yang berpotensi menghasilkan manfaat signifikan lebih cepat. Kita harus menunggu dan melihat apa yang dapat dilakukan model dengan parameter 100T.
Poin Kunci:
- Ukuran model: GPT-4 akan lebih besar dari GPT-3, tetapi tidak banyak (MT-NLG 530B dan PaLM 540B). Ukuran model akan biasa-biasa saja.
- Optimalisasi: GPT-4 akan menggunakan lebih banyak sumber daya daripada GPT-3. Ini akan menerapkan wawasan optimalitas baru ke dalam parameterisasi (hiperparameter optimal) dan metode penskalaan (jumlah token pelatihan sama pentingnya dengan ukuran model).
- Multimodalitas: GPT-4 hanya dapat mengirim dan menerima pesan teks (bukan multimodal). OpenAI berusaha mendorong model bahasa ke batasnya sebelum beralih ke model multimodal seperti SLAB 2, yang mereka prediksi pada akhirnya akan melampaui sistem unimodal.
- Keterbatasan: GPT-4, seperti pendahulunya GPT-2 dan GPT-3, akan menjadi model yang padat (semua parameter akan digunakan untuk memproses input yang diberikan). Di masa depan, sparsity akan menjadi lebih penting.
- Strategi: GPT-4 akan mendekati kita lebih dekat daripada GPT-3. Ini akan menempatkan apa yang telah dipelajari dari InstructGPT, yang dikembangkan dengan masukan manusia. Namun, konvergensi AI masih jauh, dan upaya harus dinilai dengan hati-hati daripada dibesar-besarkan.
Kesimpulan
Kecerdasan Umum Buatan. Ini adalah tujuan besar, tetapi pengembang OpenAI bekerja untuk mencapainya. Tujuan AGI adalah menciptakan model atau “agen” yang mampu memahami dan melakukan aktivitas apapun yang dapat dilakukan seseorang.
GPT-4 mungkin merupakan langkah berikutnya dalam mencapai tujuan ini, dan kedengarannya seperti sesuatu yang keluar dari film fiksi ilmiah. Anda mungkin bertanya-tanya seberapa realistis untuk mencapai AGI.
Kami akan mencapai tonggak sejarah ini pada tahun 2029, menurut Ray Kurzweil, Direktur Teknik Google. Dengan mengingat hal ini, mari kita lihat lebih dalam GPT-4 dan konsekuensi dari model ini saat kita semakin dekat dengan AGI (Artificial General Intelligence).
Tinggalkan Balasan