Jaringan saraf gedhe sing wis dilatih kanggo pangenalan lan generasi basa wis nuduhake asil sing luar biasa ing macem-macem tugas ing taun-taun pungkasan. GPT-3 mbuktekake manawa model basa gedhe (LLM) bisa digunakake kanggo sinau sawetara lan entuk asil sing apik banget tanpa mbutuhake data khusus tugas sing ekstensif utawa ngganti parameter model.
Google, raksasa teknologi Silicon Valley, wis ngenalake PaLM, utawa Model Basa Pathways, menyang industri teknologi ing saindenging jagad minangka model basa AI generasi sabanjure. Google wis nggabungake anyar Kacerdhasan gawéyan arsitektur menyang PaLM kanthi tujuan strategis kanggo nambah kualitas model basa AI.
Ing kirim iki, kita bakal nliti algoritma Palm kanthi rinci, kalebu paramèter sing digunakake kanggo nglatih, masalah sing diatasi, lan liya-liyane.
apa Algoritma Google PaLM?
Model Basa Pathways apa KELAPA stands for. Iki minangka algoritma anyar sing dikembangake dening Google kanggo nguatake arsitektur Pathways AI. Tujuan utama struktur kasebut yaiku nindakake sejuta kegiatan sing beda-beda sekaligus.
Iki kalebu kabeh saka deciphering data Komplek kanggo alesan deduktif. PaLM nduweni kemampuan kanggo ngluwihi AI sing paling canggih saiki uga manungsa ing basa lan tugas nalar.
Iki kalebu Few-Shot Learning, sing niru carane manungsa sinau bab-bab anyar lan nggabungake macem-macem kawruh kanggo ngatasi tantangan anyar sing durung tau katon sadurunge, kanthi entuk manfaat saka mesin sing bisa nggunakake kabeh kawruh kanggo ngatasi tantangan anyar; salah siji conto saka skill ing PaLM iki kemampuan kanggo nerangake guyon sing durung tau krungu sadurunge.
PaLM nuduhake akeh katrampilan terobosan ing macem-macem tugas sing tantangan, kalebu pangerten lan nggawe basa, aktivitas sing gegandhengan karo kode aritmetika multistep, pertimbangan akal sehat, terjemahan, lan liya-liyane.
Wis nuduhake kemampuan kanggo ngatasi masalah rumit nggunakake set NLP multibasa. PaLM bisa digunakake dening pasar teknologi ing saindenging jagad kanggo mbedakake sabab lan akibat, kombinasi konsep, game sing beda, lan liya-liyane.
Uga bisa ngasilake panjelasan sing jero kanggo akeh konteks nggunakake inferensi logis multistep, basa jero, kawruh global, lan teknik liyane.
Kepiye Google ngembangake algoritma PaLM?
Kanggo kinerja terobosan Google ing PaLM, jalur dijadwalake nganti 540 milyar parameter. Iki diakoni minangka model siji sing bisa kanthi efisien lan efektif kanggo umum ing pirang-pirang domain. Pathways ing Google darmabakti kanggo ngembangake komputasi sing disebarake kanggo akselerator.
PaLM minangka model trafo mung dekoder sing wis dilatih nggunakake sistem Pathways. PaLM wis kasil nggayuh kinerja sawetara-shot state-of-the-art ing sawetara beban kerja, miturut Google. PaLM wis nggunakake sistem Pathways kanggo nggedhekake latihan menyang konfigurasi sistem basis TPU paling gedhe, dikenal minangka 6144 chip kanggo pisanan.
Dataset latihan kanggo model basa AI digawe saka campuran data basa Inggris lan dataset multibasa liyane. Kanthi kosakata sing "ora rugi", ngemot konten web, diskusi, buku, kode GitHub, Wikipedia, lan liya-liyane. Vocabulary lossless diakoni kanggo nahan spasi putih lan ngowahi karakter Unicode sing ora ana ing kosakata dadi bita.
PaLM dikembangake dening Google lan Pathways kanthi nggunakake arsitektur model trafo standar lan konfigurasi dekoder sing kalebu SwiGLU Activation, lapisan paralel, embeddings RoPE, embeddings input-output bareng, perhatian multi-query, lan ora bias utawa kosakata. PaLM, ing sisih liya, siap nyedhiyakake basis sing kuat kanggo model basa AI Google lan Pathways.
Parameter sing digunakake kanggo nglatih PaLM
Taun kepungkur, Google ngluncurake Pathways, model siji sing bisa dilatih kanggo nindakake ewonan, yen ora mayuta-yuta, - diarani "arsitektur AI generasi sabanjure" amarga bisa ngatasi watesan model sing wis dilatih kanggo nindakake mung siji perkara. . Tinimbang nggedhekake kabisan model saiki, model anyar asring dibangun saka ngisor munggah kanggo ngrampungake proyek siji.
Akibaté, dheweke wis nggawe puluhan ewu model kanggo puluhan ewu kegiatan sing beda-beda. Iki minangka tugas sing mbutuhake wektu lan sumber daya.
Google mbuktekake liwat Pathways yen model siji bisa nangani macem-macem kegiatan lan nggambar lan nggabungake bakat saiki kanggo sinau tugas anyar kanthi luwih cepet lan efisien.
Model multimodal sing kalebu sesanti, pangerten linguistik, lan pangolahan pendengaran kabeh bebarengan bisa diaktifake liwat jalur. Pathways Language Model (PaLM) ngidini kanggo latihan model siji ing akeh TPU v4 Pods amarga model parameter 540 milyar.
PaLM, model Transformer mung dekoder sing kandhel, ngungguli kinerja sawetara-gambar sing paling canggih ing macem-macem beban kerja. PaLM lagi dilatih ing rong TPU v4 Pods sing disambung liwat jaringan pusat data (DCN).
Iku njupuk kauntungan saka loro model lan data paralelisme. Peneliti nggunakake 3072 prosesor TPU v4 ing saben Pod kanggo PaLM, sing disambungake menyang 768 host. Miturut peneliti, iki minangka konfigurasi TPU paling gedhe sing durung dibeberke, ngidini dheweke nglatih skala tanpa nggunakake paralelisme pipa.
Pipe lining minangka proses ngumpulake instruksi saka CPU liwat pipa ing umum. Lapisan model dipérang dadi fase sing bisa diproses kanthi paralel liwat paralelisme model pipa (utawa paralelisme pipa).
Memori aktivasi dikirim menyang langkah sabanjure nalika siji tahap ngrampungake pass maju kanggo kumpulan mikro. Gradien banjur dikirim menyang mburi nalika tahap sabanjure ngrampungake panyebaran mundur.
Kapabilitas Terobosan PaLM
PaLM nampilake kemampuan terobosan ing macem-macem tugas sing angel. Ing ngisor iki sawetara conto:
1. Cipta lan pangerten basa
PaLM dites ing 29 tugas NLP ing basa Inggris.
Ing basis sawetara-shot, PaLM 540B ngungguli model gedhe sadurunge kayata GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, lan LaMDA ing 28 saka 29 tugas, kalebu mbukak-domain tutup-buku tugas njawab pitakonan. , tugas cloze lan ukara-completion, tugas gaya Winograd, tugas pemahaman maca ing konteks, tugas nalar akal sehat, tugas SuperGLUE, lan inferensi alami.
Ing sawetara tugas BIG-bench, PaLM nuduhake interpretasi basa alami lan katrampilan generasi. Contone, model bisa mbedakake antarane sabab lan akibat, ngerti kombinasi konseptual ing kahanan tartamtu, lan malah guess film saka emoji. Sanajan mung 22% saka korpus pelatihan non-Inggris, PaLM nindakake kanthi apik ing pathokan NLP multibasa, kalebu terjemahan, saliyane kanggo tugas NLP Inggris.
2. Nalar
PaLM nyampur ukuran model karo chain-of-pikiran pituduh kanggo nduduhake katrampilan terobosan ing tantangan nalar sing mbutuhake multistep aritmetika utawa akal sehat.
LLM sadurunge, kayata Gopher, entuk manfaat luwih sithik saka ukuran model babagan ningkatake kinerja. PaLM 540B kanthi chain-of-thought prompting fared uga ing telung aritmetika lan loro dataset pamikiran commonsense.
PaLM ngluwihi skor paling apik sadurunge 55%, sing dipikolehi kanthi nyetel model GPT-3 175B kanthi set latihan masalah 7500 lan nggabungake karo kalkulator eksternal lan verifikasi kanggo ngatasi 58 persen masalah ing GSM8K, a pathokan ewu pitakonan matematika tingkat sekolah kelas angel nggunakake pituduh 8-shot.
Skor anyar iki penting banget amarga nyedhaki rata-rata 60% alangan sing dialami bocah umur 9-12 taun. Uga bisa nanggapi lelucon asli sing ora kasedhiya ing internet.
3. Kode Generasi
LLM uga ditampilake kanthi apik ing tugas coding, kalebu ngasilake kode saka deskripsi basa alami (text-to-code), nerjemahake kode ing antarane basa, lan ngrampungake kesalahan kompilasi. Sanajan mung duwe kode 5% ing set data pra-latihan, PaLM 540B nindakake tugas coding lan basa alami kanthi apik ing model siji.
Kinerja sawetara-dijupuk luar biasa, amarga cocog karo Codex 12B sing apik nalika latihan nganggo kode Python 50 kaping kurang. Temuan iki bali karo temuan sadurunge yen model sing luwih gedhe bisa dadi sampel sing luwih efisien tinimbang model sing luwih cilik amarga bisa luwih efektif nransfer sinau saka macem-macem. basa pemrograman lan data basa krama.
kesimpulan
PaLM nuduhake kapasitas sistem Pathways kanggo skala kanggo ewu pemroses akselerator liwat rong TPU v4 Pods dening èfèktif nglatih model parameter 540-miliar karo sinau uga, resep mapan saka model Transformer mung decoder kandhel.
Iki entuk kinerja sawetara terobosan ing macem-macem pangolahan basa alami, nalar, lan tantangan coding kanthi nyurung wates ukuran model.
Ninggalake a Reply