Jaringan saraf ageung anu parantos dilatih pikeun pangakuan sareng generasi basa parantos nunjukkeun hasil anu luar biasa dina sababaraha pancén dina taun-taun ayeuna. GPT-3 ngabuktikeun yén modél basa ageung (LLMs) tiasa dianggo pikeun diajar sababaraha shot sareng kéngingkeun hasil anu saé tanpa meryogikeun data khusus tugas éksténsif atanapi ngarobih parameter modél.
Google, raksasa téknologi Silicon Valley, parantos ngenalkeun PaLM, atanapi Modél Basa Pathways, ka industri téknologi sadunya salaku modél basa AI generasi salajengna. Google parantos ngalebetkeun énggal kacerdasan buatan arsitéktur kana PaLM kalayan tujuan strategis pikeun ningkatkeun kualitas modél basa AI.
Dina tulisan ieu, urang bakal nalungtik algoritma Palm sacara rinci, kalebet parameter anu dianggo pikeun ngalatih éta, masalah anu direngsekeun, sareng seueur deui.
Naon Algoritma PaLM Google?
Modél Basa Jalur téh naon PaLM nangtung pikeun. Ieu mangrupikeun algoritma énggal anu dikembangkeun ku Google pikeun nguatkeun arsitéktur Pathways AI. Tujuan utama struktur nyaéta pikeun ngalakukeun sajuta kagiatan anu béda sakaligus.
Ieu ngawengku sagalana ti deciphering data kompléks pikeun nalar deduktif. PaLM mibanda kamampuhan pikeun ngaleuwihan ayeuna AI state-of-the-art ogé manusa dina basa jeung nalar tugas.
Ieu ngawengku Sababaraha-Shot Learning, nu mimics kumaha manusa diajar hal anyar jeung ngagabungkeun rupa-rupa bit pangaweruh pikeun tackle tantangan anyar nu teu kungsi katempo saméméh, jeung kauntungan tina mesin nu bisa ngagunakeun sakabéh pangaweruh na pikeun ngajawab tantangan anyar; salah sahiji conto skill ieu dina PaLM nyaéta kamampuhna pikeun ngajelaskeun lulucon eta geus kungsi kadéngé saméméh.
PaLM nunjukkeun loba kaahlian narabas dina rupa-rupa pancén nangtang, kaasup pamahaman basa jeung kreasi, multistep arithmetic kode-kagiatan nu patali, common-sense nalar, tarjamah, jeung loba deui.
Éta parantos nunjukkeun kamampuan pikeun ngabéréskeun masalah pajeulit nganggo set NLP multibasa. PaLM tiasa dianggo ku pasar téknologi sadunya pikeun ngabédakeun sabab sareng akibat, kombinasi konseptual, kaulinan anu béda, sareng seueur deui.
Éta ogé tiasa ngahasilkeun panjelasan anu jero pikeun seueur konteks nganggo inferensi logis multistep, basa jero, pangaweruh global, sareng téknik anu sanés.
Kumaha Google ngembangkeun algoritma PaLM?
Pikeun kinerja terobosan Google dina PaLM, jalur dijadwalkeun skala nepi ka 540 milyar parameter. Diakuan salaku hiji modél anu épisién sareng éfisién tiasa ngageneralisasi dina sababaraha domain. Pathways di Google dikhususkeun pikeun ngembangkeun komputasi anu disebarkeun pikeun akselerator.
PaLM mangrupikeun modél trafo ngan ukur dekoder anu parantos dilatih nganggo sistem Pathways. PaLM geus hasil ngahontal state-of-the-art kinerja sababaraha-shot sakuliah sababaraha workloads, nurutkeun Google. PaLM parantos nganggo sistem Pathways pikeun ngalegaan latihan kana konfigurasi sistem dumasar-TPU pangbadagna, katelah 6144 chip pikeun kahiji kalina.
Setét latihan pikeun modél basa AI diwangun ku campuran basa Inggris sareng set data multibasa anu sanés. Kalayan kosakata "lossless", éta ngandung eusi wéb kualitas luhur, diskusi, buku, kode GitHub, Wikipedia, sareng seueur deui. Lossless vocabulary dipikawanoh pikeun nahan spasi bodas jeung megatkeun karakter Unicode nu teu aya dina kosakata kana bait.
PaLM dikembangkeun ku Google sareng Pathways ngagunakeun arsitéktur modél trafo standar sareng konfigurasi dekoder anu kalebet Aktivasi SwiGLU, lapisan paralel, embeddings RoPE, émbeddings input-output dibagikeun, perhatian multi-query, sareng henteu aya bias atanapi kosakata. PaLM, di sisi anu sanés, siap nyayogikeun dasar anu kuat pikeun modél basa AI Google sareng Pathways.
Parameter dipaké pikeun ngalatih PaLM
Taun ka tukang, Google ngaluncurkeun Pathways, modél tunggal anu tiasa dilatih pikeun ngalakukeun rébuan, upami henteu jutaan, hal-disebut "arsitektur AI generasi saterusna" sabab tiasa ngatasi watesan model anu aya pikeun dilatih pikeun ngalakukeun ngan hiji hal. . Tinimbang ngalegaan kamampuhan model ayeuna, model anyar mindeng diwangun ti handap nepi ka ngalengkepan hiji pakasaban tunggal.
Hasilna, aranjeunna nyiptakeun puluhan rébu modél pikeun puluhan rébu kagiatan anu béda. Ieu mangrupikeun tugas anu nyéépkeun waktos sareng sumberdaya-intensif.
Google ngabuktikeun via Pathways yén modél tunggal tiasa ngadamel rupa-rupa kagiatan sareng ngagambar sareng ngagabungkeun bakat ayeuna pikeun diajar tugas énggal langkung gancang sareng éfisién.
Modél multimodal nu ngawengku visi, pamahaman linguistik, jeung ngolah auditory sadayana dina waktos anu sareng tiasa diaktipkeun ngaliwatan jalur. Modél Basa Pathways (PaLM) ngamungkinkeun pikeun palatihan modél tunggal dina seueur TPU v4 Pods berkat 540 milyar modél parameter na.
PaLM, modél Transformer ukur-dekoder anu padet, ngaleuleuskeun kinerja sababaraha-témbakan anu canggih dina rupa-rupa beban kerja. PaLM keur dilatih dina dua TPU v4 Pods nu numbu via jaringan puseur data (DCN).
Éta mangpaatkeun duanana modél sareng paralélisme data. Panaliti nganggo 3072 prosesor TPU v4 dina unggal Pod pikeun PaLM, anu dihubungkeun sareng 768 host. Numutkeun kana panaliti, ieu mangrupikeun konfigurasi TPU panggedéna anu acan diungkabkeun, anu ngamungkinkeun aranjeunna pikeun latihan skala tanpa nganggo paralelisme pipa.
Pipe lining nyaéta prosés ngumpulkeun paréntah ti CPU ngaliwatan pipa sacara umum. Lapisan modél dibagi kana fase anu tiasa diolah sacara paralel ngalangkungan paralélisme modél pipa (atanapi paralélisme pipa).
Mémori aktivasina dikirim ka lengkah saterusna lamun hiji tahap ngalengkepan maju pass pikeun mikro-angkatan. Gradién teras dikirim ka tukang nalika tahapan di handap ieu réngsé rambatan mundur.
Kamampuh narabas PaLM
PaLM mintonkeun pangabisa groundbreaking dina sauntuyan tugas hésé. Ieu sababaraha conto:
1. Ciptaan jeung pamahaman basa
PaLM diuji dina 29 tugas NLP anu béda dina basa Inggris.
Dina dasar sababaraha-shot, PaLM 540B outperformed model badag saméméhna kayaning GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, sarta LaMDA on 28 tina 29 tugas, kaasup open-domain katutup-buku varian tugas ngajawab patarosan. , tugas cloze sareng ngalengkepan kalimah, tugas gaya Winograd, tugas pamahaman bacaan dina konteks, tugas nalar akal, tugas SuperGLUE, sareng inferensi alami.
Dina sababaraha tugas BIG-bangku, PaLM nunjukkeun interpretasi basa alami anu saé sareng kaahlian generasi. Contona, modél bisa ngabedakeun antara sabab jeung akibat, ngartos kombinasi konseptual dina situasi nu tangtu, komo nebak pilem tina hiji emoji. Sanaos ngan 22% tina korpus palatihan sanés basa Inggris, PaLM ngalaksanakeun saé dina tolok ukur NLP multibasa, kalebet tarjamahan, salian ti tugas NLP Inggris.
2. Penalaran
PaLM nyampur ukuran modél sareng ranté-of-pikiran anu mendorong pikeun nunjukkeun kaahlian terobosan dina tantangan penalaran anu meryogikeun aritmetika multistep atanapi penalaran akal.
LLM sateuacana, sapertos Gopher, kirang nguntungkeun tina ukuran modél dina hal ningkatkeun kinerja. PaLM 540B kalawan ranté-of-pikiran prompts fared ogé dina tilu arithmetic jeung dua datasets pamikiran commonsense.
PaLM outperforms skor pangalusna saméméhna tina 55%, nu diala ku fine-tuning model GPT-3 175B kalawan set latihan masalah 7500 sarta ngagabungkeun jeung hiji kalkulator éksternal sarta verifier pikeun ngajawab 58 persén masalah di GSM8K, a patokan rébuan patarosan matematika tingkat sakola kelas sesah ngagunakeun 8-shot ajakan.
Skor anyar ieu hususna penting sabab ngadeukeutan 60% rata-rata halangan anu dialaman ku budak umur 9-12 taun. Éta ogé tiasa ngabales guyonan asli anu henteu sayogi dina internét.
3. Generasi Kode
LLM ogé geus ditémbongkeun kinerja alus dina tugas coding, kaasup generating kode tina déskripsi basa alam (téks-to-kode), narjamahkeun kode antara basa, sarta resolving kasalahan kompilasi. Sanaos ngan ukur gaduh kode 5% dina set data pra-latihan, PaLM 540B ngalaksanakeun saé dina tugas coding sareng basa alami dina hiji modél.
Kinerja sababaraha-shot na luar biasa, sabab cocog sareng Codex 12B anu disampurnakeun nalika latihan nganggo kode Python 50 kali kirang. Pananjung ieu ngadukung pamanggihan sateuacana yén modél anu langkung ageung tiasa langkung éfisién sampel tibatan modél anu langkung alit sabab tiasa langkung efektif nransferkeun diajar tina sababaraha. programming language jeung data basa lemes.
kacindekan
PaLM nembongkeun kapasitas sistem Pathways pikeun skala nepi ka rébuan prosesor akselerator leuwih dua TPU v4 Pods ku éféktif ngalatih model parameter 540-miliar jeung well-diulik, resep well-ngadegkeun model padet decoder-hijina Transformer.
Éta ngahontal prestasi sababaraha-shot terobosan dina sauntuyan pamrosésan basa alami, penalaran, sareng tantangan coding ku ngadorong wates skala modél.
Leave a Reply