Pathways Language Model (PaLM) ga kirish

Mundarija[Yashirish][Show]

Google PaLM algoritmi nima?
Google PaLM algoritmini qanday ishlab chiqdi?
PaLMni o'rgatish uchun ishlatiladigan parametrlar
PaLM yutuqlari+-
Xulosa

Tilni tanib olish va yaratish uchun o'qitilgan yirik neyron tarmoqlar so'nggi yillarda turli vazifalarni bajarishda ajoyib natijalarni ko'rsatdi. GPT-3 katta til modellari (LLM) bir necha marta o'rganish uchun ishlatilishi mumkinligini isbotladi va keng ko'lamli topshiriqlarga oid ma'lumotlarni talab qilmasdan yoki model parametrlarini o'zgartirmasdan ajoyib natijalarga erishdi.

Silikon vodiysining texnologik begemoti Google kompaniyasi keyingi avlod sun’iy intellekt tili modeli sifatida butun dunyo texnologiya sanoatiga PaLM yoki Pathways Language Modelini taqdim etdi. Google yangisini o'rnatdi sun'iy intellekt arxitekturani PaLMga strategik maqsadlari bilan sun'iy intellekt tili modeli sifatini yaxshilash.

Ushbu postda biz Palm algoritmini batafsil ko'rib chiqamiz, shu jumladan uni o'rgatish uchun ishlatiladigan parametrlar, u hal qiladigan muammo va boshqalar.

Nima bu Google-ning PaLM algoritmi?

Pathways Language Model - bu nima Kaft uchun turadi. Bu Pathways AI arxitekturasini kuchaytirish maqsadida Google tomonidan ishlab chiqilgan yangi algoritm. Tuzilishning asosiy maqsadi bir vaqtning o'zida millionlab turli xil faoliyatni amalga oshirishdir.

Bularga murakkab ma'lumotlarni shifrlashdan tortib deduktiv fikrlashgacha bo'lgan hamma narsa kiradi. PaLM til va fikrlash vazifalari bo‘yicha zamonaviy sun’iy intellektdan ham, odamlardan ham o‘zib ketish qobiliyatiga ega.

Bunga odamlarning yangi narsalarni qanday o‘rganishini taqlid qiluvchi va ilgari hech qachon ko‘rilmagan yangi muammolarni hal qilish uchun turli xil bilimlarni birlashtirgan “Few-Shot Learning” kiradi, yangi muammolarni hal qilish uchun barcha bilimlarini ishlata oladigan mashina foydasi bilan; PaLM-dagi ushbu mahoratning bir misoli, uning ilgari hech qachon eshitmagan hazilni tushuntirish qobiliyatidir.

Kaft

PaLM tilni tushunish va yaratish, ko‘p bosqichli arifmetik kod bilan bog‘liq harakatlar, aqliy fikrlash, tarjima va boshqa ko‘p narsalarni o‘z ichiga olgan turli qiyin vazifalar bo‘yicha ko‘plab ilg‘or ko‘nikmalarni namoyish etdi.

U ko'p tilli NLP to'plamlari yordamida murakkab muammolarni hal qilish qobiliyatini namoyish etdi. PaLM butun jahon texnologiya bozori tomonidan sabab va ta'sir, kontseptual kombinatsiyalar, alohida o'yinlar va boshqa ko'plab narsalarni farqlash uchun ishlatilishi mumkin.

Shuningdek, u ko'p bosqichli mantiqiy xulosalar, chuqur til, global bilim va boshqa usullardan foydalangan holda ko'plab kontekstlar uchun chuqur tushuntirishlarni yaratishi mumkin.

Google PaLM algoritmini qanday ishlab chiqdi?

Google-ning PaLM-dagi muvaffaqiyati uchun yo'llar 540 milliard parametrgacha miqyosda bo'lishi rejalashtirilgan. Bu ko'plab sohalarda samarali va samarali umumlashtira oladigan yagona model sifatida tan olingan. Googledagi Pathways tezlatgichlar uchun taqsimlangan hisoblashlarni ishlab chiqishga bag'ishlangan.

PaLM - bu faqat dekoder uchun mo'ljallangan transformator modeli bo'lib, Pathways tizimi yordamida o'qitilgan. Google ma'lumotlariga ko'ra, PaLM bir nechta ish yuklarida eng so'nggi bir necha martalik ko'rsatkichlarga muvaffaqiyatli erishdi. PaLM birinchi marta 6144 chip deb nomlanuvchi TPU-ga asoslangan eng katta tizim konfiguratsiyasiga o'qitishni kengaytirish uchun Pathways tizimidan foydalangan.

AI-til modeli uchun o'quv ma'lumotlar to'plami ingliz va boshqa ko'p tilli ma'lumotlar to'plamlari aralashmasidan iborat. "Yo'qotishsiz" lug'at bilan u yuqori sifatli veb-kontent, muhokamalar, kitoblar, GitHub kodi, Vikipediya va boshqa ko'p narsalarni o'z ichiga oladi. Lossless lug'ati bo'sh joyni saqlab qolish va lug'atda mavjud bo'lmagan Unicode belgilarini baytlarga ajratish uchun tan olingan.

PaLM Google va Pathways tomonidan standart transformator modeli arxitekturasi va dekoder konfiguratsiyasidan foydalangan holda ishlab chiqilgan bo'lib, unda SwiGLU faollashtirish, parallel qatlamlar, RoPE o'rnatish, umumiy kiritish-chiqarish o'rnatish, ko'p so'rovlarga e'tibor berish va hech qanday tarafkashlik yoki lug'at mavjud emas. Boshqa tomondan, PaLM Google va Pathways AI-til modeli uchun mustahkam asos yaratishga tayyor.

PaLMni o'rgatish uchun ishlatiladigan parametrlar

O'tgan yili Google minglab, balki millionlab narsalarni qilishga o'rgatish mumkin bo'lgan yagona model Pathways-ni ishga tushirdi - bu "keyingi avlod AI arxitekturasi" deb nomlandi, chunki u mavjud modellarning faqat bitta narsani qilishga o'rgatish cheklovlarini engib o'tishi mumkin. . Hozirgi modellarning imkoniyatlarini kengaytirish o'rniga, yangi modellar ko'pincha bitta ishni bajarish uchun pastdan yuqoriga quriladi.

Natijada, ular o'n minglab turli xil faoliyat turlari uchun o'n minglab modellarni yaratdilar. Bu ko'p vaqt va resurslarni talab qiladigan ish.

Google Pathways orqali bitta model turli xil tadbirlarni bajarishi va yangi vazifalarni tezroq va samaraliroq oʻrganish uchun mavjud isteʼdodlarni jalb qilishi va birlashtira olishini isbotladi.

Bir vaqtning o'zida ko'rish, lingvistik tushunish va eshitishni qayta ishlashni o'z ichiga olgan multimodal modellar yo'llar orqali yoqilishi mumkin. Pathways Language Model (PaLM) oʻzining 4 milliard parametrli modeli tufayli koʻp sonli TPU v540 podlari boʻylab bitta modelni oʻrgatish imkonini beradi.

Trening infratuzilmasi

PaLM, zich dekoderga ega Transformer modeli, keng ko'lamli ish yuklari bo'yicha bir necha marta tortishishning eng zamonaviy ko'rsatkichlaridan ustundir. PaLM ma'lumotlar markazi tarmog'i (DCN) orqali bog'langan ikkita TPU v4 Podda o'qitiladi.

U model va ma'lumotlar parallelligining afzalliklaridan foydalanadi. Tadqiqotchilar PaLM uchun har bir Podda 3072 ta xostga ulangan 4 ta TPU v768 protsessorlaridan foydalanishgan. Tadqiqotchilarning fikriga ko'ra, bu TPU hozirgacha oshkor qilingan eng katta konfiguratsiya bo'lib, ularga quvurlar parallelizmidan foydalanmasdan o'qitishni kengaytirish imkonini beradi.

Quvur qoplamasi - bu odatda quvur liniyasi orqali protsessordan ko'rsatmalarni yig'ish jarayoni. Modelning qatlamlari quvur liniyasi modeli parallelligi (yoki quvur liniyasi parallelligi) orqali parallel ravishda qayta ishlanishi mumkin bo'lgan fazalarga bo'linadi.

Faollashtirish xotirasi bir bosqich mikro-to'plam uchun oldinga o'tishni tugatgandan so'ng keyingi bosqichga yuboriladi. Keyingi bosqich orqaga tarqalishni tugatgandan so'ng, gradientlar orqaga yuboriladi.

PaLM yutuqlari

PaLM bir qator qiyin vazifalarni hal qilishda ilg'or qobiliyatlarni namoyish etadi. Mana bir nechta misollar:

1. Tilni yaratish va tushunish

PaLM ingliz tilida 29 xil NLP topshiriqlari bo'yicha sinovdan o'tkazildi.

PaLM 540B 3 ta vazifadan 28 tasida GLaM, GPT-29, Megatron-Turing NLG, Gopher, Chinchilla va LaMDA kabi oldingi yirik modellardan, shu jumladan ochiq domenli yopiq kitob varianti savol-javob vazifalarini bir necha marta oʻqqa tutdi. , yopish va jumlalarni yakunlash vazifalari, Winograd uslubidagi vazifalar, kontekstda o'qishni tushunish vazifalari, umumiy fikrlash vazifalari, SuperGLUE vazifalari va tabiiy xulosa.

Til avlodini tushunish

Bir nechta BIG-skameykali vazifalarda PaLM tabiiy tilni mukammal talqin qilish va avlodni yaratish qobiliyatlarini namoyish etadi. Misol uchun, model sabab va oqibatni ajrata oladi, muayyan vaziyatlarda kontseptual kombinatsiyalarni tushunadi va hatto filmni kulgichdan taxmin qiladi. O'quv korpusining atigi 22% ingliz tili bo'lmagan bo'lsa ham, PaLM ingliz tilidagi NLP vazifalariga qo'shimcha ravishda ko'p tilli NLP benchmarklarida, shu jumladan tarjimada ham yaxshi ishlaydi.

2. Fikrlash

PaLM ko'p bosqichli arifmetik yoki umumiy fikrlashni talab qiladigan fikrlash muammolari bo'yicha ilg'or ko'nikmalarni namoyish qilish uchun model o'lchamini fikrlash zanjiri bilan birlashtiradi.

Gopher kabi oldingi LLMlar unumdorlikni oshirish nuqtai nazaridan model hajmidan kamroq foyda ko'rgan. Fikrlash zanjiriga ega PaLM 540B uchta arifmetik va ikkita umumiy fikrlash ma'lumotlar to'plamida yaxshi natijalarga erishdi.

PaLM oldingi eng yaxshi 55% balldan oshib ketdi, bu GPT-3 175B modelini 7500 ta muammodan iborat oʻquv toʻplami bilan nozik sozlash va uni tashqi kalkulyator va tekshirgich bilan birlashtirish orqali GSM58K-dagi masalalarning 8 foizini hal qilish orqali olingan. maktab darajasidagi minglab qiyin matematik savollarning 8 o'qli taklif yordamida etalon.

Ushbu yangi ball ayniqsa e'tiborga loyiqdir, chunki u 60-9 yoshli bolalar boshdan kechirgan to'siqlarning o'rtacha 12% ga yaqinlashadi. Shuningdek, u internetda mavjud bo'lmagan original hazillarga ham javob berishi mumkin.

Hazilni tushuntirish

3. Kod yaratish

LLMlar, shuningdek, kodlash vazifalarida, jumladan, tabiiy til tavsifidan kod yaratishda (matndan kodga), tillar o'rtasida kodni tarjima qilishda va kompilyatsiya xatolarini hal qilishda yaxshi ishlashi ko'rsatilgan. Treningdan oldingi ma'lumotlar to'plamida atigi 5% kodga ega bo'lishiga qaramay, PaLM 540B bitta modelda kodlash va tabiiy til vazifalarida yaxshi ishlaydi.

Kod yaratish

Uning bir necha marta suratga olish ko'rsatkichlari hayratlanarli, chunki u 12 baravar kam Python kodi bilan mashg'ulot paytida nozik sozlangan Codex 50B bilan mos keladi. Ushbu topilma kattaroq modellar kichikroq modellarga qaraganda samaraliroq namuna bo'lishi mumkinligi haqidagi oldingi topilmalar bilan asoslanadi, chunki ular bir nechta modellardan o'rganishni samaraliroq o'tkazishi mumkin. dasturlash tillari va oddiy til ma'lumotlari.

Kod yaratish misoli.

Xulosa

PaLM 4 milliardlik parametrli modelni faqat dekoderga moʻljallangan zich transformator modelining yaxshi oʻrganilgan retsepti bilan samarali oʻrgatish orqali Pathways tizimining minglab tezlatkichli protsessorlarni ikkita TPU v540 Pod orqali kengaytirish imkoniyatlarini koʻrsatadi.

U tabiiy tillarni qayta ishlash, fikr yuritish va kodlash muammolari bo'yicha model miqyosi chegaralarini bosib o'tish orqali bir necha marta yuqori samaradorlikka erishadi.

Pathways Language Model (PaLM) ga kirish

Nima bu Google-ning PaLM algoritmi?

Google PaLM algoritmini qanday ishlab chiqdi?

PaLMni o'rgatish uchun ishlatiladigan parametrlar