Dilin tanınması və generasiyası üçün öyrədilmiş böyük neyron şəbəkələri son illərdə müxtəlif tapşırıqlarda əla nəticələr nümayiş etdirib. GPT-3 sübut etdi ki, böyük dil modelləri (LLM) bir neçə dəfə öyrənmə üçün istifadə edilə bilər və tapşırıq üçün xüsusi məlumat tələb etmədən və ya model parametrlərini dəyişdirmədən əla nəticələr əldə edə bilər.
Silikon Vadisinin texnoloji begemotu Google, növbəti nəsil süni intellekt dili modeli kimi dünya texnologiya sənayesinə PaLM və ya Pathways Language Modelini təqdim etdi. Google şirkəti yenisini daxil etdi süni intellekt AI-dil modelinin keyfiyyətini yaxşılaşdırmaq üçün strateji məqsədləri olan arxitekturanı PaLM-ə çevirmək.
Bu yazıda Palm alqoritmini, o cümlədən onu öyrətmək üçün istifadə olunan parametrləri, həll etdiyi məsələni və daha çox şeyləri ətraflı araşdıracağıq.
Nədir Google-un PaLM alqoritmi?
Pathways Dil Modeli nədir PaLM üçün dayanır. Bu, Pathways AI arxitekturasını gücləndirmək üçün Google tərəfindən hazırlanmış yeni alqoritmdir. Quruluşun əsas məqsədi eyni anda milyonlarla fərqli fəaliyyət göstərməkdir.
Bunlara mürəkkəb məlumatların deşifr edilməsindən tutmuş deduktiv əsaslandırmaya qədər hər şey daxildir. PaLM dil və mülahizə tapşırıqlarında indiki ən müasir süni intellekt, eləcə də insanları üstələmək qabiliyyətinə malikdir.
Buraya insanların yeni şeyləri necə öyrəndiyini təqlid edən və bütün biliklərini yeni problemləri həll etmək üçün istifadə edə bilən maşının faydası ilə əvvəllər heç vaxt görülməmiş yeni problemləri həll etmək üçün müxtəlif bilik hissələrini birləşdirən Bir neçə Atış Öyrənmə daxildir; PaLM-də bu bacarığın bir nümunəsi, əvvəllər heç eşitmədiyi bir zarafatı izah etmək bacarığıdır.
PaLM müxtəlif çətin tapşırıqlarda, o cümlədən dilin başa düşülməsi və yaradılması, çoxaddımlı arifmetik kodla əlaqəli fəaliyyətlər, sağlam düşüncə, tərcümə və daha çox şeylər üzrə bir çox irəliləyiş bacarıqları nümayiş etdirdi.
Çoxdilli NLP dəstlərindən istifadə edərək mürəkkəb məsələləri həll etmək qabiliyyətini nümayiş etdirdi. PaLM dünya texnologiya bazarı tərəfindən səbəb və nəticəni, konseptual birləşmələri, fərqli oyunları və bir çox başqa şeyi fərqləndirmək üçün istifadə edilə bilər.
O, həmçinin çoxaddımlı məntiqi nəticə, dərin dil, qlobal bilik və digər üsullardan istifadə edərək bir çox kontekstlər üçün dərin izahatlar yarada bilər.
Google PaLM alqoritmini necə inkişaf etdirdi?
Google-un PaLM-də irəliləyiş performansı üçün yolların 540 milyard parametrə qədər genişləndirilməsi planlaşdırılır. O, çoxsaylı domenlər üzrə səmərəli və effektiv şəkildə ümumiləşdirə bilən tək model kimi tanınır. Google-da Pathways sürətləndiricilər üçün paylanmış hesablamaların inkişafına həsr olunub.
PaLM, Pathways sistemindən istifadə etməklə öyrədilmiş, yalnız dekoderlə işləyən transformator modelidir. Google-a görə, PaLM bir neçə iş yükü arasında ən müasir bir neçə atış performansını uğurla əldə etdi. PaLM ilk dəfə olaraq 6144 çip kimi tanınan ən böyük TPU əsaslı sistem konfiqurasiyasına təlimi genişləndirmək üçün Pathways sistemindən istifadə etdi.
Süni intellekt dili modeli üçün təlim verilənlər bazası ingilis və digər çoxdilli verilənlər dəstlərinin qarışığından ibarətdir. “İtkisiz” lüğətə malik o, yüksək keyfiyyətli veb məzmunu, müzakirələri, kitabları, GitHub kodunu, Vikipediyanı və daha çoxunu ehtiva edir. İtkisiz lüğət boşluqları saxlamaq və lüğətdə olmayan Unicode simvollarını baytlara bölmək üçün tanınır.
PaLM Google və Pathways tərəfindən standart transformator modeli arxitekturasından və SwiGLU Aktivləşdirilməsi, paralel təbəqələr, İp daxiletmələri, paylaşılan giriş-çıxış daxiletmələri, çox sorğu diqqəti və heç bir qərəz və ya lüğət daxil olmayan dekoder konfiqurasiyasından istifadə etməklə hazırlanmışdır. Digər tərəfdən PaLM, Google və Pathways-in süni intellekt dili modeli üçün möhkəm əsas təmin etməyə hazırlaşır.
PaLM öyrətmək üçün istifadə olunan parametrlər
Keçən il Google, minlərlə, hətta milyonlarla şeyi etmək üçün öyrədilə bilən tək model olan Pathways-i işə saldı - "növbəti nəsil AI arxitekturası" adlandırıldı, çünki o, mövcud modellərin yalnız bir şeyi etmək üçün təlim keçmək məhdudiyyətlərini dəf edə bilər. . Mövcud modellərin imkanlarını genişləndirmək əvəzinə, bir işi yerinə yetirmək üçün yeni modellər tez-tez aşağıdan yuxarıya doğru qurulur.
Nəticədə, on minlərlə müxtəlif fəaliyyət üçün on minlərlə model yaratdılar. Bu, çox vaxt aparan və resurs tələb edən bir işdir.
Google Pathways vasitəsilə sübut etdi ki, tək bir model müxtəlif fəaliyyətlərin öhdəsindən gələ bilər və yeni tapşırıqları daha tez və səmərəli şəkildə öyrənmək üçün mövcud istedadlardan istifadə edə və birləşdirə bilər.
Eyni zamanda görmə, linqvistik qavrayış və eşitmə emalını ehtiva edən multimodal modellər yollar vasitəsilə işə salına bilər. Pathways Language Model (PaLM) 4 milyard parametr modeli sayəsində çoxsaylı TPU v540 Podları arasında tək bir modelin öyrədilməsinə imkan verir.
Yalnız sıx dekoderlə işləyən Transformator modeli olan PaLM, iş yüklərinin geniş diapazonunda ən müasir bir neçə atış performansını üstələyir. PaLM məlumat mərkəzi şəbəkəsi (DCN) vasitəsilə birləşdirilən iki TPU v4 Pod üzərində hazırlanır.
Həm model, həm də məlumat paralelliyindən istifadə edir. Tədqiqatçılar PaLM üçün hər Pod-da 3072 hosta qoşulmuş 4 TPU v768 prosessorundan istifadə ediblər. Tədqiqatçıların fikrincə, bu, boru kəməri paralelliyindən istifadə etmədən təlimləri genişləndirməyə imkan verən, hələ açıqlanmış ən böyük TPU konfiqurasiyasıdır.
Boru örtüyü ümumiyyətlə boru kəməri vasitəsilə CPU-dan təlimatların toplanması prosesidir. Modelin təbəqələri boru kəməri modeli paralelliyi (və ya boru xətti paralelliyi) vasitəsilə paralel olaraq işlənə bilən fazalara bölünür.
Bir mərhələ mikro partiya üçün irəli keçidi tamamladıqda aktivləşdirmə yaddaşı növbəti mərhələyə göndərilir. Sonrakı mərhələ geriyə doğru yayılmasını tamamladıqdan sonra gradientlər arxaya göndərilir.
PaLM sıçrayış imkanları
PaLM bir sıra çətin tapşırıqlarda yenilikçi bacarıqlar nümayiş etdirir. Budur bir neçə nümunə:
1. Dilin yaradılması və anlaşılması
PaLM ingilis dilində 29 fərqli NLP tapşırığı üzrə sınaqdan keçirilib.
Bir neçə atış əsasında PaLM 540B GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla və LaMDA kimi əvvəlki böyük modelləri 28 tapşırıqdan 29-də, o cümlədən açıq domenli qapalı kitab variantı sual-cavab tapşırıqlarında üstələdi. , bağlama və cümlə tamamlama tapşırıqları, Winograd üslublu tapşırıqlar, kontekstdə oxuyub-anlama tapşırıqları, sağlam məntiqlə düşünmə tapşırıqları, SuperGLUE tapşırıqları və təbii nəticə.
Bir neçə BIG-dəzgah tapşırıqlarında PaLM mükəmməl təbii dil tərcüməsi və nəsil bacarıqları nümayiş etdirir. Məsələn, model səbəb və nəticəni ayırd edə, müəyyən situasiyalarda konseptual birləşmələri başa düşə və hətta filmi emojidən təxmin edə bilər. Təlim korpusunun yalnız 22%-i qeyri-ingilis dili olsa da, PaLM İngilis NLP tapşırıqlarına əlavə olaraq tərcümə də daxil olmaqla çoxdilli NLP meyarlarında yaxşı performans göstərir.
2. Mülahizə
PaLM model ölçüsünü düşüncə zənciri ilə qarışdırır, çoxaddımlı arifmetik və ya sağlam düşüncə tələb edən düşünmə problemləri üzrə irəliləyiş bacarıqlarını nümayiş etdirir.
Gopher kimi əvvəlki LLM-lər performansı artırmaq baxımından model ölçüsündən daha az faydalanırdı. Düşüncə zənciri olan PaLM 540B üç arifmetik və iki sağlam düşüncə verilənlər bazasında yaxşı nəticə göstərdi.
PaLM, 55 məsələdən ibarət təlim dəsti ilə GPT-3 175B modelinin incə tənzimlənməsi və GSM7500K-dakı məsələlərin 58 faizini həll etmək üçün xarici kalkulyator və yoxlayıcı ilə birləşdirilərək əldə edilən əvvəlki ən yaxşı 8%-i üstələyir. 8 atışdan istifadə edərək məktəb səviyyəsində minlərlə çətin riyaziyyat sualının etalonudur.
Bu yeni hesab xüsusilə diqqəti cəlb edir, çünki o, 60-9 yaşlı uşaqların üzləşdiyi maneələrin orta 12%-nə yaxınlaşır. O, həmçinin internetdə olmayan orijinal zarafatlara da cavab verə bilər.
3. Kodun yaradılması
LLM-lərin təbii dil təsvirindən kodun yaradılması (mətn-koda), dillər arasında kodun tərcüməsi və kompilyasiya xətalarının həlli də daxil olmaqla kodlaşdırma tapşırıqlarında yaxşı performans göstərdiyi göstərilmişdir. Təlimdən əvvəl verilənlər bazasında cəmi 5% koda malik olmasına baxmayaraq, PaLM 540B tək modeldə həm kodlaşdırma, həm də təbii dil tapşırıqlarını yaxşı yerinə yetirir.
Onun bir neçə atış performansı inanılmazdır, çünki o, 12 dəfə az Python kodu ilə məşq edərkən dəqiq tənzimlənmiş Codex 50B ilə uyğun gəlir. Bu tapıntı, daha böyük modellərin kiçik modellərə nisbətən daha səmərəli nümunə ola biləcəyinə dair əvvəlki tapıntıları dəstəkləyir, çünki onlar çoxlu modellərdən öyrənməni daha effektiv şəkildə ötürə bilirlər. proqramlaşdırma dilləri və sadə dil məlumatları.
Nəticə
PaLM, yalnız sıx dekoderlə işləyən Transformator modelinin yaxşı öyrənilmiş, yaxşı qurulmuş resepti ilə 4 milyardlıq parametr modelini effektiv şəkildə öyrətməklə, Pathways sisteminin iki TPU v540 Pod üzərində minlərlə sürətləndirici prosessoru genişləndirmək qabiliyyətini göstərir.
O, model miqyasının hüdudlarını aşaraq təbii dilin işlənməsi, mülahizə və kodlaşdırma problemlərində sıçrayışlı bir neçə atış performansına nail olur.
Cavab yaz