Dil tanıma ve oluşturma için eğitilmiş büyük sinir ağları, son yıllarda çeşitli görevlerde olağanüstü sonuçlar göstermiştir. GPT-3, büyük dil modellerinin (LLM'ler) birkaç adımlı öğrenme için kullanılabileceğini ve kapsamlı göreve özel veriler veya model parametrelerini değiştirmeden mükemmel sonuçlar elde edilebileceğini kanıtladı.
Silikon Vadisi teknoloji devi Google, yeni nesil yapay zeka dili modeli olarak dünya çapındaki teknoloji endüstrisine PaLM veya Pathways Language Model'i tanıttı. Google, yeni bir yapay zeka mimariyi, AI dili modelinin kalitesini iyileştirmeyi amaçlayan stratejik amaçlarla PaLM'ye dönüştürün.
Bu yazıda Palm algoritmasını, onu eğitmek için kullanılan parametreler, çözdüğü sorun ve çok daha fazlası dahil olmak üzere ayrıntılı olarak inceleyeceğiz.
Nedir Google'ın PaLM algoritması?
Pathways Dil Modeli nedir Avuç içi anlamına gelir. Bu, Pathways AI mimarisini güçlendirmek için Google tarafından geliştirilen yeni bir algoritmadır. Yapının temel amacı, aynı anda bir milyon farklı aktivite yapmaktır.
Bunlar, karmaşık verilerin deşifresinden tümdengelimli akıl yürütmeye kadar her şeyi içerir. PaLM, dil ve muhakeme görevlerinde insanları olduğu kadar mevcut yapay zekayı da geçme yeteneğine sahiptir.
Buna, insanların yeni şeyleri nasıl öğrendiğini taklit eden ve daha önce hiç görülmemiş yeni zorluklarla başa çıkmak için çeşitli bilgi parçalarını nasıl birleştiren Few-Shot Learning, yeni zorlukları çözmek için tüm bilgisini kullanabilen bir makinenin yararına; PaLM'deki bu becerinin bir örneği, daha önce hiç duymadığı bir şakayı açıklama yeteneğidir.
PaLM, dili anlama ve oluşturma, çok adımlı aritmetik kodla ilgili etkinlikler, sağduyulu akıl yürütme, çeviri ve daha pek çok şey dahil olmak üzere çeşitli zorlu görevlerde birçok çığır açan beceri sergiledi.
Çok dilli NLP setlerini kullanarak karmaşık sorunları çözme yeteneğini kanıtlamıştır. PaLM, dünya çapındaki teknoloji pazarı tarafından neden ve sonuç, kavramsal kombinasyonlar, farklı oyunlar ve diğer birçok şeyi ayırt etmek için kullanılabilir.
Ayrıca çok adımlı mantıksal çıkarım, derin dil, küresel bilgi ve diğer teknikleri kullanarak birçok bağlam için derinlemesine açıklamalar üretebilir.
Google, PaLM algoritmasını nasıl geliştirdi?
Google'ın PaLM'deki çığır açan performansı için, yolların 540 milyar parametreye kadar ölçeklenmesi planlanıyor. Çok sayıda alanda verimli ve etkili bir şekilde genelleme yapabilen tek model olarak kabul edilmektedir. Pathways at Google, hızlandırıcılar için dağıtılmış bilgi işlem geliştirmeye kendini adamıştır.
PaLM, Pathways sistemi kullanılarak eğitilmiş, yalnızca kod çözücüye sahip bir transformatör modelidir. Google'a göre PaLM, çeşitli iş yüklerinde son teknoloji birkaç atışlık performansı başarıyla elde etti. PaLM, eğitimi ilk kez 6144 yonga olarak bilinen en büyük TPU tabanlı sistem yapılandırmasına genişletmek için Pathways sistemini kullandı.
AI dil modeli için bir eğitim veri seti, İngilizce ve diğer çok dilli veri setlerinin bir karışımından oluşur. "Kayıpsız" bir kelime hazinesi ile yüksek kaliteli web içeriği, tartışmalar, kitaplar, GitHub kodu, Wikipedia ve daha fazlasını içerir. Kayıpsız sözcük dağarcığı, boşlukları korumak ve sözcük dağarcığında olmayan Unicode karakterlerini baytlara bölmekle tanınır.
PaLM, standart bir transformatör modeli mimarisi ve SwiGLU Aktivasyonu, paralel katmanlar, RoPE yerleştirmeleri, paylaşılan girdi-çıktı yerleştirmeleri, çoklu sorgu dikkati ve önyargı veya kelime bilgisi içermeyen bir kod çözücü yapılandırması kullanılarak Google ve Pathways tarafından geliştirilmiştir. PaLM ise Google ve Pathways'in yapay zeka dili modeli için sağlam bir temel sağlamaya hazır.
PaLM'yi eğitmek için kullanılan parametreler
Geçen yıl Google, milyonlarca olmasa da binlerce şeyi yapmak için eğitilebilen tek bir model olan Pathways'i piyasaya sürdü - mevcut modellerin yalnızca bir şey yapmak için eğitilme sınırlamalarının üstesinden gelebileceğinden “yeni nesil AI mimarisi” olarak adlandırıldı. . Mevcut modellerin yeteneklerini genişletmek yerine, yeni modeller genellikle tek bir işi başarmak için aşağıdan yukarıya doğru oluşturulur.
Sonuç olarak, on binlerce farklı aktivite için on binlerce model oluşturmuşlardır. Bu, zaman alıcı ve kaynak yoğun bir iştir.
Google, Pathways aracılığıyla, tek bir modelin çeşitli etkinliklerin üstesinden gelebileceğini ve yeni görevleri daha hızlı ve verimli bir şekilde öğrenmek için mevcut yetenekleri kullanıp birleştirebileceğini kanıtladı.
Görme, dilsel anlama ve işitsel işlemeyi aynı anda içeren çok modlu modeller, yollar aracılığıyla etkinleştirilebilir. Pathways Language Model (PaLM), 4 milyar parametre modeli sayesinde çok sayıda TPU v540 Pod'da tek bir modelin eğitilmesine olanak tanır.
Yalnızca kod çözücüye yönelik yoğun bir Transformer modeli olan PaLM, çok çeşitli iş yüklerinde son teknoloji birkaç çekim performansından daha iyi performans gösterir. PaLM, bir veri merkezi ağı (DCN) aracılığıyla bağlanan iki TPU v4 Pod üzerinde eğitiliyor.
Hem model hem de veri paralelliğinden yararlanır. Araştırmacılar, PaLM için her Pod'da 3072 ana bilgisayara bağlı 4 TPU v768 işlemci kullandı. Araştırmacılara göre, bu şimdiye kadar açıklanan en büyük TPU yapılandırmasıdır ve boru hattı paralelliğini kullanmadan eğitimi ölçeklendirmelerine olanak tanır.
Boru kaplama, genel olarak bir boru hattı aracılığıyla CPU'dan talimat toplama işlemidir. Modelin katmanları, boru hattı modeli paralelliği (veya boru hattı paralelliği) yoluyla paralel olarak işlenebilen fazlara bölünmüştür.
Aktivasyon belleği, bir aşama bir mikro parti için ileri geçişi tamamladığında bir sonraki aşamaya gönderilir. Degradeler daha sonra bir sonraki aşama geriye doğru yayılmasını tamamladığında geriye doğru gönderilir.
PaLM Çığır Açan Yetenekler
PaLM, bir dizi zor görevde çığır açan yetenekler sergiler. İşte birkaç örnek:
1. Dil oluşturma ve anlama
PaLM, İngilizce olarak 29 farklı NLP görevi üzerinde teste tabi tutuldu.
PaLM 540B, açık alanlı kapalı kitap varyantı soru cevaplama görevleri dahil 3 görevden 28'inde GLaM, GPT-29, Megatron-Turing NLG, Gopher, Chinchilla ve LaMDA gibi önceki büyük modellerden daha iyi performans gösterdi. , kapatma ve cümle tamamlama görevleri, Winograd tarzı görevler, bağlam içi okuma anlama görevleri, sağduyulu akıl yürütme görevleri, SuperGLUE görevleri ve doğal çıkarım.
PaLM, birçok BÜYÜK tezgah görevinde mükemmel doğal dil yorumlama ve oluşturma becerileri sergiler. Örneğin, model neden ve sonuç arasında ayrım yapabilir, belirli durumlarda kavramsal kombinasyonları anlayabilir ve hatta filmi bir emojiden tahmin edebilir. Eğitim külliyatının sadece %22'si İngilizce olmasa da, PaLM İngilizce NLP görevlerine ek olarak çeviri dahil çok dilli NLP karşılaştırmalarında iyi performans gösterir.
2. Akıl yürütme
PaLM, çok adımlı aritmetik veya sağduyulu muhakeme gerektiren akıl yürütme zorluklarında çığır açan beceriler göstermek için model boyutunu düşünce zinciri yönlendirmesiyle harmanlar.
Gopher gibi önceki LLM'ler, performansı artırma açısından model boyutundan daha az yararlandı. Düşünce zinciri yönlendirmeli PaLM 540B, üç aritmetik ve iki sağduyulu düşünme veri setinde başarılı oldu.
PaLM, GPT-55 3B modelinin 175 problemlik bir eğitim seti ile ince ayarının yapılması ve GSM7500K'daki sorunların yüzde 58'ini çözmek için harici bir hesaplayıcı ve doğrulayıcı ile birleştirilmesiyle elde edilen önceki en iyi puanı olan %8'ten daha iyi performans gösteriyor. 8 adımlı ipucunu kullanarak ilkokul düzeyindeki binlerce zor matematik sorusunun karşılaştırması.
Bu yeni puan, 60-9 yaşındakilerin karşılaştığı engellerin %12 ortalamasına yaklaştığı için özellikle dikkat çekicidir. Ayrıca internette bulunmayan orijinal şakalara da yanıt verebilir.
3. Kod Oluşturma
LLM'lerin ayrıca, doğal bir dil açıklamasından (metinden koda) kod oluşturma, diller arasında kod çevirme ve derleme hatalarını çözme dahil olmak üzere kodlama görevlerinde iyi performans gösterdiği gösterilmiştir. Eğitim öncesi veri setinde sadece %5 kod bulunmasına rağmen, PaLM 540B tek bir modelde hem kodlama hem de doğal dil görevlerinde iyi performans gösterir.
12 kat daha az Python koduyla antrenman yaparken ince ayarlanmış Codex 50B ile eşleştiğinden, birkaç atış performansı inanılmaz. Bu bulgu, birden çok modelden öğrenmeyi daha etkili bir şekilde aktarabildikleri için daha büyük modellerin küçük modellerden daha örneklem açısından daha verimli olabileceğine dair önceki bulgularla desteklemektedir. Programlama dilleri ve düz dil verileri.
Sonuç
PaLM, Pathways sisteminin, yalnızca yoğun bir kod çözücüye sahip Transformer modelinin iyi çalışılmış, iyi kurulmuş bir tarifiyle 4 milyarlık bir parametre modelini etkin bir şekilde eğiterek iki TPU v540 Pod üzerinden binlerce hızlandırıcı işlemciye ölçekleme kapasitesini gösterir.
Model ölçeğinin sınırlarını zorlayarak bir dizi doğal dil işleme, muhakeme ve kodlama zorluklarında çığır açan birkaç adımlı performansa ulaşır.
Yorum bırak