Duże sieci neuronowe, które zostały przeszkolone pod kątem rozpoznawania i generowania języka, wykazały w ostatnich latach znakomite wyniki w różnych zadaniach. GPT-3 dowiódł, że duże modele językowe (LLM) mogą być wykorzystywane do uczenia się kilkoma strzałami i uzyskiwać doskonałe wyniki bez wymagania obszernych danych dotyczących konkretnego zadania lub zmiany parametrów modelu.
Google, gigant technologiczny z Doliny Krzemowej, wprowadził do światowej branży technologicznej PaLM, czyli Pathways Language Model, jako model języka AI nowej generacji. Google włączyło nowy sztuczna inteligencja architektury do PaLM ze strategicznymi celami poprawy jakości modelu języka AI.
W tym poście szczegółowo przeanalizujemy algorytm Palm, w tym parametry używane do jego uczenia, problem, który rozwiązuje i wiele więcej.
Co to jest Algorytm PaLM firmy Google?
Model języka Pathways jest czym Palma oznacza. Jest to nowy algorytm opracowany przez Google w celu wzmocnienia architektury Pathways AI. Głównym celem struktury jest wykonanie miliona różnych czynności naraz.
Obejmują one wszystko, od rozszyfrowywania złożonych danych po rozumowanie dedukcyjne. PaLM ma zdolność przewyższania obecnego stanu techniki AI, a także ludzi w zadaniach językowych i rozumowania.
Obejmuje to naukę kilku strzałów, która naśladuje sposób, w jaki ludzie uczą się nowych rzeczy i łączą różnorodne fragmenty wiedzy, aby stawić czoła nowym wyzwaniom, których nigdy wcześniej nie widziano, z korzyścią dla maszyny, która może wykorzystać całą swoją wiedzę do rozwiązywania nowych wyzwań; jednym z przykładów tej umiejętności w PaLM jest umiejętność wyjaśniania dowcipu, którego nigdy wcześniej nie słyszał.
PaLM wykazał wiele przełomowych umiejętności w różnych trudnych zadaniach, w tym rozumienie i tworzenie języka, wieloetapowe czynności związane z kodem arytmetycznym, zdroworozsądkowe rozumowanie, tłumaczenie i wiele innych.
Wykazał swoją zdolność do rozwiązywania skomplikowanych problemów przy użyciu wielojęzycznych zestawów NLP. PaLM może być używany przez światowy rynek technologiczny do rozróżniania przyczyn i skutków, kombinacji koncepcyjnych, odrębnych gier i wielu innych rzeczy.
Może również generować dogłębne wyjaśnienia dla wielu kontekstów za pomocą wieloetapowego wnioskowania logicznego, głębokiego języka, globalnej wiedzy i innych technik.
Jak Google opracował algorytm PaLM?
Aby zapewnić przełomową wydajność Google w PaLM, ścieżki mają skalować do 540 miliardów parametrów. Jest uznawany za jedyny model, który może wydajnie i skutecznie uogólniać w wielu dziedzinach. Pathways w Google zajmuje się opracowywaniem przetwarzania rozproszonego dla akceleratorów.
PaLM to model transformatora wyłącznie z dekoderem, który został przeszkolony przy użyciu systemu Pathways. Według Google PaLM z powodzeniem osiągnął najnowocześniejszą wydajność kilku strzałów w kilku obciążeniach roboczych. PaLM po raz pierwszy wykorzystał system Pathways do rozszerzenia szkolenia do największej konfiguracji systemu opartej na TPU, znanej jako chipy 6144.
Treningowy zestaw danych dla modelu języka AI składa się z kombinacji zestawów danych w języku angielskim i innych wielojęzycznych. Dzięki „bezstratnemu” słownictwu zawiera wysokiej jakości treści internetowe, dyskusje, książki, kod GitHub, Wikipedię i wiele innych. Słownik bezstratny jest rozpoznawany za zachowywanie białych znaków i łamanie znaków Unicode, których nie ma w słowniku, na bajty.
PaLM został opracowany przez Google i Pathways z wykorzystaniem standardowej architektury modelu transformatora i konfiguracji dekodera, która obejmowała aktywację SwiGLU, warstwy równoległe, osadzanie RoPE, współdzielone osadzanie wejścia-wyjścia, uwagę na wiele zapytań i brak uprzedzeń lub słownictwa. Z drugiej strony PaLM jest gotowy zapewnić solidną podstawę dla modelu języka AI Google i Pathways.
Parametry wykorzystywane do szkolenia PaLM
W zeszłym roku firma Google uruchomiła Pathways, pojedynczy model, który można przeszkolić do wykonywania tysięcy, jeśli nie milionów rzeczy – nazwany „architekturą sztucznej inteligencji nowej generacji”, ponieważ może przezwyciężyć ograniczenia istniejących modeli w zakresie uczenia się tylko jednej rzeczy . Zamiast rozszerzać możliwości obecnych modeli, nowe modele są często budowane od podstaw w celu wykonania jednego zadania.
W rezultacie stworzyli dziesiątki tysięcy modeli dla dziesiątek tysięcy różnych czynności. Jest to czasochłonne i wymagające dużej ilości zasobów zadanie.
Google udowodnił za pośrednictwem Pathways, że jeden model może obsługiwać różnorodne działania oraz czerpać i łączyć obecne talenty, aby szybciej i wydajniej uczyć się nowych zadań.
Modele multimodalne, które obejmują wzrok, rozumienie językowe i przetwarzanie słuchowe w tym samym czasie, można włączyć za pomocą ścieżek. Pathways Language Model (PaLM) pozwala na trenowanie pojedynczego modelu w wielu modułach TPU v4 dzięki modelowi parametrów o wartości 540 miliardów.
PaLM, gęsty model transformatora tylko z dekoderem, przewyższa najnowocześniejszą wydajność kilku strzałów w szerokim zakresie obciążeń. PaLM jest szkolony na dwóch urządzeniach TPU v4 Pods, które są połączone za pośrednictwem sieci centrum danych (DCN).
Wykorzystuje zarówno model, jak i równoległość danych. Badacze zastosowali 3072 procesory TPU v4 w każdym Pod dla PaLM, które były podłączone do 768 hostów. Według naukowców jest to największa dotychczas ujawniona konfiguracja TPU, umożliwiająca skalowanie treningu bez wykorzystywania równoległości potoku.
Wykładanie rur to ogólnie proces zbierania instrukcji z procesora przez potok. Warstwy modelu są podzielone na fazy, które mogą być przetwarzane równolegle poprzez równoległość modelu potokowego (lub równoległość potokową).
Pamięć aktywacji jest przesyłana do następnego etapu, gdy jeden etap zakończy przejście do przodu dla mikrowsadu. Gradienty są następnie przesyłane do tyłu, gdy kolejny etap zakończy swoją propagację wsteczną.
Przełomowe możliwości PaLM
PaLM wykazuje się przełomowymi umiejętnościami w szeregu trudnych zadań. Oto kilka przykładów:
1. Tworzenie i rozumienie języka
PaLM został przetestowany w 29 różnych zadaniach NLP w języku angielskim.
Na podstawie kilku strzałów PaLM 540B przewyższał poprzednie duże modele, takie jak GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla i LaMDA w 28 z 29 zadań, w tym w zadaniach z odpowiedziami na pytania w wariancie z zamkniętą księgą w otwartej domenie , zadania zamykania i uzupełniania zdań, zadania w stylu Winograd, zadania czytania ze zrozumieniem w kontekście, zadania rozumowania zdroworozsądkowego, zadania SuperGLUE i wnioskowanie naturalne.
W kilku zadaniach BIG-bench PaLM wykazuje doskonałą interpretację języka naturalnego i umiejętności generowania. Na przykład model może rozróżniać przyczynę i skutek, rozumieć kombinacje pojęciowe w określonych sytuacjach, a nawet odgadywać film z emoji. Mimo że tylko 22% korpusu szkoleniowego nie jest w języku angielskim, PaLM sprawdza się dobrze w wielojęzycznych testach NLP, w tym tłumaczeniach, oprócz zadań w języku angielskim.
2. Rozumowanie
PaLM łączy rozmiar modelu z łańcuchem myśli, który skłania do wykazania przełomowych umiejętności w zakresie wyzwań rozumowania wymagających wieloetapowego rozumowania arytmetycznego lub zdroworozsądkowego.
Poprzednie programy LLM, takie jak Gopher, w mniejszym stopniu korzystały z rozmiaru modelu pod względem poprawy wydajności. PaLM 540B z podpowiedzią łańcucha myśli radził sobie dobrze na trzech zestawach danych arytmetycznych i dwóch zdroworozsądkowych.
PaLM przewyższa poprzedni najlepszy wynik 55%, który został uzyskany przez dostrojenie modelu GPT-3 175B z zestawem uczącym 7500 zadań i połączenie go z zewnętrznym kalkulatorem i weryfikatorem w celu rozwiązania 58 procent problemów w GSM8K, benchmark tysięcy trudnych pytań matematycznych na poziomie szkoły podstawowej przy użyciu podpowiedzi 8-strzałowych.
Ten nowy wynik jest szczególnie godny uwagi, ponieważ zbliża się do średniej 60% przeszkód napotykanych przez 9-12-latków. Może też odpowiadać na oryginalne dowcipy, które nie są dostępne w Internecie.
3. Generowanie kodu
Wykazano również, że LLM dobrze sprawdzają się w zadaniach kodowania, w tym generowaniu kodu z opisu w języku naturalnym (tekst na kod), tłumaczeniu kodu między językami i rozwiązywaniu błędów kompilacji. Pomimo posiadania tylko 5% kodu w zbiorze danych przedtreningowych, PaLM 540B dobrze radzi sobie zarówno z kodowaniem, jak i zadaniami języka naturalnego w jednym modelu.
Jego wydajność przy kilku strzałach jest niesamowita, ponieważ pasuje do dopracowanego Codex 12B podczas treningu z 50 razy mniej kodu Pythona. To odkrycie potwierdza wcześniejsze ustalenia, że większe modele mogą być bardziej efektywne w próbach niż mniejsze modele, ponieważ mogą skuteczniej przenosić naukę z wielu języki programowania i dane w prostym języku.
Wnioski
PaLM pokazuje zdolność systemu Pathways do skalowania do tysięcy procesorów akceleratorowych na dwóch modułach TPU v4 poprzez efektywne trenowanie modelu parametrów o wartości 540 miliardów za pomocą dobrze zbadanej, ugruntowanej receptury gęstego modelu transformatora wyłącznie z dekoderem.
Osiąga przełomową wydajność kilku strzałów w szeregu wyzwań związanych z przetwarzaniem, rozumowaniem i kodowaniem języka naturalnego, przesuwając granice skali modelu.
Dodaj komentarz