Spis treści[Ukryć][Pokazać]
GPT-3, obecnie największa sieć neuronowa, została opublikowana w maju 2020 r. przez OpenAI, startup AI współzałożony przez Elona Muska i Sama Altmana. GPT-3 to najnowocześniejszy model języka z 175 miliardami parametrów w porównaniu do 1,5 miliarda parametrów w swoim poprzedniku GPT-2.
GPT-3 przewyższył model NLG Turinga firmy Microsoft (Turing Natural Language Generation), który wcześniej był rekordzistą największej sieci neuronowej z 17 miliardami parametrów.
Model językowy był chwalony, krytykowany, a nawet analizowany; zrodził również nowe i intrygujące zastosowania. A teraz pojawiają się doniesienia, że GPT-4, kolejna odsłona OpenAI model języka, rzeczywiście pojawi się wkrótce.
Jesteś we właściwym miejscu, jeśli chcesz dowiedzieć się więcej o GPT-4. W tym artykule przyjrzymy się dokładnie GPT-4, omawiając jego parametry, porównanie z innymi modelami i nie tylko.
Czym jest GPT-4?
Aby zrozumieć zakres GPT-4, musimy najpierw zrozumieć GPT-3, jego prekursora. GPT-3 (Generative Pre-trained Transformer, trzeciej generacji) to autonomiczne narzędzie do generowania treści.
Użytkownicy wprowadzają dane do uczenie maszynowe według OpenAI, który może następnie generować ogromne ilości odpowiednich tekstów w odpowiedzi. GPT-4 będzie znacznie lepszy w wielozadaniowości w warunkach kilku strzałów — rodzaj uczenie maszynowe – przybliżenie wyników jeszcze bardziej do ludzkich.
Budowa GPT-3 kosztuje setki milionów funtów, ale przewiduje się, że GPT-4 będzie kosztować znacznie więcej, ponieważ będzie miał pięćset razy większą skalę. Aby spojrzeć na to z perspektywy,
GPT-4 może mieć tyle cech, co synapsy w mózgu. GPT-4 będzie wykorzystywać głównie te same metody, co GPT-3, więc GPT-4 nie będzie skokiem paradygmatu, ale rozszerzy to, co obecnie osiąga GPT-3 — ale ze znacznie większymi możliwościami wnioskowania.
GPT-3 umożliwiał użytkownikom wprowadzanie języka naturalnego w celach praktycznych, ale nadal wymagał pewnej wiedzy, aby zaprojektować podpowiedź, która przyniosłaby dobre wyniki. GPT-4 będzie znacznie lepiej przewidywał intencje użytkowników.
Jakie będą parametry GPT-4?
Pomimo tego, że GPT-4 jest jednym z najbardziej oczekiwanych postępów AI, nic nie wiadomo o GPT-XNUMX: jak będzie wyglądał, jakie będzie miał cechy i jakie będzie miał moce.
W zeszłym roku Altman przeprowadził Q&A i ujawnił kilka szczegółów na temat ambicji OpenAI dotyczących GPT-4. Według Altmana nie byłby większy niż GPT-3. Jest mało prawdopodobne, aby GPT-4 był najczęściej używany model języka. Chociaż model będzie ogromny w porównaniu do poprzednich generacji sieci neuronowe, jego rozmiar nie będzie jego wyróżnikiem. Najbardziej prawdopodobnymi kandydatami są GPT-3 i Gopher (175B-280B).
Nvidia i Microsoft's Megatron-Turing NLG ustanowiły rekord dla najgęstsza sieć neuronowa parametry na 530B – trzy razy więcej niż GPT-3 – do niedawna, kiedy PaLM Google'a wziął go na 540B. Co zaskakujące, wiele mniejszych modeli przewyższało MT-NLG.
Zgodnie z połączeniem prawa energetycznego, Jared Kaplan z OpenAI i współpracownicy ustalili w 2020 r., że gdy wzrost budżetu przetwarzania jest wydawany głównie na zwiększenie liczby parametrów, wydajność poprawia się najbardziej. Google, Nvidia, Microsoft, OpenAI, DeepMind i inne firmy zajmujące się modelowaniem języka posłusznie przestrzegały przepisów.
Altman wskazał, że nie koncentrowali się już na konstruowaniu masywnych modeli, ale raczej na maksymalizacji wydajności mniejszych modeli.
Badacze OpenAI byli wczesnymi zwolennikami hipotezy skalowania, ale być może odkryli, że dodatkowe, wcześniej nieodkryte ścieżki mogą prowadzić do lepszych modeli. Z tych powodów GPT-4 nie będzie znacznie większy niż GPT-3.
OpenAI położy większy nacisk na inne aspekty, takie jak dane, algorytmy, parametryzacja i wyrównanie, które mogą szybciej przynieść znaczące korzyści. Musimy poczekać i zobaczyć, co potrafi model o parametrach 100T.
Kluczowe punkty:
- Rozmiar modelu: GPT-4 będzie większy niż GPT-3, ale niewiele (MT-NLG 530B i PaLM 540B). Rozmiar modelu nie będzie się wyróżniał.
- Optymalność: GPT-4 będzie zużywać więcej zasobów niż GPT-3. Zaimplementuje nowy wgląd w optymalizację w parametryzację (optymalne hiperparametry) i metody skalowania (liczba tokenów treningowych jest równie ważna jak rozmiar modelu).
- Multimodalność: GPT-4 będzie mógł wysyłać i odbierać tylko wiadomości tekstowe (nie multimodalne). OpenAI stara się przesuwać modele językowe do granic możliwości przed przejściem na modele multimodalne, takie jak DALEJ 2, które, jak przewidują, ostatecznie przewyższy systemy unimodalne.
- Rzadkość: GPT-4, podobnie jak jego poprzednicy GPT-2 i GPT-3, będzie modelem gęstym (wszystkie parametry będą używane do przetwarzania danych wejściowych). W przyszłości rzadkość stanie się ważniejsza.
- Wyrównanie: GPT-4 zbliży się do nas bliżej niż GPT-3. Umieści to, czego nauczył się od InstructGPT, który został opracowany przy udziale człowieka. Mimo to konwergencja sztucznej inteligencji jest bardzo odległa, a wysiłki należy dokładnie oceniać, a nie przesadzać.
Wnioski
Sztuczna inteligencja ogólna. To duży cel, ale programiści OpenAI pracują, aby go osiągnąć. Celem AGI jest stworzenie modelu lub „agenta” zdolnego do zrozumienia i wykonania każdej czynności, którą może wykonać dana osoba.
GPT-4 może być kolejnym krokiem w osiągnięciu tego celu i brzmi jak coś z filmu science fiction. Możesz się zastanawiać, jak realistyczne jest osiągnięcie AGI.
Według Raya Kurzweila, dyrektora ds. inżynierii w Google, osiągniemy ten kamień milowy do 2029 roku. Mając to na uwadze, przyjrzyjmy się bliżej GPT-4 i konsekwencjom tego modelu, gdy zbliżamy się do AGI (Artificial General Intelligence).
Dodaj komentarz