Wyjaśnienie całego procesu szkolenia ChatGPT

Spis treści[Ukryć][Pokazać]

Trening generatywny+-
- Kwestia wyrównania
Dostrajanie nadzorowane+-
- Ograniczenia nadzoru: zmiana dystrybucji
W oparciu o preferencje, nagroda za uczenie się
Co przyniesie przyszłość?

ChatGPT to niezwykły model języka sztucznej inteligencji. Wszyscy używamy go, aby pomóc nam w różnych zadaniach.

Czy kiedykolwiek zastanawiałeś się, w jaki sposób został wyszkolony, aby wydawać odpowiedzi, które wydają się tak ludzkie? W tym artykule przyjrzymy się szkoleniu ChatGPT.

Wyjaśnimy, jak przekształcił się w jeden z najwybitniejszych modele językowe. Podczas odkrywania intrygującego świata ChatGPT wyrusz w podróż odkrywczą.

Przegląd szkolenia

ChatGPT to model przetwarzania języka naturalnego.

Dzięki ChatGPT możemy angażować się w interaktywne dialogi i dyskusje przypominające ludzi. Stosuje podejście podobne do tego z Poinstruuj GPT, który jest najnowocześniejszym modelem językowym. Został opracowany na krótko przed ChatGPT.

Wykorzystuje bardziej angażującą metodę. Umożliwia to naturalne interakcje użytkownika. Jest to więc doskonałe narzędzie do różnorodnych zastosowań, takich jak chatboty i wirtualni asystenci.

Procedura szkolenia ChatGPT jest procesem wieloetapowym. Wstępne szkolenie generatywne to pierwszy krok w szkoleniu ChatGPT.

W tej fazie model jest szkolony przy użyciu dużego zbioru danych tekstowych. Następnie model odkrywa korelacje statystyczne i wzorce występujące w języku naturalnym. Możemy więc uzyskać gramatycznie dokładną i spójną odpowiedź.

Następnie przechodzimy do etapu nadzorowanego dostrajania. W tej części model jest szkolony w zakresie określonego zadania. Na przykład może wykonać tłumaczenie na język lub odpowiedzieć na pytanie.

Wreszcie, ChatGPT wykorzystuje uczenie się nagród na podstawie informacji zwrotnych od ludzi.

Teraz przeanalizujmy te kroki.

Trening generatywny

Początkowy poziom szkolenia to Wstępne szkolenie generatywne. Jest to powszechna metoda uczenia modeli językowych. Aby utworzyć sekwencje tokenów, metoda stosuje „paradygmat przewidywania następnego kroku”.

Co to znaczy?

Każdy token jest unikalną zmienną. Reprezentują słowo lub część słowa. Model próbuje określić, które słowo najprawdopodobniej pojawi się jako następne, biorąc pod uwagę słowa poprzedzające. Wykorzystuje rozkład prawdopodobieństwa dla wszystkich terminów w swojej sekwencji.

Celem modeli językowych jest konstruowanie sekwencji tokenów. Te sekwencje powinny reprezentować wzorce i struktury ludzkiego języka. Jest to możliwe dzięki szkoleniu modeli na ogromnych ilościach danych tekstowych.

Następnie dane te są wykorzystywane do zrozumienia, w jaki sposób słowa są rozpowszechniane w języku.

Podczas uczenia model zmienia parametry rozkładu prawdopodobieństwa.

I stara się zmniejszyć różnicę między oczekiwanym a rzeczywistym rozmieszczeniem słów w tekście. Jest to możliwe za pomocą funkcji straty. Funkcja straty oblicza różnicę między rozkładami oczekiwanymi i rzeczywistymi.

Przetwarzanie języka naturalnego i wizja komputerowa są jednym z obszarów, w których stosujemy Generative Pretraining.

Otwarty 2

Kwestia wyrównania

Problem wyrównania jest jedną z trudności w generatywnym treningu wstępnym. Odnosi się to do trudności w dopasowaniu rozkładu prawdopodobieństwa modelu do rozkładu rzeczywistych danych.
Innymi słowy, odpowiedzi generowane przez model powinny być bardziej podobne do ludzkich.

Model może okazjonalnie dostarczać nieoczekiwanych lub niewłaściwych odpowiedzi. Może to być spowodowane różnymi przyczynami, takimi jak stronniczość danych szkoleniowych lub brak świadomości kontekstu modelu. Należy rozwiązać problem wyrównania, aby poprawić jakość modeli językowych.

Aby rozwiązać ten problem, modele językowe, takie jak ChatGPT, wykorzystują techniki dostrajania.

Dostrajanie nadzorowane

Druga część szkolenia ChatGPT to nadzorowane dostrajanie. W tym momencie programiści angażują się w dialog, działając zarówno jako użytkownik, jak i chatbot.

Rozmowy te są rejestrowane i agregowane w zestaw danych. Każda próbka szkoleniowa zawiera odrębną historię konwersacji dopasowaną do kolejnej odpowiedzi programisty będącego człowiekiem pełniącym rolę „chatbota”.

Celem nadzorowanego dostrajania jest maksymalizacja prawdopodobieństwa przypisanego do sekwencji tokenów w powiązanej odpowiedzi przez model. Ta metoda jest znana jako „naśladowanie uczenia się” lub „klonowanie zachowań”.

W ten sposób model może nauczyć się udzielać bardziej naturalnie brzmiących i spójnych odpowiedzi. Powiela odpowiedzi udzielone przez wykonawców.

Nadzorowane dostrajanie polega na dostosowaniu modelu językowego do określonego zadania.

Podajmy przykład. Załóżmy, że chcemy nauczyć chatbota dostarczania rekomendacji filmów. Wytrenowalibyśmy model języka, aby przewidywał oceny filmów na podstawie opisów filmów. I użylibyśmy zestawu danych opisów i ocen filmów.

Algorytm ostatecznie ustaliłby, które aspekty filmu odpowiadają wysokim lub złym ocenom.

Po przeszkoleniu możemy użyć naszego modelu do sugerowania filmów użytkownikom. Użytkownicy mogą opisać film, który im się podoba, a chatbot użyje dopracowanego modelu językowego, aby polecić więcej filmów, które są z nim porównywalne.

Ograniczenia nadzoru: zmiana dystrybucji

Nadzorowane dostrajanie polega na uczeniu modelu języka w celu osiągnięcia określonego celu. Jest to możliwe dzięki zasilaniu modelu a zestaw danych a następnie uczenie go przewidywania. Ten system ma jednak ograniczenia znane jako „ograniczenia nadzoru”.

Jednym z tych ograniczeń jest „przesunięcie dystrybucji”. Odnosi się do możliwości, że dane treningowe mogą niedokładnie odzwierciedlać rozkład danych wejściowych w świecie rzeczywistym, który napotkałby model.

Przeanalizujmy wcześniejszy przykład. W przykładowym sugestii dotyczącej filmu zestaw danych używany do uczenia modelu może niedokładnie odzwierciedlać różnorodność filmów i preferencje użytkowników, z którymi spotkałby się chatbot. Chatbot może nie działać tak dobrze, jak byśmy tego chcieli.

W rezultacie spotyka się z wejściami, które są odmienne od tych, które zaobserwował podczas treningu.

W przypadku uczenia nadzorowanego, gdy model jest szkolony tylko na danym zbiorze instancji, pojawia się ten problem.

Ponadto model może działać lepiej w obliczu zmiany dystrybucji, jeśli stosuje się uczenie wzmacniające, aby pomóc mu dostosować się do nowych kontekstów i uczyć się na własnych błędach.

W oparciu o preferencje, nagroda za uczenie się

Nauka z nagrodami to trzeci etap szkolenia w tworzeniu chatbota. W uczeniu się z nagrodami model jest uczony maksymalizacji sygnału nagrody.

Jest to wynik, który wskazuje, jak skutecznie model wykonuje zadanie. Sygnał nagrody opiera się na danych wejściowych od osób, które oceniają lub oceniają odpowiedzi modelu.

Uczenie się z nagrodami ma na celu opracowanie chatbota, który generuje wysokiej jakości odpowiedzi preferowane przez użytkowników. W tym celu wykorzystano technikę uczenia maszynowego tzw uczenie się przez wzmacnianie — które obejmuje uczenie się na podstawie informacji zwrotnych w formie nagród — służy do szkolenia modelu.

Chatbot odpowiada na pytania użytkowników, na przykład w zależności od aktualnego zrozumienia zadania, które jest mu dostarczane podczas nauki nagradzania. Sygnał nagrody jest następnie podawany na podstawie tego, jak skutecznie działa chatbot po ocenie odpowiedzi przez ludzkich sędziów.

Ten sygnał nagrody jest używany przez chatbota do modyfikowania jego ustawień. I poprawia wydajność zadań.

Niektóre ograniczenia dotyczące uczenia się z nagrodami

Wadą uczenia się z nagrodami jest to, że informacja zwrotna na temat odpowiedzi chatbota może nie nadejść przez jakiś czas, ponieważ sygnał nagrody może być rzadki i opóźniony. W rezultacie pomyślne wyszkolenie chatbota może być trudne, ponieważ może on otrzymywać informacje zwrotne na temat konkretnych odpowiedzi znacznie później.

Inną kwestią jest to, że sędziowie-ludzie mogą mieć różne poglądy lub interpretacje tego, co sprawia, że reakcja jest skuteczna, co może prowadzić do stronniczości sygnału nagrody. Aby to zmniejszyć, kilku sędziów często wykorzystuje tę metodę do dostarczenia bardziej niezawodnego sygnału nagrody.

Co przyniesie przyszłość?

Istnieje kilka potencjalnych przyszłych kroków w celu dalszego zwiększenia wydajności ChatGPT.

Aby zwiększyć zrozumienie modelu, jedną z potencjalnych przyszłych dróg jest włączenie większej liczby zestawów danych szkoleniowych i źródeł danych. Możliwe jest również zwiększenie zdolności modelu do rozumienia i uwzględniania danych wejściowych nietekstowych.

Na przykład modele językowe mogą rozumieć elementy wizualne lub dźwięki.

Poprzez włączenie określonych technik szkoleniowych ChatGPT można również ulepszyć w przypadku niektórych zadań. Na przykład może wykonać Analiza nastrojów lub produkcji języka naturalnego. Podsumowując, ChatGPT i powiązane modele językowe są bardzo obiecujące pod względem postępu.