Vysvětlení celého tréninkového procesu ChatGPT

Obsah[Skrýt][Ukázat]

Generativní předtrénink+-
- Problém zarovnání
Jemné doladění pod dohledem+-
- Omezení dohledu: Distribuční posun
Na základě preferencí, odměňování učení
Co drží budoucnost?

ChatGPT je pozoruhodný jazykový model umělé inteligence. Všichni ji používáme, aby nám pomáhala při různých úkolech.

Ptali jste se někdy, jak se to naučilo vytvářet odpovědi, které vypadají jako lidské? V tomto článku prozkoumáme školení ChatGPT.

Vysvětlíme, jak se vyvinul v jeden z nejvýraznějších jazykové modely. Při prozkoumávání zajímavého světa ChatGPT se vydejte na cestu za poznáním.

Přehled školení

ChatGPT je model zpracování přirozeného jazyka.

S ChatGPT se můžeme zapojit do interaktivních dialogů a diskusí podobných lidem. Používá přístup podobný tomu Pokyn GPT, což je špičkový jazykový model. Byl vyvinut krátce před ChatGPT.

Využívá poutavější metodu. To umožňuje přirozené interakce uživatelů. Je to tedy perfektní nástroj pro různé aplikace, jako jsou chatboti a virtuální asistenti.

Tréninkový postup ChatGPT je vícestupňový proces. Generativní předtrénink je prvním krokem v tréninku ChatGPT.

V této fázi je model trénován pomocí velkého korpusu textových dat. Poté model objeví statistické korelace a vzory nalezené v přirozeném jazyce. Takže můžeme mít gramaticky přesnou a koherentní odpověď.

Poté následujeme krok řízeného jemného doladění. V této části je model trénován na konkrétní úkol. Může například provádět jazykový překlad nebo odpovídat na otázky.

A konečně, ChatGPT využívá odměnu učení z lidské zpětné vazby.

Nyní se podívejme na tyto kroky.

Generativní předtrénink

Počáteční úrovní školení je generativní předtrénink. Je to běžná metoda pro trénování jazykových modelů. K vytvoření sekvencí tokenů metoda používá „paradigma predikce dalšího kroku“.

Co to znamená?

Každý token je jedinečná proměnná. Představují slovo nebo část slova. Model se snaží určit, které slovo bude následovat s největší pravděpodobností na základě slov před ním. Využívá rozdělení pravděpodobnosti napříč všemi termíny ve své sekvenci.

Účelem jazykových modelů je konstruovat tokenové sekvence. Tyto sekvence by měly představovat vzorce a struktury lidského jazyka. To je možné trénováním modelů na velkém množství textových dat.

Poté se tato data použijí k pochopení toho, jak jsou slova distribuována v jazyce.

Během tréninku model mění parametry rozdělení pravděpodobnosti.

A snaží se snížit rozdíl mezi očekávaným a skutečným rozložením slov v textu. To je možné pomocí funkce ztráty. Ztrátová funkce počítá rozdíl mezi očekávaným a skutečným rozdělením.

Zpracování přirozeného jazyka a počítačového vidění jsou jednou z oblastí, kde využíváme generativní předtrénink.

Openai 2

Problém zarovnání

Problém zarovnání je jednou z obtíží generativního předtréninku. To se týká obtížnosti přiřazování rozdělení pravděpodobnosti modelu k rozdělení skutečných dat.
Jinými slovy, odpovědi generované modelem by měly být více lidské.

Model může příležitostně poskytnout neočekávané nebo nesprávné reakce. A to může být způsobeno různými příčinami, jako je zkreslení trénovacích dat nebo nedostatečné povědomí o kontextu modelu. Aby se zlepšila kvalita jazykových modelů, musí být vyřešen problém se zarovnáním.

K překonání tohoto problému používají jazykové modely jako ChatGPT techniky jemného ladění.

Jemné doladění pod dohledem

Druhá část školení ChatGPT je doladění pod dohledem. Lidští vývojáři se v tomto okamžiku zapojují do dialogů a vystupují jako lidský uživatel i jako chatbot.

Tyto rozhovory jsou zaznamenány a agregovány do datové sady. Každá ukázka školení obsahuje odlišnou historii konverzace, která se shoduje s další odpovědí lidského vývojáře sloužícího jako „chatbot“.

Účelem supervidovaného jemného ladění je maximalizovat pravděpodobnost přiřazenou k posloupnosti tokenů v přidružené odpovědi modelem. Tato metoda je známá jako „imitační učení“ nebo „klonování chování“.

Tímto způsobem se model může naučit poskytovat přirozeněji znějící a koherentní reakce. Replikuje odpovědi poskytnuté lidskými dodavateli.

Jemné doladění pod dohledem je místo, kde lze jazykový model upravit pro konkrétní úkol.

Uveďme příklad. Předpokládejme, že chceme naučit chatbota poskytovat doporučení filmů. Trénovali bychom jazykový model, aby předpovídal hodnocení filmů na základě popisů filmů. A použili bychom datovou sadu popisů filmů a hodnocení.

Algoritmus by nakonec zjistil, které aspekty filmu odpovídaly vysokému nebo špatnému hodnocení.

Po proškolení bychom mohli náš model použít k navrhování filmů lidským uživatelům. Uživatelé mohou popsat film, který se jim líbí, a chatbot by pomocí vytříbeného jazykového modelu doporučil více filmů, které jsou s ním srovnatelné.

Omezení dohledu: Distribuční posun

Jemné dolaďování pod dohledem je výuka jazykového modelu k dosažení stanoveného cíle. To je možné napájením modelu a dataset a poté jej trénovat, aby předpovídal. Tento systém má však omezení známá jako „omezení dohledu“.

Jedním z těchto omezení je „distribuční posun“. Odkazuje na možnost, že trénovací data nemusí přesně odrážet skutečné rozložení vstupů, se kterými by se model setkal.

Podívejme se na příklad z předchozího. V příkladu návrhu filmu nemusí datová sada použitá k trénování modelu přesně odrážet různé filmy a uživatelské preference, se kterými by se chatbot setkal. Chatbot nemusí fungovat tak dobře, jak bychom chtěli.

V důsledku toho se setkává se vstupy, které jsou odlišné od těch, které pozoroval během tréninku.

U řízeného učení, kdy je model trénován pouze na dané sadě instancí, tento problém nastává.

Kromě toho může model fungovat lépe tváří v tvář distribuční změně, pokud se použije posilovací učení, které mu pomůže přizpůsobit se novým kontextům a poučit se ze svých chyb.

Na základě preferencí, odměňování učení

Učení za odměnu je třetí fází školení při vývoji chatbota. Při učení o odměně se model učí maximalizovat signál odměny.

Je to skóre, které ukazuje, jak efektivně model plní úkol. Signál odměny je založen na vstupu od lidí, kteří hodnotí nebo hodnotí odpovědi modelu.

Reward learning si klade za cíl vyvinout chatbota, který produkuje vysoce kvalitní odpovědi, které preferují lidští uživatelé. K tomu slouží technika strojového učení tzv posilující učení – což zahrnuje učení ze zpětné vazby ve formě odměn — používá se k trénování modelu.

Chatbot odpovídá na dotazy uživatelů například v závislosti na jeho aktuálním uchopení úkolu, který je mu dodán při učení odměny. Poté je dán signál odměny na základě toho, jak efektivně chatbot funguje, jakmile byly odpovědi posouzeny lidskými soudci.

Tento signál odměny používá chatbot k úpravě nastavení. A zvyšuje výkon úkolů.

Některá omezení učení za odměnu

Nevýhodou učení odměn je, že zpětná vazba na odpovědi chatbota nemusí nějakou dobu přijít, protože signál odměny může být řídký a zpožděný. V důsledku toho může být náročné chatbota úspěšně vycvičit, protože může získat zpětnou vazbu na konkrétní odpovědi až mnohem později.

Dalším problémem je, že lidští soudci mohou mít různé názory nebo interpretace toho, co tvoří úspěšnou reakci, což může vést ke zkreslení signálu odměny. Aby se to zmírnilo, často jej používá několik rozhodčích k poskytnutí spolehlivějšího signálu odměny.

Co drží budoucnost?

Existuje několik potenciálních budoucích kroků k dalšímu zvýšení výkonu ChatGPT.

Pro zvýšení srozumitelnosti modelu je jednou z potenciálních budoucích cest zahrnutí více trénovacích datových sad a datových zdrojů. Je také možné zvýšit schopnost modelu porozumět a zohlednit netextové vstupy.

Jazykové modely by například mohly rozumět vizuálům nebo zvukům.

Začleněním specifických tréninkových technik lze ChatGPT také zlepšit pro určité úkoly. Může například vystupovat analýza sentimentu nebo produkce přirozeného jazyka. Závěrem lze říci, že ChatGPT a související jazykové modely jsou velkým příslibem pro pokrok.