A ChatGPT teljes képzési folyamata magyarázata

Tartalomjegyzék[Elrejt][Előadás]

Generatív előképzés+-
- Az igazítási kérdés
Felügyelt finomhangolás+-
- Felügyeleti korlátozások: Elosztási műszak
Preferenciák alapján, jutalmazza a tanulást
Mit rejt a jövő?

A ChatGPT egy figyelemre méltó mesterséges intelligencia nyelvi modell. Mindannyian arra használjuk, hogy különböző feladatokban segítsen bennünket.

Megkérdőjelezte valaha, hogyan képezték ki olyan válaszok készítésére, amelyek annyira emberinek hatnak? Ebben a cikkben a ChatGPT képzését vizsgáljuk meg.

Elmagyarázzuk, hogyan fejlődött az egyik legkiemelkedőbb nyelvi modellek. Miközben felfedezzük a ChatGPT izgalmas világát, gyere el egy felfedezőútra.

A képzés áttekintése

A ChatGPT egy természetes nyelvi feldolgozási modell.

A ChatGPT segítségével interaktív párbeszédeket és emberszerű megbeszéléseket folytathatunk. Ehhez hasonló megközelítést alkalmaz GPT utasítása, amely egy élvonalbeli nyelvi modell. Nem sokkal a ChatGPT előtt fejlesztették ki.

Lebilincselőbb módszert alkalmaz. Ez lehetővé teszi a természetes felhasználói interakciókat. Tehát tökéletes eszköz számos alkalmazáshoz, például chatbotokhoz és virtuális asszisztensekhez.

A ChatGPT képzési eljárása többlépcsős folyamat. A generatív előképzés az első lépés a ChatGPT képzésében.

Ebben a fázisban a modell betanítása jelentős szöveges adatkorpusz felhasználásával történik. Ezután a modell felfedezi a természetes nyelvben található statisztikai összefüggéseket és mintákat. Így nyelvtanilag pontos és koherens választ kaphatunk.

Ezután követjük a felügyelt finomhangolás lépését. Ebben a részben a modell egy adott feladatra van kiképezve. Például végezhet nyelvi fordítást vagy kérdések megválaszolását.

Végül a ChatGPT az emberi visszajelzésekből származó jutalom tanulást használja.

Most pedig vizsgáljuk meg ezeket a lépéseket.

Generatív előképzés

A képzés kezdeti szintje a generatív előképzés. Ez egy általános módszer a nyelvi modellek képzésére. A token sorozatok létrehozásához a módszer a „következő lépés előrejelzési paradigmáját” alkalmazza.

Mit jelent?

Minden token egyedi változó. Egy szót vagy a szó egy részét képviselik. A modell megpróbálja meghatározni, hogy az előtte lévő szavak alapján melyik szó következik a legnagyobb valószínűséggel. A valószínűségi eloszlást használja a sorozatában szereplő összes kifejezés között.

A nyelvi modellek célja token sorozatok felépítése. Ezeknek a sorozatoknak az emberi nyelv mintáit és struktúráit kell képviselniük. Ez lehetséges modellek betanításával hatalmas mennyiségű szöveges adatra.

Ezután ezeket az adatokat arra használjuk fel, hogy megértsük, hogyan oszlanak el a szavak a nyelven.

A képzés során a modell megváltoztatja a valószínűségi eloszlás paramétereit.

És megpróbálja csökkenteni a különbséget a szavak várható és tényleges eloszlása között a szövegben. Ez a veszteségfüggvény használatával lehetséges. A veszteségfüggvény kiszámítja a várható és a tényleges eloszlás közötti különbséget.

Természetes nyelvfeldolgozás és a számítógépes látás egyike azon területeknek, ahol a generatív előképzést alkalmazzuk.

Openai 2

Az igazítási kérdés

Az igazítási probléma a generatív előképzés egyik nehézsége. Ez a modell valószínűségi eloszlásának és a tényleges adatok eloszlásának összehangolásának nehézségére utal.
Más szóval, a modell által generált válaszoknak emberszerűbbnek kell lenniük.

A modell esetenként váratlan vagy helytelen válaszokat adhat. És ennek számos oka lehet, például a betanítási adatok torzítása vagy a modell kontextustudatának hiánya. Az igazítási problémát kezelni kell a nyelvi modellek minőségének javítása érdekében.

A probléma megoldása érdekében az olyan nyelvi modellek, mint a ChatGPT, finomhangolási technikákat alkalmaznak.

Felügyelt finomhangolás

A ChatGPT képzés második része a felügyelt finomhangolás. Az emberi fejlesztők ezen a ponton párbeszédet folytatnak, emberi felhasználóként és chatbotként is fellépve.

Ezeket a beszélgetéseket rögzítik és egy adathalmazba összesítik. Minden képzési minta külön beszélgetési előzményeket tartalmaz, amelyek megfelelnek a „csevegőbotként” szolgáló emberi fejlesztő következő válaszának.

A felügyelt finomhangolás célja, hogy maximalizálja a modell által a társított válaszban szereplő tokenek sorozatához rendelt valószínűséget. Ezt a módszert „utánzó tanulásnak” vagy „viselkedés klónozásnak” nevezik.

Így a modell megtanulhat természetesebb és koherensebb válaszokat adni. Megismétli az emberi vállalkozók válaszait.

A felügyelt finomhangolás során a nyelvi modell egy adott feladathoz igazítható.

Mondjunk egy példát. Tegyük fel, hogy meg akarunk tanítani egy chatbotot filmajánlások nyújtására. A nyelvi modellt arra tanítanánk, hogy a filmleírások alapján előre jelezze a filmek értékelését. És a filmleírások és -értékelések adatkészletét használnánk.

Az algoritmus végül kitalálja, hogy egy film mely aspektusai felelnek meg a magas vagy gyenge értékeléseknek.

A betanítás után modellünkkel filmeket javasolhatunk az emberi felhasználóknak. A felhasználók leírhatnak egy általuk kedvelt filmet, a chatbot pedig a kifinomult nyelvi modellt használva további, ehhez hasonló filmeket ajánlana.

Felügyeleti korlátozások: Elosztási műszak

A felügyelt finomhangolás egy nyelvi modell tanítása egy meghatározott cél megvalósítására. Ez a modell etetésével lehetséges a adatbázisba majd megtanítja előrejelzésekre. Ennek a rendszernek azonban vannak „felügyeleti korlátozásoknak” nevezett korlátai.

Az egyik ilyen korlátozás az „elosztási eltolódás”. Arra a lehetőségre utal, hogy a betanítási adatok nem tükrözik pontosan a bemenetek valós eloszlását, amellyel a modell találkozna.

Tekintsük át a korábbi példát. A filmjavaslat példájában előfordulhat, hogy a modell betanításához használt adatkészlet nem tükrözi pontosan azt a sokféle filmet és felhasználói preferenciát, amellyel a chatbot találkozna. Előfordulhat, hogy a chatbot nem teljesít olyan jól, mint szeretnénk.

Ennek eredményeként olyan bemenetekkel találkozik, amelyek eltérnek az edzés során megfigyeltektől.

Felügyelt tanulás esetén, amikor a modell csak egy adott példányhalmazon van betanítva, ez a probléma felmerül.

Ezenkívül a modell jobban teljesíthet az eloszlási változással szemben, ha megerősítő tanulást alkalmaznak az új kontextusokhoz való alkalmazkodásra és a hibáiból való tanulásra.

Preferenciák alapján, jutalmazza a tanulást

A jutalom tanulás a chatbot fejlesztésének harmadik képzési szakasza. A jutalom tanulás során a modellt arra tanítják, hogy maximalizálja a jutalomjelet.

Ez egy olyan pontszám, amely azt jelzi, hogy a modell mennyire hatékonyan végzi el a feladatot. A jutalomjel a modell válaszait értékelő vagy értékelő emberek bemenetén alapul.

A jutalom tanulás célja egy olyan chatbot kifejlesztése, amely kiváló minőségű válaszokat ad, amelyeket az emberi felhasználók kedvelnek. Ennek érdekében egy gépi tanulási technika ún megerősítő tanulás – amely magában foglalja a visszajelzésekből való tanulást jutalom formájában – a modell betanítására szolgál.

A chatbot megválaszolja a felhasználói kérdéseket, például attól függően, hogy aktuálisan érti-e a feladatot, amelyet a jutalom tanulás során kap. Ezután jutalomjelet adnak a chatbot teljesítményének hatékonysága alapján, miután az emberi bírák értékelték a válaszokat.

Ezt a jutalomjelet használja a chatbot a beállítások módosítására. És javítja a feladatok teljesítményét.

A jutalom tanulás néhány korlátja

A jutalom tanulás hátránya, hogy a chatbot válaszaira adott visszajelzés egy ideig nem érkezik meg, mivel a jutalomjel ritka és késleltethet. Ennek eredményeként kihívást jelenthet a chatbot sikeres betanítása, mert előfordulhat, hogy csak sokkal később kap visszajelzést a konkrét válaszokról.

Egy másik probléma az, hogy az emberi bírák eltérő nézetekkel vagy értelmezésekkel rendelkezhetnek arról, hogy mi a sikeres válasz, ami a jutalmazási jel torzulásához vezethet. Ennek csökkentése érdekében több bíró gyakran használja, hogy megbízhatóbb jutalomjelzést adjon.

Mit rejt a jövő?

Számos lehetséges jövőbeli lépés van a ChatGPT teljesítményének további javítására.

A modell megértésének növelése érdekében az egyik lehetséges jövőbeli út több képzési adatkészlet és adatforrás bevonása. A modell képességének növelése a nem szöveges inputok megértésére és figyelembe vételére is lehetséges.

Például a nyelvi modellek megérthetik a látványt vagy a hangokat.

Speciális képzési technikák beépítésével a ChatGPT bizonyos feladatokra is javítható. Például képes teljesíteni hangulat elemzés vagy természetes nyelvi produkció. Összefoglalva, a ChatGPT és a kapcsolódó nyelvi modellek nagy ígéretet mutatnak a fejlődésben.