Објашњен цео процес обуке ЦхатГПТ

Преглед садржаја[Сакрити][Прикажи]

Генеративе Претраининг+-
- Питање поравнања
Надзирано фино подешавање+-
- Ограничења надзора: Дистрибутивна смена
На основу преференција, наградите учење
Шта доноси будућност?

ЦхатГПТ је изузетан модел језика вештачке интелигенције. Сви га користимо да нам помогне у разним задацима.

Да ли сте се икада запитали како је обучено да производи одговоре који изгледају тако људски? У овом чланку ћемо испитати обуку ЦхатГПТ-а.

Објаснићемо како је еволуирао у један од најистакнутијих језички модели. Док истражујемо интригантан свет ЦхатГПТ-а, дођите на пут откривања.

Преглед обуке

ЦхатГПТ је модел обраде природног језика.

Са ЦхатГПТ-ом можемо да се укључимо у интерактивне дијалоге и дискусије налик људима. Користи приступ сличан оном Упутите ГПТ, што је најсавременији језички модел. Развијен је непосредно пре ЦхатГПТ-а.

Користи занимљивији метод. Ово омогућава природне интеракције корисника. Дакле, то је савршен алат за разне апликације као што су цхатботови и виртуелни асистенти.

ЦхатГПТ-ова процедура обуке је процес у више фаза. Генеративна предтренинг је први корак у обуци ЦхатГПТ-а.

У овој фази, модел се обучава коришћењем великог корпуса текстуалних података. Затим, модел открива статистичке корелације и обрасце пронађене у природном језику. Дакле, можемо имати граматички тачан и кохерентан одговор.

Затим следимо корак надгледаног финог подешавања. У овом делу модел се обучава за одређени задатак. На пример, може да изврши превод језика или одговара на питања.

Коначно, ЦхатГПТ користи учење за награђивање из повратних информација људи.

Сада, хајде да испитамо ове кораке.

Генеративе Претраининг

Почетни ниво обуке је Генеративни претренинг. То је уобичајена метода за обуку језичких модела. За креирање секвенци токена, метода примењује „парадигму предвиђања следећег корака“.

Шта то значи?

Сваки токен је јединствена променљива. Они представљају реч или део речи. Модел покушава да одреди која реч ће највероватније доћи следећа с обзиром на речи пре ње. Користи расподелу вероватноће за све термине у свом низу.

Сврха језичких модела је да конструишу секвенце токена. Ове секвенце треба да представљају обрасце и структуре људског језика. Ово је могуће обучавањем модела на огромним количинама текстуалних података.

Затим се ови подаци користе да би се разумело како се речи дистрибуирају у језику.

Током обуке, модел мења параметре дистрибуције вероватноће.

И, покушава да смањи разлику између очекиване и стварне дистрибуције речи у тексту. Ово је могуће уз употребу функције губитка. Функција губитка израчунава разлику између очекиване и стварне дистрибуције.

Обрада природног језика рачунарски вид су једна од области где користимо генеративну претренинг.

Опенаи 2

Питање поравнања

Проблем усклађивања је једна од потешкоћа у генеративном претренингу. Ово се односи на потешкоће у усклађивању дистрибуције вероватноће модела са дистрибуцијом стварних података.
Другим речима, генерисани одговори модела би требало да буду сличнији људима.

Модел може повремено да пружи неочекиване или неодговарајуће одговоре. А ово може бити узроковано разним узроцима, као што су пристрасност података о обуци или недостатак свести о контексту код модела. Проблем усклађивања се мора решити да би се побољшао квалитет језичких модела.

Да би превазишли овај проблем, модели језика као што је ЦхатГПТ користе технике финог подешавања.

Надзирано фино подешавање

Други део ЦхатГПТ обуке је надгледано фино подешавање. Људски програмери учествују у дијалогу у овом тренутку, делујући и као људски корисник и као робот за ћаскање.

Ови разговори се снимају и обједињују у скуп података. Сваки узорак обуке укључује различиту историју разговора упарен са следећим одговором људског програмера који служи као „бот за ћаскање“.

Сврха надгледаног финог подешавања је да се максимизира вероватноћа додељена низу токена у повезаном одговору од стране модела. Овај метод је познат као „учење имитацијом“ или „клонирање понашања“.

На овај начин модел може научити да пружи природније и кохерентније одговоре. Реплицира одговоре које су дали људски уговарачи.

Надзирано фино подешавање је место где се језички модел може прилагодити за одређени задатак.

Хајде да дамо пример. Претпоставимо да желимо да научимо цхатбот да даје препоруке за филмове. Обучили бисмо језички модел да предвиђа оцене филмова на основу описа филмова. И, користили бисмо скуп података описа и оцена филмова.

Алгоритам би на крају открио који аспекти филма одговарају високим или лошим оценама.

Након што је обучен, могли бисмо да користимо наш модел да предложимо филмове људским корисницима. Корисници могу описати филм у којем уживају, а цхатбот би користио префињен језички модел да препоручи више филмова који су упоредиви са њим.

Ограничења надзора: Дистрибутивна смена

Надзирано фино подешавање је подучавање језичког модела да изврши одређени циљ. Ово је могуће храњењем модела а скуп података а затим га обучавати да прави предвиђања. Овај систем, међутим, има ограничења позната као „ограничења надзора“.

Једно од ових ограничења је „промена дистрибуције“. Односи се на могућност да подаци о обуци можда не одражавају тачно дистрибуцију инпута у стварном свету на које би модел наишао.

Погледајмо претходни пример. У примеру предлога филма, скуп података који се користи за обуку модела можда неће тачно одражавати разноврсност филмова и корисничких преференција на које би цхатбот наишао. Цхатбот можда неће радити онолико добро колико бисмо желели.

Као резултат, он се сусреће са инпутима који су различити од оних које је приметио током тренинга.

За надгледано учење, када је модел обучен само на датом скупу инстанци, јавља се овај проблем.

Поред тога, модел би могао боље да функционише када се суочи са променом дистрибуције ако се користи учење уз помоћ да би се прилагодио новим контекстима и учио из својих грешака.

На основу преференција, наградите учење

Учење за награђивање је трећа фаза обуке у развоју цхат бота. У учењу награђивања, модел се учи да максимизира сигнал награде.

То је резултат који показује колико ефикасно модел обавља посао. Сигнал награде је заснован на уносу људи који оцењују или процењују одговоре модела.

Учење награђивања има за циљ да развије цхатбот који производи висококвалитетне одговоре које људски корисници преферирају. Да бисте то урадили, техника машинског учења тзв учење са појачањем—што укључује учење из повратних информација у облику награда—користи се за обуку модела.

Цхатбот одговара на упите корисника, на пример, у зависности од тренутног разумевања задатка, који му се доставља током учења за награђивање. Сигнал за награду се затим даје на основу тога колико ефикасно чет-бот ради након што људске судије процене одговоре.

Овај наградни сигнал користи цхатбот да измени своја подешавања. И, побољшава перформансе задатака.

Нека ограничења у учењу награђивања

Недостатак учења о награђивању је тај што повратне информације о одговорима цхатбот-а можда неће стићи неко време јер сигнал за награду може бити реткост и одложен. Као резултат тога, може бити изазовно успешно обучити цхатбот јер можда неће добити повратне информације о одређеним одговорима много касније.

Друго питање је да људске судије могу имати различите погледе или тумачења онога што чини успешан одговор, што може довести до пристрасности у сигналу награде. Да би се ово умањило, неколико судија га често користи да испоручи поузданији сигнал за награду.

Шта доноси будућност?

Постоји неколико потенцијалних будућих корака за даље побољшање перформанси ЦхатГПТ-а.

Да би се повећало разумевање модела, један потенцијални будући пут је да се укључи више скупова података за обуку и извора података. Такође је могуће повећати капацитет модела да разуме и узме у обзир нетекстуалне уносе.

На пример, језички модели могу да разумеју визуелне или звукове.

Укључујући специфичне технике обуке, ЦхатГПТ се такође може побољшати за одређене задатке. На пример, може да ради анализа сентимента или продукција природног језика. У закључку, ЦхатГПТ и сродни модели језика показују велика обећања за напредак.