Тлумачэнне ўсяго працэсу навучання ChatGPT

Змест[Схаваць][Паказаць]

Генератыўная предподготовка+-
- Праблема выраўноўвання
Дакладная налада пад наглядам+-
- Абмежаванні нагляду: зрух размеркавання
На аснове пераваг, узнагароджвайце навучанне
Што мае будучыня?

ChatGPT - гэта выдатная мадэль мовы штучнага інтэлекту. Мы ўсе выкарыстоўваем яго, каб дапамагчы нам у розных задачах.

Вы калі-небудзь пыталіся, як яго навучылі даваць адказы, якія здаюцца такімі чалавечымі? У гэтым артыкуле мы разгледзім навучанне ChatGPT.

Мы растлумачым, як ён ператварыўся ў адзін з самых выбітных моўныя мадэлі. Пакуль мы даследуем інтрыгуючы свет ChatGPT, адпраўляйцеся ў падарожжа адкрыццяў.

Агляд навучання

ChatGPT - гэта мадэль апрацоўкі натуральнай мовы.

З дапамогай ChatGPT мы можам весці інтэрактыўныя дыялогі і чалавечыя дыскусіі. Ён выкарыстоўвае падыход, аналагічны таму Даручыць GPT, якая з'яўляецца перадавой мадэллю мовы. Ён быў распрацаваны незадоўга да ChatGPT.

Ён выкарыстоўвае больш прывабны метад. Гэта забяспечвае натуральнае ўзаемадзеянне карыстальнікаў. Такім чынам, гэта ідэальны інструмент для розных прыкладанняў, такіх як чат-боты і віртуальныя памочнікі.

Працэдура навучання ChatGPT - гэта шматступенны працэс. Generative Pretraining - гэта першы крок у навучанні ChatGPT.

На гэтым этапе мадэль навучаецца з выкарыстаннем значнага корпуса тэкставых даных. Затым мадэль выяўляе статыстычныя карэляцыі і заканамернасці, выяўленыя ў натуральнай мове. Такім чынам, мы можам атрымаць граматычна дакладны і звязны адказ.

Затым мы выконваем этап кантраляванай тонкай налады. У гэтай частцы мадэль навучаецца выкананню пэўнай задачы. Напрыклад, ён можа выконваць моўны пераклад або адказваць на пытанні.

Нарэшце, ChatGPT выкарыстоўвае ўзнагароджанне, навучанне з водгукаў людзей.

Зараз давайце разгледзім гэтыя крокі.

Генератыўная предподготовка

Пачатковы ўзровень навучання - Generative Pretraining. Гэта звычайны метад навучання моўных мадэляў. Каб стварыць паслядоўнасць токенаў, метад прымяняе «парадыгму прагназавання наступнага кроку».

What does it mean?

Кожны токен - гэта ўнікальная зменная. Яны абазначаюць слова або частку слова. Мадэль спрабуе вызначыць, якое слова, хутчэй за ўсё, будзе наступным, улічваючы словы перад ім. Ён выкарыстоўвае размеркаванне імавернасці па ўсіх тэрмінах у сваёй паслядоўнасці.

Мэта моўных мадэляў - пабудаваць паслядоўнасці лексем. Гэтыя паслядоўнасці павінны прадстаўляць шаблоны і структуры чалавечай мовы. Гэта магчыма шляхам навучання мадэляў на велізарнай колькасці тэкставых даных.

Затым гэтыя даныя выкарыстоўваюцца, каб зразумець, як словы распаўсюджваюцца ў мове.

Падчас навучання мадэль змяняе параметры размеркавання імавернасцей.

І ён спрабуе паменшыць розніцу паміж чаканым і фактычным размеркаваннем слоў у тэксце. Гэта магчыма з выкарыстаннем функцыі страты. Функцыя страт вылічвае розніцу паміж чаканым і фактычным размеркаваннем.

Апрацоўка натуральнай мовы і машыннае зрок з'яўляюцца адной з абласцей, дзе мы выкарыстоўваем Generative Pretraining.

Адкрыццё 2

Праблема выраўноўвання

Праблема выраўноўвання - адна з цяжкасцей генератыўнага папярэдняга навучання. Гэта адносіцца да цяжкасцей у адпаведнасці размеркавання верагоднасці мадэлі з размеркаваннем фактычных даных.
Іншымі словамі, згенераваныя мадэллю адказы павінны быць больш падобнымі на чалавека.

Мадэль можа часам даваць нечаканыя або няправільныя адказы. І гэта можа быць выклікана рознымі прычынамі, такімі як прадузятасць навучальных даных або адсутнасць кантэкстнай дасведчанасці мадэлі. Для павышэння якасці моўных мадэляў неабходна вырашыць праблему ўзгаднення.

Каб вырашыць гэтую праблему, такія моўныя мадэлі, як ChatGPT, выкарыстоўваюць метады тонкай налады.

Дакладная налада пад наглядам

Другая частка навучання ChatGPT - гэта дакладная налада пад наглядам. Чалавек-распрацоўшчыкі ўдзельнічаюць у дыялогу ў гэты момант, дзейнічаючы як чалавек-карыстальнік, так і чат-бот.

Гэтыя размовы запісваюцца і аб'ядноўваюцца ў набор даных. Кожны навучальны ўзор уключае асобную гісторыю размоў, якая супадае з наступным адказам чалавека-распрацоўшчыка, які выступае ў якасці «чат-бота».

Мэта кантраляванай дакладнай налады - максымізаваць верагоднасць, прызначаную мадэллю паслядоўнасці токенаў у звязаным адказе. Гэты метад вядомы як «імітацыя навучання» або «кланіраванне паводзін».

Такім чынам мадэль можа навучыцца даваць больш натуральныя і паслядоўныя адказы. Ён паўтарае адказы падрадчыкаў.

Кантраляваная тонкая налада - гэта тое, дзе моўную мадэль можна наладзіць для пэўнай задачы.

Прывядзем прыклад. Дапусцім, мы хочам навучыць чат-бота даваць рэкамендацыі па фільмах. Мы б навучылі моўную мадэль прагназаваць рэйтынгі фільмаў на аснове апісанняў фільмаў. І мы б выкарысталі набор даных апісанняў і рэйтынгаў фільмаў.

У канчатковым выніку алгарытм вызначыць, якія аспекты фільма адпавядаюць высокім ці нізкім рэйтынгам.

Пасля навучання мы можам выкарыстоўваць нашу мадэль, каб прапаноўваць фільмы карыстальнікам. Карыстальнікі могуць апісваць фільм, які ім падабаецца, і чат-бот будзе выкарыстоўваць удасканаленую моўную мадэль, каб рэкамендаваць больш фільмаў, якія з ёй можна параўнаць.

Абмежаванні нагляду: зрух размеркавання

Даводка пад кантролем - гэта навучанне моўнай мадэлі для выканання вызначанай мэты. Гэта магчыма, калі накарміць мадэль a dataset а затым навучыць яго рабіць прагнозы. Аднак гэтая сістэма мае абмежаванні, вядомыя як «абмежаванні кантролю».

Адно з такіх абмежаванняў - «зрух размеркавання». Гэта адносіцца да магчымасці таго, што навучальныя даныя могуць недакладна адлюстроўваць рэальнае размеркаванне ўваходных дадзеных, з якімі сутыкнецца мадэль.

Давайце разгледзім ранейшы прыклад. У прыкладзе прапановы фільма набор даных, які выкарыстоўваецца для навучання мадэлі, можа недакладна адлюстроўваць разнастайнасць фільмаў і пераваг карыстальнікаў, з якімі сутыкнецца чат-бот. Чат-бот можа працаваць не так добра, як хацелася б.

У выніку ён сустракае ўваходныя дадзеныя, якія адрозніваюцца ад тых, якія ён назіраў падчас навучання.

Для навучання пад кантролем, калі мадэль навучаецца толькі на зададзеным наборы асобнікаў, узнікае гэтая праблема.

Акрамя таго, мадэль можа працаваць лепш ва ўмовах змены размеркавання, калі навучанне з падмацаваннем выкарыстоўваецца, каб дапамагчы ёй адаптавацца да новых умоў і вучыцца на сваіх памылках.

На аснове пераваг, узнагароджвайце навучанне

Навучанне ўзнагароджанню - гэта трэці этап навучання ў распрацоўцы чат-бота. Пры навучанні ўзнагароджанню мадэль вучаць максымізаваць сігнал узнагароджання.

Гэта адзнака, якая паказвае, наколькі эфектыўна мадэль выконвае працу. Сігнал аб узнагароджанні заснаваны на даных людзей, якія ацэньваюць або ацэньваюць адказы мадэлі.

Навучанне з узнагародай накіравана на распрацоўку чат-бота, які дае высакаякасныя адказы, якім аддаюць перавагу людзі. Для гэтага выкарыстоўваецца тэхніка машыннага навучання пад назвай навучанне з падмацаваннем - якое ўключае навучанне з зваротнай сувязі у выглядзе ўзнагарод — выкарыстоўваецца для навучання мадэлі.

Чат-бот адказвае на запыты карыстальнікаў, напрыклад, у залежнасці ад яго бягучага разумення задачы, якая даецца яму падчас навучання ўзнагароджання. Пасля таго, як адказы былі ацэнены суддзямі-людзьмі, у залежнасці ад таго, наколькі эфектыўна працуе чат-бот, выдаецца сігнал аб узнагароджанні.

Гэты сігнал узнагароды выкарыстоўваецца чат-ботам для змены налад. І гэта павышае прадукцыйнасць задачы.

Некаторыя абмежаванні на навучанне з узнагародай

Недахопам навучання ўзнагароджанню з'яўляецца тое, што зваротная сувязь на адказы чат-бота можа не паступаць некаторы час, паколькі сігнал узнагароджання можа быць рэдкім і затрымлівацца. У выніку можа быць складана паспяхова навучыць чат-бота, таму што ён можа атрымаць зваротную сувязь па канкрэтных адказах значна пазней.

Іншая праблема заключаецца ў тым, што суддзі-людзі могуць мець розныя погляды або інтэрпрэтацыі таго, што робіць паспяховы адказ, што можа прывесці да прадузятасці ў сігнале ўзнагароджання. Каб паменшыць гэта, ён часта выкарыстоўваецца некалькімі суддзямі для атрымання больш надзейнага сігналу ўзнагароджання.

Што мае будучыня?

Ёсць некалькі магчымых будучых крокаў для далейшага павышэння прадукцыйнасці ChatGPT.

Каб пашырыць разуменне мадэлі, адным з магчымых будучых шляхоў з'яўляецца ўключэнне больш навучальных набораў даных і крыніц даных. Магчыма таксама павышэнне здольнасці мадэлі разумець і ўлічваць нетэкставыя ўводы.

Напрыклад, моўныя мадэлі могуць разумець візуальныя эфекты або гукі.

Дзякуючы ўключэнню спецыяльных метадаў навучання ChatGPT таксама можна палепшыць для пэўных задач. Напрыклад, можа выконваць аналіз настрояў або вытворчасць натуральнай мовы. У заключэнне, ChatGPT і звязаныя моўныя мадэлі дэманструюць вялікія перспектывы для прасоўвання.