Вялікія моўныя мадэлі: усё, што вам трэба ведаць

Змест[Схаваць][Паказаць]

Што такое вялікая мадэль мовы?
Як навучаюцца магістра?+-
- Папярэдняя падрыхтоўка з Transformer Architecture
- Тонкая налада
Абмежаванні вялікіх моўных мадэляў+-
заключэнне

Класічнай праблемай штучнага інтэлекту з'яўляецца пошук машыны, якая можа разумець чалавечую мову.

Напрыклад, пры пошуку «бліжэйшых італьянскіх рэстаранаў» у вашай любімай пошукавай сістэме алгарытм павінен прааналізаваць кожнае слова ў вашым запыце і вывесці адпаведныя вынікі. Прыстойнае прыкладанне для перакладу павінна разумець кантэкст канкрэтнага слова на англійскай мове і нейкім чынам улічваць адрозненні ў граматыцы паміж мовамі.

Усе гэтыя задачы і многае іншае адносяцца да падполля інфарматыкі, вядомага як Апрацоўка натуральнай мовы або НЛП. Дасягненні НЛП прывялі да шырокага спектру практычных прымянення ад віртуальных памочнікаў, такіх як Alexa Amazon, да фільтраў спаму, якія выяўляюць шкоднасную электронную пошту.

Апошнім прарывам у НЛП з'яўляецца ідэя а вялікая мадэль мовы або LLM. LLM, такія як GPT-3, сталі настолькі магутнымі, што, здаецца, яны дасягаюць поспеху практычна ў любой задачы або выпадку выкарыстання НЛП.

У гэтым артыкуле мы разгледзім, што такое LLM, як гэтыя мадэлі навучаюцца і якія ў іх цяперашнія абмежаванні.

Што такое вялікая мадэль мовы?

Па сваёй сутнасці моўная мадэль - гэта проста алгарытм, які ведае, наколькі верагодна, што паслядоўнасць слоў з'яўляецца сапраўдным сказам.

Вельмі простая моўная мадэль, напрацаваная на некалькіх сотнях кніг, павінна сказаць, што «Ён пайшоў дадому» больш слушнае, чым «Ён пайшоў дадому».

Калі мы заменім адносна невялікі набор даных вялізным наборам даных, узятых з Інтэрнэту, мы пачнем набліжацца да ідэі вялікая мадэль мовы.

Выкарыстанне нейронавыя сеткі, даследчыкі могуць навучаць LLM на вялікай колькасці тэкставых даных. З-за колькасці тэкставых даных, якія бачыла мадэль, LLM становіцца вельмі добрым у прагназаванні наступнага слова ў паслядоўнасці.

Мадэль становіцца настолькі складанай, што можа выконваць мноства задач НЛП. Гэтыя задачы ўключаюць абагульняючы тэкст, стварэнне новага кантэнту і нават мадэляванне чалавечай размовы.

вялікія моўныя мадэлі могуць ствараць новы кантэнт на аснове падказак

Напрыклад, вельмі папулярная моўная мадэль GPT-3 навучаецца з больш чым 175 мільярдамі параметраў і лічыцца самай дасканалай моўнай мадэллю на сённяшні дзень.

Ён здольны ствараць працоўны код, пісаць цэлыя артыкулы і можа спрабаваць адказваць на пытанні па любой тэме.

Як навучаюцца магістра?

Мы коратка закранулі той факт, што LLM шмат у чым абавязаны сваёй уладай памеру сваіх навучальных дадзеных. У рэшце рэшт, ёсць прычына, чаму мы называем іх «вялікімі» моўнымі мадэлямі.

Папярэдняя падрыхтоўка з Transformer Architecture

На этапе папярэдняй падрыхтоўкі магістранты знаёмяцца з існуючымі тэкставымі дадзенымі, каб вывучыць агульную структуру і правілы мовы.

У апошнія некалькі гадоў магістранты праходзілі папярэднюю падрыхтоўку па наборах даных, якія ахопліваюць значную частку публічнага Інтэрнэту. Напрыклад, моўная мадэль GPT-3 была навучана на дадзеных з Агульнае поўзанне набор дадзеных, набор вэб-паведамленняў, вэб-старонак і алічбаваных кніг, узятых з больш чым 50 мільёнаў даменаў.

Затым масіўны набор даных уводзіцца ў мадэль, вядомую як a трансфарматар. Трансформеры - разнавіднасць глыбокая нейронавая сетка што лепш за ўсё працуе для паслядоўных дадзеных.

вялікія моўныя мадэлі выкарыстоўваюць трансфарматары

Трансформеры выкарыстоўваюць an архітэктура кадавальнік-дэкодэр для апрацоўкі ўводу і вываду. Па сутнасці, трансфарматар змяшчае дзве нейронныя сеткі: кадавальнік і дэкодэр. Кадавальнік можа здабываць сэнс уведзенага тэксту і захоўваць яго як вектар. Затым дэкодэр атрымлівае вектар і вырабляе сваю інтэрпрэтацыю тэксту.

Аднак ключавой канцэпцыяй, якая дазволіла архітэктуры трансфарматара працаваць так добра, з'яўляецца даданне a механізм самакіравання. Канцэпцыя ўвагі да сябе дазваляла мадэлі звярнуць увагу на найбольш важныя словы ў дадзеным сказе. Механізм нават улічвае вагу паміж словамі, аддаленымі паслядоўна.

Яшчэ адна перавага ўвагі да сябе заключаецца ў тым, што працэс можна паралелізаваць. Замест таго, каб паслядоўна апрацоўваць дадзеныя па парадку, мадэлі трансфарматараў могуць апрацоўваць усе ўваходы адразу. Гэта дазваляе трансфарматарам трэніравацца на велізарных аб'ёмах дадзеных адносна хутка ў параўнанні з іншымі метадамі.

Тонкая налада

Пасля этапу папярэдняга навучання вы можаце ўвесці новы тэкст для базавага LLM для навучання. Мы называем гэты працэс тонкая налада і часта выкарыстоўваецца для далейшага паляпшэння вынікаў LLM па канкрэтнай задачы.

Напрыклад, вы можаце выкарыстоўваць LLM для стварэння кантэнту для вашага ўліковага запісу Twitter. Мы можам даць мадэлі некалькі прыкладаў вашых папярэдніх твітаў, каб даць ёй уяўленне аб жаданым выніку.

Ёсць некалькі розных тыпаў тонкай налады.

вялікія моўныя мадэлі здольныя засвоіць некалькі стрэлаў

Некалькі стрэлаў навучання адносіцца да працэсу прадастаўлення мадэлі невялікай колькасці прыкладаў з разлікам на тое, што моўная мадэль высветліць, як зрабіць падобны вынік. Аднаразовае навучанне гэта падобны працэс, за выключэннем таго, што прадстаўлены толькі адзін прыклад.

Абмежаванні вялікіх моўных мадэляў

LLM, такія як GPT-3, здольныя выконваць вялікую колькасць варыянтаў выкарыстання нават без тонкай налады. Тым не менш, гэтыя мадэлі па-ранейшаму маюць уласны набор абмежаванняў.

Адсутнасць семантычнага разумення свету

На паверхні здаецца, што LLM дэманструюць інтэлект. Аднак гэтыя мадэлі не працуюць аднолькава чалавечы мозг робіць. LLMs належаць выключна на статыстычныя вылічэнні для атрымання вынікаў. Яны не здольныя разважаць над ідэямі і канцэпцыямі самастойна.

З-за гэтага LLM можа выдаваць бессэнсоўныя адказы проста таму, што словы здаюцца «правільнымі» або «статыстычна верагоднымі», калі іх размясціць у такім парадку.

галюцынацыі

Такія мадэлі, як GPT-3, таксама пакутуюць ад недакладных адказаў. LLMs можа пакутаваць ад з'явы, вядомай як галюцынацыя дзе мадэлі выводзяць фактычна няправільны адказ, не ведаючы, што адказ не мае ніякай падставы ў рэчаіснасці.

Напрыклад, карыстальнік можа папрасіць мадэль растлумачыць думкі Стыва Джобса аб апошнім iPhone. Мадэль можа генераваць цытату з паветра на аснове сваіх навучальных дадзеных.

Прадузятасці і абмежаваныя веды

Як і многія іншыя алгарытмы, вялікія моўныя мадэлі схільныя ўспадкоўваць зрушэнні, прысутныя ў навучальных дадзеных. Паколькі мы пачынаем усё больш спадзявацца на LLM для атрымання інфармацыі, распрацоўшчыкі гэтых мадэляў павінны знайсці спосабы змякчыць патэнцыйна шкодныя наступствы неаб'ектыўных адказаў.

У той жа якасці сляпыя плямы навучальных дадзеных мадэлі таксама будуць перашкаджаць самой мадэлі. У цяперашні час для падрыхтоўкі вялікіх моўных мадэляў патрэбныя месяцы. Гэтыя мадэлі таксама абапіраюцца на наборы даных з абмежаваным аб'ёмам. Вось чаму ChatGPT мае толькі абмежаваныя веды аб падзеях, якія адбыліся за 2021 год.

заключэнне

Вялікія моўныя мадэлі могуць па-сапраўднаму змяніць тое, як мы ўзаемадзейнічаем з тэхналогіямі і светам у цэлым.

Велізарная колькасць дадзеных, даступных у Інтэрнэце, дала даследчыкам магчымасць змадэляваць складанасці мовы. Аднак па дарозе гэтыя моўныя мадэлі, здаецца, падхапілі чалавечае разуменне свету такім, які ён ёсць.

Калі грамадскасць пачынае давяраць, што гэтыя моўныя мадэлі забяспечваюць дакладны вынік, даследчыкі і распрацоўшчыкі ўжо знаходзяць спосабы дадаць агароджы, каб тэхналогія заставалася этычнай.

Як вы думаеце, якая будучыня LLM?

Вялікія моўныя мадэлі: усё, што вам трэба ведаць

Што такое вялікая мадэль мовы?

Як навучаюцца магістра?