Модели со големи јазици: Сè што треба да знаете

Содржина[Крие][Прикажи]

Што е модел на голем јазик?
Како се обучуваат LLMs?+-
- Пред-обука со трансформаторска архитектура
- Фино подесување
Ограничувања на големи јазични модели+-
Заклучок

Класичен проблем во вештачката интелигенција е потрагата по машина која може да го разбере човечкиот јазик.

На пример, кога пребарувате „италијански ресторани во близина“ на вашиот омилен пребарувач, алгоритам треба да го анализира секој збор во вашето барање и да ги даде соодветните резултати. Пристојната апликација за превод ќе мора да го разбере контекстот на одреден збор на англиски и некако да ги земе предвид разликите во граматиката помеѓу јазиците.

Сите овие задачи и многу повеќе спаѓаат во подобласта на компјутерската наука позната како Обработка на природен јазик или НЛП. Напредокот во НЛП доведе до широк спектар на практични апликации од виртуелни асистенти како Алекса на Амазон до филтри за спам што откриваат малициозни е-пошта.

Најновото откритие во НЛП е идејата за а голем јазичен модел или LLM. LLM како што е GPT-3 станаа толку моќни што се чини дека успеваат во речиси секоја NLP задача или случај на употреба.

Во оваа статија, ќе разгледаме што точно се LLM, како се обучуваат овие модели и тековните ограничувања што ги имаат.

Што е модел на голем јазик?

Во неговото јадро, јазичниот модел е едноставно алгоритам кој знае колку е веројатно низата зборови да биде валидна реченица.

Многу едноставен јазичен модел обучен на неколку стотини книги треба да може да каже дека „Тој си отиде дома“ е повалиден од „Дома отиде тој“.

Ако ја замениме релативно малата база на податоци со масивни податоци избришани од интернет, ќе почнеме да ѝ пристапуваме на идејата за голем јазичен модел.

Користење нервните мрежи, истражувачите можат да обучуваат LLM на голема количина текстуални податоци. Поради количината на текстуални податоци што моделот ги видел, LLM станува многу добар во предвидувањето на следниот збор во низа.

Моделот станува толку софистициран, што може да изврши многу NLP задачи. Овие задачи вклучуваат сумирање на текст, создавање нова содржина, па дури и симулирање на разговор сличен на човекот.

големите јазични модели можат да создадат нова содржина врз основа на инструкции

На пример, многу популарниот јазичен модел GPT-3 е обучен со над 175 милијарди параметри и се смета за најнапредниот јазичен модел досега.

Може да генерира работен код, да пишува цели статии и може да одговори на прашања за која било тема.

Како се обучуваат LLMs?

Накратко го допревме фактот дека LLM должат многу од својата моќ на големината на нивните податоци за обука. На крајот на краиштата, постои причина зошто ги нарекуваме „големи“ јазични модели.

Пред-обука со трансформаторска архитектура

За време на фазата на пред-обука, LLM се запознаваат со постоечките текстуални податоци за да ја научат општата структура и правилата на јазикот.

Во изминатите неколку години, LLM беа претходно обучени за сетови на податоци кои покриваат значителен дел од јавниот интернет. На пример, јазичниот модел на GPT-3 беше обучен на податоци од Заеднички индексирање база на податоци, корпус од веб објави, веб-страници и дигитализирани книги избришани од над 50 милиони домени.

Масивната база на податоци потоа се внесува во модел познат како a трансформатор. Трансформаторите се еден вид на длабока нервна мрежа што најдобро функционира за секвенцијални податоци.

големите јазични модели користат трансформатори

Трансформаторите користат ан архитектура на енкодер-декодер за ракување со влез и излез. Во суштина, трансформаторот содржи две невронски мрежи: енкодер и декодер. Кодерот може да го извлече значењето на влезниот текст и да го складира како вектор. Декодерот потоа го прима векторот и ја произведува неговата интерпретација на текстот.

Сепак, клучниот концепт што овозможи архитектурата на трансформаторот да работи толку добро е додавањето на a механизам за самовнимание. Концептот на само-внимание му овозможи на моделот да обрне внимание на најважните зборови во дадена реченица. Механизмот дури ги зема предвид тежините помеѓу зборовите кои се оддалечени последователно.

Друга придобивка од самовниманието е тоа што процесот може да се паралелизира. Наместо да обработуваат секвенцијални податоци по ред, моделите на трансформатори можат да ги обработуваат сите влезови одеднаш. Ова им овозможува на трансформаторите да тренираат на огромни количини на податоци релативно брзо во споредба со другите методи.

Фино подесување

По фазата на пред-тренинг, можете да изберете да воведете нов текст за основната LLM за обука. Овој процес го нарекуваме фино подесување и често се користи за понатамошно подобрување на резултатот на LLM на одредена задача.

На пример, можеби ќе сакате да користите LLM за да генерирате содржина за вашата сметка на Твитер. Можеме да му обезбедиме на моделот неколку примери од вашите претходни твитови за да му дадеме идеја за саканиот излез.

Постојат неколку различни видови на фино подесување.

големите јазични модели се способни за малку учење

Малку шут учење се однесува на процесот на давање на моделот мал број примери со очекување дека јазичниот модел ќе сфати како да направи сличен излез. Учење со еден истрел е сличен процес освен што е даден само еден пример.

Ограничувања на големи јазични модели

LLM како што е GPT-3 се способни да вршат голем број случаи на употреба дури и без фино подесување. Сепак, овие модели сè уште доаѓаат со свои ограничувања.

Недостаток на семантичко разбирање на светот

На површината, LLM се чини дека прикажуваат интелигенција. Сепак, овие модели не работат на ист начин човечки мозок прави. LLM се потпираат само на статистички пресметки за да генерираат излез. Тие немаат капацитет сами да ги резонираат идеите и концептите.

Поради ова, LLM може да даде бесмислени одговори едноставно затоа што зборовите изгледаат „точни“ или „статистички веројатни“ кога се поставени во тој конкретен редослед.

Халуцинации

Моделите како GPT-3 исто така страдаат од неточни одговори. LLM може да страдаат од феномен познат како халуцинација каде што моделите даваат фактички неточен одговор без никаква свест дека одговорот нема основа во реалноста.

На пример, корисникот може да побара од моделот да ги објасни размислувањата на Стив Џобс за најновиот iPhone. Моделот може да генерира понуда од тенок воздух врз основа на неговите податоци за обука.

Предрасуди и ограничено знаење

Како и многу други алгоритми, големите јазични модели се склони да ги наследат предрасудите присутни во податоците за обуката. Како што почнуваме да се потпираме повеќе на LLM за да добиваме информации, развивачите на овие модели треба да најдат начини да ги ублажат потенцијалните штетни ефекти од пристрасните одговори.

Во сличен капацитет, слепите точки на податоците за обука на моделот ќе го попречат и самиот модел. Во моментов, на големите јазични модели им требаат месеци за да се обучат. Овие модели исто така се потпираат на збирки на податоци кои се ограничени во опсегот. Ова е причината зошто ChatGPT има само ограничено знаење за настаните што се случиле изминатата 2021 година.

Заклучок

Големите јазични модели имаат потенцијал вистински да го променат начинот на кој комуницираме со технологијата и нашиот свет воопшто.

Огромното количество податоци достапни на интернет им овозможи на истражувачите начин да ја моделираат сложеноста на јазикот. Меѓутоа, на патот, овие јазични модели изгледаат како да имаат човечко разбирање за светот таков каков што е.

Бидејќи јавноста почнува да им верува на овие јазични модели за да обезбедат точен резултат, истражувачите и програмерите веќе наоѓаат начини да додадат заштитни огради за технологијата да остане етичка.

Што мислите, каква е иднината на LLMs?

Модели со големи јазици: Сè што треба да знаете

Што е модел на голем јазик?

Како се обучуваат LLMs?