Класически проблем в изкуствения интелект е преследването на машина, която може да разбира човешкия език.
Например, когато търсите „италиански ресторанти наблизо“ в любимата ви търсачка, алгоритъмът трябва да анализира всяка дума във вашата заявка и да изведе съответните резултати. Прилично приложение за превод ще трябва да разбере контекста на определена дума на английски и по някакъв начин да отчете разликите в граматиката между езиците.
Всички тези задачи и много други попадат в подполето на компютърните науки, известно като Natural Language Processing или НЛП. Напредъкът в НЛП доведе до широк спектър от практически приложения от виртуални асистенти като Alexa на Amazon до филтри за спам, които откриват злонамерен имейл.
Най-скорошният пробив в НЛП е идеята за a голям езиков модел или LLM. LLM като GPT-3 са станали толкова мощни, че изглежда успяват в почти всяка задача или случай на използване на НЛП.
В тази статия ще разгледаме какво точно представляват LLM, как се обучават тези модели и текущите ограничения, които имат.
Какво е голям езиков модел?
В основата си езиковият модел е просто алгоритъм, който знае колко вероятно е поредица от думи да е валидно изречение.
Много прост езиков модел, обучен върху няколкостотин книги, би трябвало да може да каже, че „Той се прибра вкъщи“ е по-валидно от „Вкъщи си отиде той“.
Ако заменим сравнително малкия набор от данни с масивен набор от данни, извлечен от интернет, започваме да се доближаваме до идеята за голям езиков модел.
Използването на невронни мрежи, изследователите могат да обучават LLM на голямо количество текстови данни. Поради количеството текстови данни, които моделът е видял, LLM става много добър в предвиждането на следващата дума в последователност.
Моделът става толкова сложен, че може да изпълнява много задачи на НЛП. Тези задачи включват обобщаване на текст, създаване на ново съдържание и дори симулиране на човешки разговор.
Например, изключително популярният езиков модел GPT-3 е обучен с над 175 милиарда параметъра и се счита за най-напредналия езиков модел досега.
Той може да генерира работещ код, да пише цели статии и може да се опита да отговори на въпроси по всяка тема.
Как се обучават LLM?
Накратко се спряхме на факта, че LLM дължат голяма част от силата си на размера на техните данни за обучение. Все пак има причина да ги наричаме „големи“ езикови модели.
Предварително обучение с трансформаторна архитектура
По време на етапа на предварително обучение LLM се запознават със съществуващите текстови данни, за да научат общата структура и правилата на даден език.
През последните няколко години LLM бяха предварително обучени за масиви от данни, които покриват значителна част от обществения интернет. Например, езиковият модел на GPT-3 беше обучен върху данни от Често обхождане набор от данни, набор от уеб публикации, уеб страници и дигитализирани книги, извлечени от над 50 милиона домейна.
След това масивният набор от данни се въвежда в модел, известен като a трансформатор. Трансформаторите са вид дълбока невронна мрежа който работи най-добре за последователни данни.
Трансформаторите използват енкодер-декодер архитектура за обработка на вход и изход. По същество трансформаторът съдържа две невронни мрежи: енкодер и декодер. Кодерът може да извлече значението на въведения текст и да го съхрани като вектор. След това декодерът получава вектора и произвежда своята интерпретация на текста.
Въпреки това ключовата концепция, която позволи на трансформаторната архитектура да работи толкова добре, е добавянето на a механизъм за самовнимание. Концепцията за самовнимание позволи на модела да обърне внимание на най-важните думи в дадено изречение. Механизмът дори отчита теглата между думите, които са далеч една от друга последователно.
Друго предимство на самовниманието е, че процесът може да бъде паралелен. Вместо да обработват последователни данни в ред, трансформаторните модели могат да обработват всички входове наведнъж. Това позволява на трансформаторите да се обучават с огромни количества данни относително бързо в сравнение с други методи.
Фина настройка
След етапа на предварително обучение можете да изберете да въведете нов текст за базовия LLM, по който да обучавате. Ние наричаме този процес фина настройка и често се използва за по-нататъшно подобряване на резултатите от LLM по конкретна задача.
Например, може да искате да използвате LLM, за да генерирате съдържание за вашия Twitter акаунт. Можем да предоставим на модела няколко примера за вашите предишни туитове, за да му дадем представа за желания резултат.
Има няколко различни вида фина настройка.
Малкократно обучение се отнася до процеса на даване на модел на малък брой примери с очакването, че езиковият модел ще разбере как да направи подобен изход. Еднократно обучение е подобен процес, с изключение на предоставения само един пример.
Ограничения на големите езикови модели
LLM като GPT-3 са способни да изпълняват голям брой случаи на употреба дори без фина настройка. Въпреки това, тези модели все още идват със собствен набор от ограничения.
Липса на семантично разбиране на света
На повърхността LLM изглежда показват интелигентност. Тези модели обаче не работят по същия начин човешки мозък прави. LLM разчитат единствено на статистически изчисления, за да генерират резултат. Те нямат способността да разсъждават сами върху идеи и концепции.
Поради това LLM може да извежда безсмислени отговори, просто защото думите изглеждат „правилни“ или „статистически вероятни“, когато са поставени в този конкретен ред.
Халюцинации
Модели като GPT-3 също страдат от неточни отговори. LLM могат да страдат от феномен, известен като халюцинация където моделите извеждат фактически неправилен отговор без никакво съзнание, че отговорът няма основа в реалността.
Например, потребител може да помоли модела да обясни мислите на Стив Джобс за най-новия iPhone. Моделът може да генерира оферта от нищото въз основа на своите данни за обучение.
Пристрастия и ограничени познания
Подобно на много други алгоритми, големите езикови модели са склонни да наследяват отклоненията, присъстващи в данните за обучение. Тъй като започваме да разчитаме повече на LLM за извличане на информация, разработчиците на тези модели трябва да намерят начини да смекчат потенциално вредните ефекти от пристрастните отговори.
В подобно качество, слепите петна на данните за обучение на модела също ще възпрепятстват самия модел. В момента големите езикови модели отнемат месеци за обучение. Тези модели също разчитат на набори от данни, които са с ограничен обхват. Ето защо ChatGPT има само ограничени познания за събития, случили се след 2021 г.
Заключение
Големите езикови модели имат потенциала наистина да променят начина, по който взаимодействаме с технологиите и нашия свят като цяло.
Огромното количество налични данни в интернет даде на изследователите начин да моделират сложността на езика. По пътя обаче тези езикови модели изглежда са възприели едно човешко разбиране за света такъв, какъвто е.
Тъй като обществеността започва да се доверява на тези езикови модели, за да осигурят точен резултат, изследователите и разработчиците вече намират начини да добавят парапети, така че технологията да остане етична.
Какво мислите, че е бъдещето на LLM?
Оставете коментар