Велики језички модели: све што треба да знате

Преглед садржаја[Сакрити][Прикажи]

Шта је велики језички модел?
Како су ЛЛМ обучени?+-
- Пре-тренинг са архитектуром трансформатора
- Фино подешавање
Ограничења великих језичких модела+-
Zakljucak

Класичан проблем у вештачкој интелигенцији је потрага за машином која може да разуме људски језик.

На пример, када претражујете „оближње италијански ресторане“ на вашем омиљеном претраживачу, алгоритам мора анализирати сваку реч у вашем упиту и дати релевантне резултате. Пристојна апликација за превођење мораће да разуме контекст одређене речи на енглеском и на неки начин објасни разлике у граматици између језика.

Сви ови задаци и још много тога спадају у подобласт рачунарских наука позната као Обрада природног језика или НЛП. Напредак у НЛП-у довео је до широког спектра практичних апликација од виртуелних асистената попут Амазоновог Алека до филтера за нежељену пошту који откривају злонамерну е-пошту.

Најновији пробој у НЛП-у је идеја а велики језички модел или ЛЛМ. ЛЛМ као што је ГПТ-3 постали су толико моћни да изгледа да успевају у скоро сваком НЛП задатку или случају употребе.

У овом чланку ћемо размотрити шта су тачно ЛЛМ, како се ови модели обучавају и тренутна ограничења која имају.

Шта је велики језички модел?

У својој сржи, језички модел је једноставно алгоритам који зна колико је вероватно да је низ речи валидна реченица.

Веома једноставан језички модел обучен на неколико стотина књига требало би да буде у стању да каже да је „отишао је кући“ валидније од „отишао је кући“.

Ако заменимо релативно мали скуп података са масивним скупом података пребаченим са интернета, почињемо да се приближавамо идеји велики језички модел.

Коришћење неуронске мреже, истраживачи могу да обучавају ЛЛМ на великој количини текстуалних података. Због количине текстуалних података које је модел видео, ЛЛМ постаје веома добар у предвиђању следеће речи у низу.

Модел постаје толико софистициран да може да обавља много НЛП задатака. Ови задаци укључују сажимање текста, креирање новог садржаја, па чак и симулацију људског разговора.

велики језички модели могу креирати нове садржаје на основу упутстава

На пример, веома популарни ГПТ-3 језички модел је обучен са преко 175 милијарди параметара и сматра се најнапреднијим језичким моделом до сада.

Може да генерише радни код, да напише читаве чланке и да покуша да одговори на питања о било којој теми.

Како су ЛЛМ обучени?

Укратко смо се дотакли чињенице да ЛЛМ дугују много своје моћи величини података о обуци. Ипак, постоји разлог зашто их називамо „великим“ језичким моделима.

Пре-тренинг са архитектуром трансформатора

Током фазе пре обуке, ЛЛМ се упознају са постојећим текстуалним подацима како би научили општу структуру и правила језика.

У протеклих неколико година, ЛЛМ су претходно обучени за скупове података који покривају значајан део јавног интернета. На пример, језички модел ГПТ-3 је обучен на подацима из Цоммон Цравл скуп података, корпус веб постова, веб страница и дигитализованих књига сакупљених са преко 50 милиона домена.

Масивни скуп података се затим уноси у модел познат као а трансформатор. Трансформатори су врста дубока неуронска мрежа који најбоље функционише за секвенцијалне податке.

велики језички модели користе трансформаторе

Трансформатори користе ан архитектура кодер-декодер за руковање улазом и излазом. У суштини, трансформатор садржи две неуронске мреже: енкодер и декодер. Кодер може издвојити значење улазног текста и сачувати га као вектор. Декодер тада прима вектор и производи његову интерпретацију текста.

Међутим, кључни концепт који је омогућио архитектури трансформатора да ради тако добро је додавање а механизам самопажње. Концепт самопажње омогућио је моделу да обрати пажњу на најважније речи у датој реченици. Механизам чак узима у обзир и тежине између речи које су узастопно удаљене.

Још једна предност самопажње је да се процес може паралелизирати. Уместо да обрађују секвенцијалне податке по редоследу, модели трансформатора могу да обрађују све улазе одједном. Ово омогућава трансформаторима да тренирају на огромним количинама података релативно брзо у поређењу са другим методама.

Фино подешавање

Након фазе пре обуке, можете изабрати да уведете нови текст за основни ЛЛМ за обуку. Овај процес називамо фино подешавање и често се користи за даље побољшање резултата ЛЛМ-а на одређеном задатку.

На пример, можда ћете желети да користите ЛЛМ за генерисање садржаја за свој Твиттер налог. Можемо да обезбедимо модел са неколико примера ваших претходних твитова да бисмо му дали идеју о жељеном резултату.

Постоји неколико различитих типова финог подешавања.

велики језички модели су способни за учење са неколико хитаца

Учење у неколико хитаца односи се на процес давања модела малог броја примера са очекивањем да ће језички модел схватити како да направи сличан излаз. Једнократно учење је сличан процес осим што је дат само један пример.

Ограничења великих језичких модела

ЛЛМ као што је ГПТ-3 су способни да изведу велики број случајева употребе чак и без финог подешавања. Међутим, ови модели и даље долазе са сопственим скупом ограничења.

Недостатак семантичког разумевања света

На површини, изгледа да ЛЛМ показују интелигенцију. Међутим, ови модели не раде на исти начин људски мозак ради. ЛЛМ се искључиво ослањају на статистичке прорачуне за генерисање резултата. Они немају капацитет да сами образложе идеје и концепте.

Због тога, ЛЛМ може дати бесмислене одговоре једноставно зато што речи изгледају „тачне“ или „статистички вероватне“ када су постављене тим одређеним редоследом.

Халуцинације

Модели попут ГПТ-3 такође пате од нетачних одговора. ЛЛМ могу патити од феномена познатог као халуцинације где модели дају фактички нетачан одговор без икакве свести да одговор нема основу у стварности.

На пример, корисник може затражити од модела да објасни мисли Стива Џобса о најновијем иПхоне-у. Модел може да генерише цитат из ваздуха на основу својих података о обуци.

Пристрасности и ограничено знање

Као и многи други алгоритми, велики језички модели су склони да наслеђују пристрасности присутне у подацима о обуци. Како почињемо да се више ослањамо на ЛЛМ за добијање информација, програмери ових модела би требало да пронађу начине да ублаже потенцијално штетне ефекте пристрасних одговора.

У сличном капацитету, слепе тачке података о обуци модела ће такође ометати сам модел. Тренутно, за обуку великих језичких модела потребни су месеци. Ови модели се такође ослањају на скупове података који су ограниченог обима. Због тога ЦхатГПТ има само ограничено знање о догађајима који су се догодили након 2021.

Zakljucak

Велики језички модели имају потенцијал да заиста промене начин на који комуницирамо са технологијом и нашим светом уопште.

Огромна количина података доступних на интернету дала је истраживачима начин да моделирају сложеност језика. Међутим, на том путу, чини се да су ови језички модели прихватили људско разумевање света какав јесте.

Како јавност почиње да верује овим језичким моделима да обезбеде тачан резултат, истраживачи и програмери већ проналазе начине да додају заштитне ограде како би технологија остала етичка.

Шта мислите да је будућност ЛЛМ-а?

Велики језички модели: све што треба да знате

Шта је велики језички модел?

Како су ЛЛМ обучени?