Dideli kalbų modeliai: viskas, ką reikia žinoti

Turinys[Slėpti][Rodyti]

Kas yra didelės kalbos modelis?
Kaip mokomi LLM?+-
- Išankstinis mokymas su transformatoriaus architektūra
- Tikslus derinimas
Didelių kalbų modelių apribojimai+-
Išvada

Klasikinė dirbtinio intelekto problema yra mašinos, galinčios suprasti žmonių kalbą, siekimas.

Pavyzdžiui, ieškant „netoliese esančių itališkų restoranų“ mėgstamoje paieškos sistemoje, algoritmas turi išanalizuoti kiekvieną žodį jūsų užklausoje ir pateikti atitinkamus rezultatus. Tinkama vertimo programa turės suprasti konkretaus žodžio kontekstą anglų kalba ir kažkaip atsižvelgti į kalbų gramatikos skirtumus.

Visos šios užduotys ir daug daugiau patenka į kompiuterių mokslo poskyrį, žinomą kaip Gamtos kalbos apdorojimas arba NLP. NLP pažanga paskatino daugybę praktinių pritaikymų nuo virtualių asistentų, tokių kaip „Amazon“ Alexa, iki nepageidaujamo pašto filtrų, aptinkančių kenkėjišką el.

Naujausias NLP proveržis yra idėja apie a didelis kalbos modelis arba LLM. LLM, pvz., GPT-3, tapo tokie galingi, kad atrodo, kad jiems pavyksta atlikti beveik bet kurią NLP užduotį ar naudojimo atvejį.

Šiame straipsnyje apžvelgsime, kas tiksliai yra LLM, kaip šie modeliai mokomi ir kokie dabartiniai jų apribojimai.

Kas yra didelės kalbos modelis?

Kalbos modelis iš esmės yra tiesiog algoritmas, kuris žino, kiek žodžių seka yra tinkamas sakinys.

Labai paprastas kalbos modelis, parengtas pagal kelis šimtus knygų, turėtų pasakyti, kad „Jis parėjo namo“ yra tinkamesnis nei „Namo išvyko jis“.

Jei palyginti nedidelį duomenų rinkinį pakeisime didžiuliu duomenų rinkiniu, išskobtu iš interneto, pradėsime artėti prie idėjos apie didelis kalbos modelis.

Naudojant neuroniniai tinklai, mokslininkai gali mokyti LLM naudodami didelį tekstinių duomenų kiekį. Dėl modelio matytų tekstinių duomenų kiekio LLM labai gerai nuspėja kitą žodį iš eilės.

Modelis tampa toks sudėtingas, kad gali atlikti daugybę NLP užduočių. Šios užduotys apima teksto apibendrinimą, naujo turinio kūrimą ir netgi žmogaus pokalbio modeliavimą.

dideli kalbos modeliai gali sukurti naują turinį, pagrįstą raginimais

Pavyzdžiui, labai populiarus GPT-3 kalbos modelis yra parengtas su daugiau nei 175 milijardais parametrų ir iki šiol laikomas pažangiausiu kalbos modeliu.

Jis gali generuoti veikiantį kodą, parašyti ištisus straipsnius ir atsakyti į klausimus bet kuria tema.

Kaip mokomi LLM?

Mes trumpai palietėme faktą, kad LLM didelę galią lemia jų mokymo duomenų dydis. Yra priežastis, kodėl mes juos vadiname „dideliais“ kalbų modeliais.

Išankstinis mokymas su transformatoriaus architektūra

Išankstinio mokymo etape LLM supažindinami su esamais teksto duomenimis, kad išmoktų bendrą kalbos struktūrą ir taisykles.

Per pastaruosius kelerius metus LLM buvo iš anksto apmokyti naudoti duomenų rinkinius, apimančius didelę viešojo interneto dalį. Pavyzdžiui, GPT-3 kalbos modelis buvo parengtas remiantis duomenimis iš Bendrasis nuskaitymas duomenų rinkinys, žiniatinklio įrašų, tinklalapių ir suskaitmenintų knygų korpusas, surinktas iš daugiau nei 50 milijonų domenų.

Tada didžiulis duomenų rinkinys įvedamas į modelį, žinomą kaip a transformatorius. Transformatoriai yra tam tikra rūšis gilus nervinis tinklas kuri geriausiai tinka nuosekliems duomenims.

didelių kalbų modeliuose naudojami transformatoriai

Transformatoriai naudoja an kodavimo-dekoderio architektūra įvesties ir išvesties tvarkymui. Iš esmės transformatoriuje yra du neuroniniai tinklai: kodavimo įrenginys ir dekoderis. Kodavimo priemonė gali išgauti įvesties teksto reikšmę ir išsaugoti ją kaip vektorių. Tada dekoderis gauna vektorių ir pateikia savo teksto interpretaciją.

Tačiau pagrindinė koncepcija, kuri leido transformatoriaus architektūrai taip gerai veikti, yra a dėmesio į save mechanizmas. Dėmesio į save samprata leido modeliui atkreipti dėmesį į svarbiausius duotame sakinyje esančius žodžius. Mechanizmas netgi atsižvelgia į svorius tarp žodžių, kurie yra toli vienas nuo kito.

Kitas dėmesio į save privalumas yra tas, kad procesą galima lygiagrečiai. Užuot apdoroję nuoseklius duomenis, transformatorių modeliai gali apdoroti visas įvestis vienu metu. Tai leidžia transformatoriams palyginti greitai, palyginti su kitais metodais, apmokyti didelius duomenų kiekius.

Tikslus derinimas

Pasibaigus parengiamojo mokymo etapui, galite pasirinkti įvesti naują tekstą, skirtą pagrindiniam LLM mokymui. Mes tai vadiname procesu tikslus derinimas ir dažnai naudojamas toliau tobulinti LLM rezultatus atliekant konkrečią užduotį.

Pavyzdžiui, galbūt norėsite naudoti LLM savo Twitter paskyros turiniui generuoti. Modeliui galime pateikti kelis jūsų ankstesnių tviterių pavyzdžius, kad suprastume norimą rezultatą.

Yra keletas skirtingų koregavimo tipų.

dideli kalbų modeliai gali išmokti nedaug kartų

Mokymasis per kelis kartus reiškia procesą, kai modeliui pateikiamas nedidelis skaičius pavyzdžių, tikintis, kad kalbos modelis išsiaiškins, kaip padaryti panašią išvestį. Vienkartinis mokymasis yra panašus procesas, išskyrus tik vieną pavyzdį.

Didelių kalbų modelių apribojimai

LLM, pvz., GPT-3, gali atlikti daugybę naudojimo atvejų net ir be tikslaus derinimo. Tačiau šie modeliai vis tiek turi savo apribojimų.

Semantinio pasaulio supratimo trūkumas

Paviršiuje atrodo, kad LLM demonstruoja intelektą. Tačiau šie modeliai neveikia taip pat žmogaus smegenys daro. LLM, kad sukurtų produkciją, pasikliauja tik statistiniais skaičiavimais. Jie neturi galimybių patys sugalvoti idėjų ir koncepcijų.

Dėl šios priežasties LLM gali pateikti nesąmoningus atsakymus vien todėl, kad žodžiai atrodo „teisingi“ arba „statistiškai tikėtini“, kai jie išdėstyti ta konkrečia tvarka.

Haliucinacijos

Tokie modeliai kaip GPT-3 taip pat kenčia nuo netikslių atsakymų. LLM gali nukentėti nuo reiškinio, žinomo kaip haliucinacijos kai modeliai pateikia faktiškai neteisingą atsakymą, nesuvokdami, kad atsakymas neturi tikrovės pagrindo.

Pavyzdžiui, vartotojas gali paprašyti modelio paaiškinti Steve'o Jobso mintis apie naujausią „iPhone“. Modelis gali generuoti citatą, remdamasis treniruočių duomenimis.

Šališkumas ir ribotos žinios

Kaip ir daugelis kitų algoritmų, didelių kalbų modeliai yra linkę paveldėti mokymo duomenų paklaidas. Kai pradedame labiau pasikliauti LLM, kad gautume informaciją, šių modelių kūrėjai turėtų rasti būdų, kaip sušvelninti galimai žalingą šališkų atsakymų poveikį.

Panašiai modelio mokymo duomenų aklos dėmės taip pat trukdys pačiam modeliui. Šiuo metu didelių kalbų modelių mokymas trunka mėnesius. Šie modeliai taip pat remiasi ribotos apimties duomenų rinkiniais. Štai kodėl „ChatGPT“ turi tik nedaug žinių apie įvykius, įvykusius praėjus 2021 m.

Išvada

Dideli kalbų modeliai gali iš tikrųjų pakeisti mūsų sąveiką su technologijomis ir mūsų pasauliu apskritai.

Didelis internete prieinamų duomenų kiekis leido tyrėjams modeliuoti kalbos sudėtingumą. Tačiau atrodo, kad šie kalbiniai modeliai įgavo į žmogų panašų pasaulio supratimą, koks jis yra.

Visuomenei pradėjus pasitikėti šiais kalbų modeliais, kad jie užtikrintų tikslią išvestį, mokslininkai ir kūrėjai jau randa būdų, kaip pridėti apsauginius turėklus, kad technologija išliktų etiška.

Kaip manote, kokia LLM ateitis?

Dideli kalbų modeliai: viskas, ką reikia žinoti

Kas yra didelės kalbos modelis?

Kaip mokomi LLM?