Stór tungumálalíkön: Allt sem þú þarft að vita

Efnisyfirlit[Fela][Sýna]

Hvað er stórt tungumálalíkan?
Hvernig eru LLMs þjálfaðir?+-
- Forþjálfun með Transformer Architecture
- Fínstilling
Takmarkanir stórra tungumálalíkana+-
Niðurstaða

Klassískt vandamál í gervigreind er leit að vél sem getur skilið mannamál.

Til dæmis, þegar leitað er að „nálægum ítölskum veitingastöðum“ á uppáhalds leitarvélinni þinni, þarf reiknirit að greina hvert orð í fyrirspurn þinni og gefa út viðeigandi niðurstöður. Ágætis þýðingarforrit verður að skilja samhengi tiltekins orðs á ensku og gera einhvern veginn grein fyrir muninum á málfræði milli tungumála.

Öll þessi verkefni og margt fleira falla undir undirsvið tölvunarfræðinnar sem kallast Natural Language Processing eða NLP. Framfarir í NLP hafa leitt til margs konar hagnýtra forrita frá sýndaraðstoðarmönnum eins og Alexa frá Amazon til ruslpóstsía sem finna skaðlegan tölvupóst.

Nýjasta byltingin í NLP er hugmyndin um a stórt mállíkan eða LLM. LLM eins og GPT-3 eru orðin svo öflug að þau virðast ná árangri í næstum öllum NLP verkefnum eða notkunartilfellum.

Í þessari grein munum við skoða hvað nákvæmlega LLM eru, hvernig þessar gerðir eru þjálfaðar og núverandi takmarkanir sem þær hafa.

Hvað er stórt tungumálalíkan?

Í kjarna sínum er mállíkan einfaldlega reiknirit sem veit hversu líklegt að orðaröð sé gild setning.

Mjög einfalt mállíkan sem er þjálfað á nokkur hundruð bókum ætti að geta sagt að „Hann fór heim“ er gildari en „Heim fór hann“.

Ef við skiptum út tiltölulega litlu gagnasafninu fyrir gríðarstórt gagnasafn sem er skafið af internetinu, byrjum við að nálgast hugmyndina um a stórt mállíkan.

Notkun taugakerfi, vísindamenn geta þjálfað LLMs á miklu magni af textagögnum. Vegna magns textagagna sem líkanið hefur séð, verður LLM mjög góður í að spá fyrir um næsta orð í röð.

Líkanið verður svo háþróað að það getur framkvæmt fullt af NLP verkefnum. Þessi verkefni fela í sér að draga saman texta, búa til nýtt efni og jafnvel líkja eftir mannlegum samræðum.

stór tungumálalíkön geta búið til nýtt efni byggt á leiðbeiningum

Til dæmis er mjög vinsæla GPT-3 tungumálalíkanið þjálfað með yfir 175 milljörðum breytum og er talið vera fullkomnasta tungumálalíkanið hingað til.

Það getur búið til vinnukóða, skrifað heilar greinar og getur svarað spurningum um hvaða efni sem er.

Hvernig eru LLMs þjálfaðir?

Við höfum stuttlega fjallað um þá staðreynd að LLMs eiga mikið af krafti sínu að þakka stærð þjálfunargagna sinna. Það er ástæða fyrir því að við köllum þau „stór“ tungumálalíkön þegar allt kemur til alls.

Forþjálfun með Transformer Architecture

Á forþjálfunarstigi eru LLMs kynntir fyrirliggjandi textagögnum til að læra almenna uppbyggingu og reglur tungumáls.

Undanfarin ár hafa LLMs verið forþjálfaðir á gagnasöfnum sem ná yfir verulegan hluta almennings internetsins. Til dæmis var tungumálalíkan GPT-3 þjálfað á gögnum frá Algeng skrið gagnapakka, safn vefpósta, vefsíðna og stafrænna bóka úr yfir 50 milljónum léna.

Mikið gagnasafn er síðan gefið inn í líkan sem kallast a spenni. Transformers eru tegund af djúpt taugakerfi sem virkar best fyrir raðbundin gögn.

stór mállíkön nota spennubreyta

Transformers nota an kóðara-afkóðara arkitektúr til að meðhöndla inntak og úttak. Í meginatriðum inniheldur spennirinn tvö tauganet: kóðara og afkóðara. Kóðarinn getur dregið út merkingu inntakstextans og geymt hann sem vektor. Afkóðarinn tekur svo við vektornum og framleiðir túlkun sína á textanum.

Hins vegar er lykilhugtakið sem gerði spenniarkitektúrnum kleift að virka svo vel að bæta við a sjálfs athygli vélbúnaður. Hugtakið sjálfsathygli gerði líkaninu kleift að gefa gaum að mikilvægustu orðunum í tiltekinni setningu. Fyrirkomulagið tekur jafnvel tillit til þyngdar á milli orða sem eru langt á milli í röð.

Annar ávinningur af sjálfsathygli er að hægt er að samsíða ferlið. Í stað þess að vinna úr röð gagna í röð geta spennilíkön unnið úr öllum aðföngum í einu. Þetta gerir spennum kleift að þjálfa mikið magn af gögnum tiltölulega hratt miðað við aðrar aðferðir.

Fínstilling

Eftir forþjálfunarstigið geturðu valið að kynna nýjan texta fyrir grunn LLM til að þjálfa á. Við köllum þetta ferli Fínstilling og er oft notað til að bæta enn frekar afköst LLM á tilteknu verkefni.

Til dæmis gætirðu viljað nota LLM til að búa til efni fyrir Twitter reikninginn þinn. Við getum útvegað líkaninu nokkur dæmi um fyrri tíst þín til að gefa henni hugmynd um tilætluð framleiðsla.

Það eru nokkrar mismunandi gerðir af fínstillingum.

stór tungumálalíkön eru fær um að læra fáa skot

Fáskota nám vísar til þess ferlis að gefa líkani fáeinum dæmum með von um að tungumálalíkanið muni finna út hvernig á að búa til svipaða útkomu. Einstaklingsnám er svipað ferli nema aðeins eitt dæmi er gefið upp.

Takmarkanir stórra tungumálalíkana

LLM eins og GPT-3 eru fær um að framkvæma fjölda notkunartilvika jafnvel án þess að fínstilla. Hins vegar eru þessar gerðir enn með sínar eigin takmarkanir.

Skortur á merkingarlegum skilningi á heiminum

Á yfirborðinu virðast LLMs sýna greind. Hins vegar virka þessar gerðir ekki á sama hátt og heilann gerir. LLMs treysta eingöngu á tölfræðilegar útreikningar til að búa til framleiðslu. Þeir hafa ekki getu til að rökstyðja hugmyndir og hugtök á eigin spýtur.

Vegna þessa getur LLM gefið út vitlaus svör einfaldlega vegna þess að orðin virðast „rétt“ eða „tölfræðilega líkleg“ þegar þau eru sett í þá tilteknu röð.

Ofskynjanir

Líkön eins og GPT-3 þjást einnig af ónákvæmum svörum. LLMs geta þjáðst af fyrirbæri sem kallast ofskynjanir þar sem líkön gefa út raunverulega rangt svar án þess að gera sér grein fyrir því að svarið eigi sér enga stoð í raunveruleikanum.

Til dæmis gæti notandi beðið líkanið um að útskýra hugsanir Steve Jobs um nýjasta iPhone. Líkanið gæti búið til tilvitnun úr þunnu lofti byggt á þjálfunargögnum þess.

Hlutdrægni og takmörkuð þekking

Eins og mörg önnur reiknirit eru stór tungumálalíkön hætt við að erfa hlutdrægni sem er til staðar í þjálfunargögnunum. Þegar við byrjum að treysta meira á LLMs til að sækja upplýsingar ættu verktaki þessara líkana að finna leiðir til að draga úr hugsanlegum skaðlegum áhrifum hlutdrægra svara.

Á svipaðan hátt munu blindpunktar þjálfunargagna líkansins einnig hindra líkanið sjálft. Eins og er tekur stór tungumálalíkön marga mánuði að þjálfa. Þessi líkön byggja einnig á gagnasöfnum sem eru takmörkuð að umfangi. Þetta er ástæðan fyrir því að ChatGPT hefur aðeins takmarkaða þekkingu á atburðum sem áttu sér stað fyrir 2021.

Niðurstaða

Stór tungumálalíkön geta raunverulega breytt því hvernig við höfum samskipti við tækni og heiminn okkar almennt.

Mikið magn gagna sem til er á internetinu hefur gefið rannsakendum leið til að móta margbreytileika tungumálsins. Hins vegar virðast þessi mállíkön í leiðinni hafa tekið upp mannlegan skilning á heiminum eins og hann er.

Þegar almenningur byrjar að treysta þessum tungumálalíkönum til að veita nákvæma útkomu, eru rannsakendur og þróunaraðilar nú þegar að finna leiðir til að bæta við handriðum svo tæknin haldist siðferðileg.

Hver heldurðu að sé framtíð LLMs?

Stór tungumálalíkön: Allt sem þú þarft að vita

Hvað er stórt tungumálalíkan?