Lieli valodu modeļi: viss, kas jums jāzina

Saturs[Paslēpt][Rādīt]

Kas ir liels valodas modelis?
Kā tiek apmācīti LLM?+-
- Iepriekšēja apmācība ar transformatora arhitektūru
- Laba skaņa
Lielo valodu modeļu ierobežojumi+-
Secinājumi

Klasiska mākslīgā intelekta problēma ir tiekšanās pēc mašīnas, kas spēj saprast cilvēku valodu.

Piemēram, meklējot “tuvumā esošie itāļu restorāni” savā iecienītākajā meklētājprogrammā, algoritmam ir jāanalizē katrs vārds jūsu vaicājumā un jāizvada atbilstošie rezultāti. Pienācīgai tulkošanas lietotnei būs jāsaprot konkrēta vārda konteksts angļu valodā un kaut kādā veidā jāņem vērā valodu gramatikas atšķirības.

Visi šie uzdevumi un daudz kas cits ietilpst datorzinātņu apakšnozarē, kas pazīstama kā Dabas valodas apstrāde vai NLP. NLP sasniegumi ir radījuši plašu praktisku lietojumu klāstu, sākot no virtuālajiem palīgiem, piemēram, Amazon Alexa, līdz surogātpasta filtriem, kas atklāj ļaunprātīgu e-pastu.

Jaunākais sasniegums NLP ir ideja par a liels valodas modelis vai LLM. LLM, piemēram, GPT-3, ir kļuvuši tik spēcīgi, ka šķiet, ka tie gūst panākumus gandrīz jebkurā NLP uzdevumā vai lietošanas gadījumā.

Šajā rakstā mēs apskatīsim, kas īsti ir LLM, kā šie modeļi tiek apmācīti un kādi ir pašreizējie ierobežojumi.

Kas ir liels valodas modelis?

Valodas modelis būtībā ir vienkārši algoritms, kas zina, cik iespējams, ka vārdu secība ir derīgs teikums.

Ļoti vienkāršam valodas modelim, kas apmācīts uz dažiem simtiem grāmatu, vajadzētu būt spējīgam pateikt, ka “Viņš devās mājās” ir derīgāks nekā “Home devās viņš”.

Ja mēs aizstājam salīdzinoši nelielo datu kopu ar milzīgu datu kopu, kas iegūta no interneta, mēs sākam tuvināties idejai par liels valodas modelis.

Izmantojot neironu tīkli, pētnieki var apmācīt LLM, izmantojot lielu teksta datu apjomu. Tā kā modelis ir redzējis teksta datu apjomu, LLM ļoti labi prognozē nākamo vārdu pēc kārtas.

Modelis kļūst tik izsmalcināts, ka var veikt daudzus NLP uzdevumus. Šie uzdevumi ietver teksta apkopošanu, jauna satura izveidi un pat cilvēkiem līdzīgas sarunas simulēšanu.

lieli valodu modeļi var izveidot jaunu saturu, pamatojoties uz uzvednēm

Piemēram, ļoti populārais GPT-3 valodas modelis ir apmācīts ar vairāk nekā 175 miljardiem parametru un tiek uzskatīts par līdz šim vismodernāko valodas modeli.

Tas spēj ģenerēt strādājošu kodu, rakstīt veselus rakstus un var sniegt atbildes uz jautājumiem par jebkuru tēmu.

Kā tiek apmācīti LLM?

Mēs esam īsi pieskārušies faktam, ka LLM lielā mērā ir parādā viņu apmācības datu lielumam. Ir iemesls, kāpēc mēs tos saucam par “lieliem” valodu modeļiem.

Iepriekšēja apmācība ar transformatora arhitektūru

Pirmsapmācības posmā LLM tiek iepazīstināti ar esošajiem teksta datiem, lai apgūtu valodas vispārējo struktūru un noteikumus.

Pēdējos gados LLM ir iepriekš apmācīti par datu kopām, kas aptver ievērojamu publiskā interneta daļu. Piemēram, GPT-3 valodas modelis tika apmācīts, pamatojoties uz datiem no Kopējā pārmeklēšana datu kopa, tīmekļa ziņu, tīmekļa lapu un digitalizētu grāmatu korpuss, kas iegūts no vairāk nekā 50 miljoniem domēnu.

Pēc tam masveida datu kopa tiek ievadīta modelī, kas pazīstams kā a transformators. Transformatori ir sava veida dziļais neironu tīkls kas vislabāk darbojas secīgiem datiem.

lielos valodu modeļos tiek izmantoti transformatori

Transformatori izmanto an kodētāja-dekodētāja arhitektūra ievades un izvades apstrādei. Būtībā transformatorā ir divi neironu tīkli: kodētājs un dekodētājs. Kodētājs var iegūt ievades teksta nozīmi un saglabāt to kā vektoru. Pēc tam dekodētājs saņem vektoru un izstrādā savu teksta interpretāciju.

Tomēr galvenā koncepcija, kas ļāva transformatora arhitektūrai darboties tik labi, ir a pievienošana sevis uzmanības mehānisms. Pašuzmanības jēdziens ļāva modelim pievērst uzmanību svarīgākajiem vārdiem dotajā teikumā. Mehānisms pat ņem vērā svaru starp vārdiem, kas secīgi atrodas tālu viens no otra.

Vēl viens pašuzmanības ieguvums ir tas, ka procesu var paralēli. Tā vietā, lai apstrādātu secīgus datus, transformatoru modeļi var apstrādāt visas ievades vienlaikus. Tas ļauj transformatoriem salīdzinoši ātri apmācīt milzīgus datu apjomus, salīdzinot ar citām metodēm.

Laba skaņa

Pēc pirmsapmācības posma varat izvēlēties ieviest jaunu tekstu bāzes LLM apmācībai. Mēs to saucam par procesu laba skaņa un to bieži izmanto, lai vēl vairāk uzlabotu LLM rezultātus konkrētam uzdevumam.

Piemēram, varat izmantot LLM, lai ģenerētu saturu savam Twitter kontam. Mēs varam nodrošināt modeli ar vairākiem jūsu iepriekšējo tvītu piemēriem, lai sniegtu priekšstatu par vēlamo rezultātu.

Ir daži dažādi precizēšanas veidi.

lielie valodu modeļi spēj iemācīties tikai dažas reizes

Dažu metienu mācīšanās attiecas uz procesu, kurā modelim tiek sniegts neliels skaits piemēru, cerot, ka valodas modelis izdomās, kā izveidot līdzīgu rezultātu. Vienreizēja mācīšanās ir līdzīgs process, izņemot tikai vienu piemēru.

Lielo valodu modeļu ierobežojumi

LLM, piemēram, GPT-3, spēj veikt lielu skaitu lietošanas gadījumu pat bez precizēšanas. Tomēr šiem modeļiem joprojām ir savi ierobežojumi.

Pasaules semantiskās izpratnes trūkums

Uz virsmas šķiet, ka LLM demonstrē inteliģenci. Tomēr šie modeļi nedarbojas vienādi cilvēka smadzenes dara. LLM paļaujas tikai uz statistikas aprēķiniem, lai radītu produkciju. Viņiem nav spēju pašiem argumentēt idejas un koncepcijas.

Šī iemesla dēļ LLM var sniegt nejēdzīgas atbildes vienkārši tāpēc, ka vārdi šķiet “pareizi” vai “statistiski ticami”, ja tie ir ievietoti konkrētajā secībā.

Halucinācijas

Tādi modeļi kā GPT-3 arī cieš no neprecīzām atbildēm. LLM var ciest no parādības, kas pazīstama kā halucinācijas kur modeļi izvada faktiski nepareizu atbildi, neapzinoties, ka atbildei nav realitātes pamata.

Piemēram, lietotājs var lūgt modelim izskaidrot Stīva Džobsa domas par jaunāko iPhone. Modelis var ģenerēt citātu, pamatojoties uz apmācību datiem.

Aizspriedumi un ierobežotas zināšanas

Tāpat kā daudzi citi algoritmi, lielie valodu modeļi mēdz pārmantot apmācības datos esošās novirzes. Tā kā mēs sākam vairāk paļauties uz LLM, lai izgūtu informāciju, šo modeļu izstrādātājiem vajadzētu atrast veidus, kā mazināt neobjektīvu reakciju potenciāli kaitīgo ietekmi.

Līdzīgā veidā modeļa apmācības datu aklās zonas kavēs arī pašu modeli. Pašlaik lielu valodu modeļu apmācība prasa mēnešus. Šie modeļi paļaujas arī uz datu kopām, kuru darbības joma ir ierobežota. Tāpēc ChatGPT ir tikai ierobežotas zināšanas par notikumiem, kas notikuši pēc 2021. gada.

Secinājumi

Lieliem valodu modeļiem ir potenciāls patiesi mainīt to, kā mēs mijiedarbojamies ar tehnoloģijām un mūsu pasauli kopumā.

Lielais internetā pieejamo datu apjoms ir devis pētniekiem iespēju modelēt valodas sarežģītību. Tomēr šķiet, ka pa ceļam šie valodu modeļi ir ieguvuši cilvēkiem līdzīgu izpratni par pasauli tādu, kāda tā ir.

Tā kā sabiedrība sāk uzticēties šiem valodu modeļiem, lai nodrošinātu precīzu rezultātu, pētnieki un izstrādātāji jau atrod veidus, kā pievienot aizsargmargas, lai tehnoloģija paliktu ētiska.

Kāda, jūsuprāt, ir LLM nākotne?

Lieli valodu modeļi: viss, kas jums jāzina

Kas ir liels valodas modelis?

Kā tiek apmācīti LLM?