Grandaj Lingvaj Modeloj: Ĉio, kion Vi Devas Scii

Enhavtabelo[Kaŝi][Montri]

Kio estas granda lingvomodelo?
Kiel Estas Trejnitaj LLM-oj?+-
- Antaŭtrejnado kun Transformilo-Arkitekturo
- Fajna agordo
Limigoj de Grandaj Lingvaj Modeloj+-
konkludo

Klasika problemo en artefarita inteligenteco estas la serĉado de maŝino kiu povas kompreni homan lingvon.

Ekzemple, serĉante "proksimajn italajn restoraciojn" en via plej ŝatata serĉilo, algoritmo devas analizi ĉiun vorton en via demando kaj eligi la koncernajn rezultojn. Deca traduka aplikaĵo devos kompreni la kuntekston de aparta vorto en la angla kaj iel kalkuli la diferencojn en gramatiko inter lingvoj.

Ĉiuj ĉi tiuj taskoj kaj multe pli kategoriiĝas sub la subfako de komputiko konata kiel Natura Lingvo Processing aŭ NLP. Progresoj en NLP kondukis al larĝa aro de praktikaj aplikoj de virtualaj asistantoj kiel Alexa de Amazon ĝis spam-filtriloj kiuj detektas malican retpoŝton.

La plej lastatempa sukceso en NLP estas la ideo de a granda lingvomodelo aŭ LLM. LLM-oj kiel ekzemple GPT-3 fariĝis tiel potencaj ke ili ŝajnas sukcesi en preskaŭ ajna NLP-tasko aŭ uzokazo.

En ĉi tiu artikolo, ni rigardos, kio estas ĝuste LLMoj, kiel ĉi tiuj modeloj estas trejnitaj kaj la nunaj limigoj, kiujn ili havas.

Kio estas granda lingvomodelo?

En ĝia kerno, lingvomodelo estas simple algoritmo kiu scias kiom verŝajne vico de vortoj estas valida frazo.

Tre simpla lingvomodelo trejnita sur kelkcent libroj devus povi diri, ke "Li iris hejmen" pli validas ol "Hejmen iris li".

Se ni anstataŭigas la relative malgrandan datumaron per masiva datumaro skrapita de la interreto, ni komencas alproksimiĝi al la ideo de granda lingvomodelo.

uzante Neŭraj retoj, esploristoj povas trejni LLM-ojn pri granda kvanto da tekstaj datumoj. Pro la kvanto de tekstaj datumoj kiujn la modelo vidis, la LLM fariĝas tre bona pri antaŭdiro de la sekva vorto en sinsekvo.

La modelo fariĝas tiel kompleksa, ke ĝi povas plenumi multajn NLP-taskojn. Ĉi tiuj taskoj inkluzivas resumi tekston, krei novan enhavon kaj eĉ simuli homsimilan konversacion.

grandaj lingvomodeloj povas krei novan enhavon surbaze de instigoj

Ekzemple, la tre populara lingvomodelo GPT-3 estas trejnita kun pli ol 175 miliardoj da parametroj kaj estas konsiderata kiel la plej altnivela lingvomodelo ĝis nun.

Ĝi kapablas generi funkcian kodon, skribi tutajn artikolojn, kaj kapablas respondi demandojn pri iu ajn temo.

Kiel Estas Trejnitaj LLM-oj?

Ni mallonge tuŝis la fakton, ke LLM-oj ŝuldas multan sian potencon al la grandeco de siaj trejnaj datumoj. Estas kialo, kial ni nomas ilin "grandaj" lingvomodeloj ja.

Antaŭtrejnado kun Transformilo-Arkitekturo

Dum la antaŭtrejna etapo, LLM-oj estas prezentitaj al ekzistantaj tekstaj datumoj por lerni la ĝeneralan strukturon kaj regulojn de lingvo.

En la pasintaj kelkaj jaroj, LLM-oj estis antaŭtrejnitaj sur datumaroj kiuj kovras signifan parton de la publika interreto. Ekzemple, la lingvomodelo de GPT-3 estis trejnita sur datumoj de la Ofta Rampado datumaro, korpuso de ret-afiŝoj, retpaĝoj kaj ciferecigitaj libroj skrapitaj de pli ol 50 milionoj da domajnoj.

La masiva datumaro tiam estas provizita en modelon konatan kiel a transformilo. Transformiloj estas speco de profunda neŭrala reto tio funkcias plej bone por sinsekvaj datumoj.

grandaj lingvomodeloj uzas transformilojn

Transformiloj uzas an arkitekturo de kodilo-malkodilo por pritrakti enigon kaj eligon. Esence, la transformilo enhavas du neŭralajn retojn: kodilon kaj malĉifrilon. La kodilo povas ĉerpi la signifon de la eniga teksto kaj konservi ĝin kiel vektoro. La malĉifrilo tiam ricevas la vektoron kaj produktas sian interpreton de la teksto.

Tamen, la ŝlosila koncepto kiu permesis al la transformilarkitekturo funkcii tiel bone estas la aldono de a mematenta mekanismo. La koncepto de mematento permesis al la modelo atenti la plej gravajn vortojn en donita frazo. La mekanismo eĉ konsideras la pezojn inter vortoj kiuj estas malproksimaj sinsekve.

Alia avantaĝo de mem-atento estas ke la procezo povas esti paraleligita. Anstataŭ prilaborado de sinsekvaj datenoj en ordo, transformilmodeloj povas prilabori ĉiujn enigaĵojn samtempe. Ĉi tio ebligas al transformiloj trejni sur grandegaj kvantoj de datumoj relative rapide kompare kun aliaj metodoj.

Fajna agordo

Post la antaŭtrejna etapo, vi povas elekti enkonduki novan tekston por la baza LLM por trejni. Ni nomas ĉi tiun procezon fajna agordo kaj estas ofte uzata por plu plibonigi la produktadon de la LLM pri specifa tasko.

Ekzemple, vi eble volas uzi LLM por generi enhavon por via Twitter-konto. Ni povas provizi la modelon per pluraj ekzemploj de viaj antaŭaj tweets por doni al ĝi ideon pri la dezirata eligo.

Estas kelkaj malsamaj specoj de fajnagordado.

grandaj lingvomodeloj kapablas malmultajn paflernadon

Malmulta lernado rilatas al la procezo doni al modelo malgrandan nombron da ekzemploj kun la atendo ke la lingvomodelo eltrovos kiel fari similan produktaĵon. Unu-pafa lernado estas simila procezo krom nur ununura ekzemplo estas provizita.

Limigoj de Grandaj Lingvaj Modeloj

LLM kiel ekzemple GPT-3 kapablas plenumi grandan nombron da uzkazoj eĉ sen fajnagordado. Tamen, ĉi tiuj modeloj ankoraŭ venas kun sia propra aro de limigoj.

Manko de Semantika Kompreno de la Mondo

Ĉe la surfaco, LLM-oj ŝajnas montri inteligentecon. Tamen, ĉi tiuj modeloj ne funkcias same homa cerbo faras. LLMoj nur fidas je statistikaj komputadoj por generi produktaĵon. Ili ne havas la kapablon mem rezoni ideojn kaj konceptojn.

Pro tio, LLM povas eligi sensencajn respondojn simple ĉar la vortoj ŝajnas "ĝustaj" aŭ "statistike verŝajnaj" kiam metitaj en tiu aparta ordo.

Alucinaciones

Modeloj kiel GPT-3 ankaŭ suferas de malprecizaj respondoj. LLM-oj povas suferi de fenomeno konata kiel halucino kie modeloj eligas fakte malĝustan respondon sen iu konscio ke la respondo havas neniun bazon en realeco.

Ekzemple, uzanto povas peti la modelon klarigi la pensojn de Steve Jobs pri la plej nova iPhone. La modelo povas generi citaĵon de maldika aero bazita sur siaj trejnaddatenoj.

Biasoj kaj Limigita Scio

Kiel multaj aliaj algoritmoj, grandaj lingvomodeloj estas emaj heredi la biasojn ĉeestantajn en la trejnaddatenoj. Dum ni komencas fidi pli je LLM-oj por preni informojn, la programistoj de ĉi tiuj modeloj devus trovi manierojn mildigi la eble malutilajn efikojn de partiaj respondoj.

En simila kapacito, la blindmakuloj de la trejnaj datumoj de la modelo ankaŭ malhelpos la modelon mem. Nuntempe, grandaj lingvomodeloj bezonas monatojn por trejni. Ĉi tiuj modeloj ankaŭ dependas de datumaroj kiuj estas limigitaj en amplekso. Jen kial ChatGPT nur havas limigitan scion pri eventoj okazintaj preter 2021.

konkludo

Grandaj lingvomodeloj havas la eblecon vere ŝanĝi kiel ni interagas kun teknologio kaj nia mondo ĝenerale.

La vasta kvanto de datumoj disponeblaj en la interreto donis al esploristoj manieron modeligi la kompleksaĵojn de lingvo. Tamen, survoje, ĉi tiuj lingvaj modeloj ŝajnas esti kaptinta homsimilan komprenon de la mondo tia, kia ĝi estas.

Ĉar la publiko komencas fidi ĉi tiujn lingvajn modelojn por provizi precizajn produktaĵojn, esploristoj kaj programistoj jam trovas manierojn aldoni ŝirmilojn por ke la teknologio restu etika.

Kio laŭ vi estas la estonteco de LLM-oj?

Grandaj Lingvaj Modeloj: Ĉio, kion Vi Devas Scii

Kio estas granda lingvomodelo?

Kiel Estas Trejnitaj LLM-oj?