Veliki jezički modeli: sve što trebate znati

Sadržaj[Sakrij][Prikaži]

Šta je veliki jezički model?
Kako se LLM obučavaju?+-
- Prethodna obuka sa arhitekturom transformatora
- Fino podešavanje
Ograničenja velikih jezičkih modela+-
zaključak

Klasičan problem u umjetnoj inteligenciji je potraga za mašinom koja može razumjeti ljudski jezik.

Na primjer, kada pretražujete "obližnje talijanske restorane" na vašem omiljenom pretraživaču, algoritam mora analizirati svaku riječ u vašem upitu i dati relevantne rezultate. Pristojna aplikacija za prevođenje morat će razumjeti kontekst određene riječi na engleskom i na neki način objasniti razlike u gramatici između jezika.

Svi ovi zadaci i još mnogo toga spadaju u podpolje informatike poznate kao Obrada prirodnog jezika ili NLP. Napredak u NLP-u doveo je do širokog spektra praktičnih aplikacija od virtuelnih asistenata poput Amazonove Alexa do filtera za neželjenu poštu koji otkrivaju zlonamjernu e-poštu.

Najnoviji proboj u NLP-u je ideja a veliki jezički model ili LLM. LLM-ovi kao što je GPT-3 postali su toliko moćni da se čini da uspijevaju u gotovo svakom NLP zadatku ili slučaju upotrebe.

U ovom članku ćemo pogledati šta su tačno LLM, kako se ovi modeli obučavaju i trenutna ograničenja koja imaju.

Šta je veliki jezički model?

U svojoj srži, jezički model je jednostavno algoritam koji zna koliko je vjerovatno da je niz riječi valjana rečenica.

Vrlo jednostavan jezički model obučen na nekoliko stotina knjiga trebao bi biti u stanju reći da je „otišao je kući“ validnije od „otišao je kući“.

Ako relativno mali skup podataka zamijenimo masivnim skupom podataka prebačenim s interneta, počinjemo se približavati ideji veliki jezički model.

korišćenje neuronske mreže, istraživači mogu trenirati LLM na velikoj količini tekstualnih podataka. Zbog količine tekstualnih podataka koje je model vidio, LLM postaje vrlo dobar u predviđanju sljedeće riječi u nizu.

Model postaje toliko sofisticiran da može obavljati mnogo NLP zadataka. Ovi zadaci uključuju sažimanje teksta, kreiranje novog sadržaja, pa čak i simulaciju ljudskog razgovora.

veliki jezički modeli mogu kreirati novi sadržaj zasnovan na upitima

Na primjer, veoma popularni GPT-3 jezički model je obučen sa preko 175 milijardi parametara i smatra se najnaprednijim jezičkim modelom do sada.

Može da generiše radni kod, da napiše čitave članke i da pokuša da odgovori na pitanja o bilo kojoj temi.

Kako se LLM obučavaju?

Ukratko smo se dotakli činjenice da LLM duguju mnogo svoje moći veličini podataka o obuci. Ipak, postoji razlog zašto ih nazivamo „velikim“ jezičkim modelima.

Prethodna obuka sa arhitekturom transformatora

Tokom faze pre obuke, LLM se upoznaju sa postojećim tekstualnim podacima kako bi naučili opštu strukturu i pravila jezika.

U posljednjih nekoliko godina, LLM su prethodno obučeni za skupove podataka koji pokrivaju značajan dio javnog interneta. Na primjer, jezički model GPT-3 je obučen na podacima iz Common crawl skup podataka, korpus web postova, web stranica i digitaliziranih knjiga sakupljenih sa preko 50 miliona domena.

Masivni skup podataka se zatim unosi u model poznat kao a transformator. Transformatori su vrsta duboka neuronska mreža koji najbolje radi za sekvencijalne podatke.

veliki jezički modeli koriste transformatore

Transformatori koriste an arhitektura koder-dekoder za rukovanje ulazom i izlazom. U suštini, transformator sadrži dvije neuronske mreže: koder i dekoder. Koder može izdvojiti značenje ulaznog teksta i pohraniti ga kao vektor. Dekoder tada prima vektor i proizvodi njegovu interpretaciju teksta.

Međutim, ključni koncept koji je omogućio arhitekturi transformatora da radi tako dobro je dodavanje a mehanizam samopažnje. Koncept samopažnje omogućio je modelu da obrati pažnju na najvažnije riječi u datoj rečenici. Mehanizam čak uzima u obzir i težine između riječi koje su uzastopno udaljene.

Još jedna prednost samopažnje je da se proces može paralelizirati. Umjesto obrade sekvencijalnih podataka po redoslijedu, modeli transformatora mogu obraditi sve ulaze odjednom. Ovo omogućava transformatorima da treniraju na ogromnim količinama podataka relativno brzo u poređenju sa drugim metodama.

Fino podešavanje

Nakon faze prije obuke, možete odabrati da uvedete novi tekst za osnovni LLM na kojem ćete trenirati. Ovaj proces nazivamo fino podešavanje i često se koristi za dalje poboljšanje rezultata LLM-a na određenom zadatku.

Na primjer, možda želite koristiti LLM za generiranje sadržaja za svoj Twitter račun. Možemo dati modelu nekoliko primjera vaših prethodnih tvitova kako bismo mu dali ideju o željenom rezultatu.

Postoji nekoliko različitih tipova finog podešavanja.

veliki jezički modeli su sposobni za učenje u nekoliko hitaca

Učenje u nekoliko hitaca odnosi se na proces davanja modelu malog broja primjera uz očekivanje da će jezički model shvatiti kako napraviti sličan izlaz. Jednokratno učenje je sličan proces osim što je naveden samo jedan primjer.

Ograničenja velikih jezičkih modela

LLM-ovi kao što je GPT-3 su sposobni da izvedu veliki broj slučajeva upotrebe čak i bez finog podešavanja. Međutim, ovi modeli i dalje dolaze sa svojim vlastitim skupom ograničenja.

Nedostatak semantičkog razumijevanja svijeta

Na površini se čini da LLM pokazuju inteligenciju. Međutim, ovi modeli ne rade na isti način ljudski mozak radi. LLM se isključivo oslanjaju na statističke proračune za generiranje rezultata. Oni nemaju kapacitet da sami obrazlažu ideje i koncepte.

Zbog toga, LLM može dati besmislene odgovore jednostavno zato što riječi izgledaju "ispravno" ili "statistički vjerovatne" kada su postavljene tim određenim redoslijedom.

halucinacije

Modeli poput GPT-3 takođe pate od netačnih odgovora. LLM mogu patiti od fenomena poznatog kao halucinacije gdje modeli daju činjenično netačan odgovor bez ikakve svijesti da odgovor nema osnove u stvarnosti.

Na primjer, korisnik može zatražiti od modela da objasni razmišljanja Stevea Jobsa o najnovijem iPhoneu. Model može generirati citat iz tankog zraka na osnovu svojih podataka o obuci.

Predrasude i ograničeno znanje

Kao i mnogi drugi algoritmi, veliki jezički modeli su skloni naslijeđivanju predrasuda prisutnih u podacima o obuci. Kako se počinjemo više oslanjati na LLM-ove za pronalaženje informacija, programeri ovih modela bi trebali pronaći načine da ublaže potencijalno štetne efekte pristrasnih odgovora.

U sličnom kapacitetu, slepe tačke podataka o obuci modela će takođe ometati sam model. Trenutno, za obuku velikih jezičkih modela potrebni su mjeseci. Ovi modeli se također oslanjaju na skupove podataka koji su ograničenog opsega. Zbog toga ChatGPT ima samo ograničeno znanje o događajima koji su se dogodili nakon 2021.

zaključak

Veliki jezički modeli imaju potencijal da istinski promijene način na koji komuniciramo s tehnologijom i našim svijetom općenito.

Ogromna količina podataka dostupnih na internetu dala je istraživačima način da modeliraju složenost jezika. Međutim, na tom putu, čini se da su ovi jezički modeli prihvatili ljudsko razumijevanje svijeta kakav on jeste.

Kako javnost počinje vjerovati ovim jezičkim modelima da daju precizne rezultate, istraživači i programeri već pronalaze načine da dodaju zaštitne ograde kako bi tehnologija ostala etička.

Šta mislite da je budućnost LLM-a?

Veliki jezički modeli: sve što trebate znati

Šta je veliki jezički model?

Kako se LLM obučavaju?