Klasičan problem u umjetnoj inteligenciji je potraga za strojem koji može razumjeti ljudski jezik.
Na primjer, kada tražite "obližnje talijanske restorane" na vašoj omiljenoj tražilici, algoritam mora analizirati svaku riječ u vašem upitu i dati relevantne rezultate. Pristojna aplikacija za prevođenje morat će razumjeti kontekst određene riječi na engleskom i nekako objasniti razlike u gramatici između jezika.
Svi ovi zadaci i još mnogo toga spadaju u potpodručje računalne znanosti poznato kao Obrada prirodnog jezika ili NLP-a. Napredak u NLP-u doveo je do širokog spektra praktičnih primjena od virtualnih pomoćnika poput Amazonove Alexe do filtera neželjene pošte koji otkrivaju zlonamjernu e-poštu.
Najnoviji napredak u NLP-u je ideja a veliki jezični model ili LLM. LLM kao što je GPT-3 postali su toliko moćni da se čini uspješnim u gotovo svakom NLP zadatku ili slučaju upotrebe.
U ovom ćemo članku pogledati što su točno LLM-ovi, kako se obučavaju ti modeli i trenutna ograničenja koja imaju.
Što je veliki jezični model?
U svojoj srži, jezični model je jednostavno algoritam koji zna koliko je vjerojatno da je niz riječi valjana rečenica.
Vrlo jednostavan jezični model uvježban na nekoliko stotina knjiga trebao bi moći reći da je "Otišao je kući" valjanije od "Otišao je kući".
Zamijenimo li relativno mali skup podataka ogromnim skupom podataka s interneta, počinjemo se približavati ideji veliki jezični model.
Korištenje neuronske mreže, istraživači mogu trenirati LLM-e na velikoj količini tekstualnih podataka. Zbog količine tekstualnih podataka koje je model vidio, LLM postaje vrlo dobar u predviđanju sljedeće riječi u nizu.
Model postaje toliko sofisticiran da može obavljati mnogo NLP zadataka. Ovi zadaci uključuju sažimanje teksta, stvaranje novog sadržaja, pa čak i simulaciju ljudskog razgovora.
Na primjer, vrlo popularan jezični model GPT-3 obučen je s više od 175 milijardi parametara i smatra se najnaprednijim jezičnim modelom dosad.
Može generirati radni kod, napisati cijele članke i pokušati odgovoriti na pitanja o bilo kojoj temi.
Kako se obučavaju LLM?
Ukratko smo se dotakli činjenice da doktori prava duguju veliku snagu veličini svojih podataka o obuci. Ipak postoji razlog zašto ih nazivamo "velikim" jezičnim modelima.
Predobuka s transformatorskom arhitekturom
Tijekom faze predosposobljavanja, LLM-i se upoznaju s postojećim tekstualnim podacima kako bi naučili opću strukturu i pravila jezika.
U proteklih nekoliko godina LLM-i su prethodno obučeni za skupove podataka koji pokrivaju značajan dio javnog interneta. Na primjer, jezični model GPT-3 treniran je na podacima iz Uobičajeno puzanje skup podataka, korpus web objava, web stranica i digitaliziranih knjiga sakupljenih s preko 50 milijuna domena.
Masivni skup podataka zatim se unosi u model poznat kao a transformator. Transformatori su vrsta duboka neuronska mreža koji najbolje funkcionira za sekvencijalne podatke.
Transformatori koriste an koder-dekoder arhitektura za rukovanje ulazom i izlazom. U biti, transformator sadrži dvije neuronske mreže: koder i dekoder. Koder može izdvojiti značenje ulaznog teksta i pohraniti ga kao vektor. Dekoder tada prima vektor i proizvodi svoju interpretaciju teksta.
Međutim, ključni koncept koji je omogućio tako dobru arhitekturu transformatora je dodavanje a mehanizam samopažnje. Koncept samopažnje omogućio je modelu da obrati pozornost na najvažnije riječi u datoj rečenici. Mehanizam čak uzastopno uzima u obzir težine između riječi koje su međusobno udaljene.
Još jedna prednost samopažnje je da se proces može paralelizirati. Umjesto obrade sekvencijalnih podataka po redu, modeli transformatora mogu obraditi sve ulaze odjednom. To transformatorima omogućuje relativno brzo treniranje na velikim količinama podataka u usporedbi s drugim metodama.
Fino podešavanje
Nakon faze predobuke, možete odlučiti uvesti novi tekst za osnovni LLM na kojem ćete se obučavati. Ovaj proces nazivamo fino podešavanje i često se koristi za daljnje poboljšanje rezultata LLM-a na određenom zadatku.
Na primjer, možda biste željeli koristiti LLM za generiranje sadržaja za svoj Twitter račun. Modelu možemo pružiti nekoliko primjera vaših prethodnih tweetova kako bismo dobili ideju o željenom rezultatu.
Postoji nekoliko različitih vrsta finog podešavanja.
Učenje u nekoliko navrata odnosi se na proces davanja malog broja primjera modelu uz očekivanje da će jezični model smisliti kako napraviti sličan izlaz. Jednokratno učenje je sličan proces osim što je dan samo jedan primjer.
Ograničenja velikih jezičnih modela
LLM-ovi kao što je GPT-3 sposobni su izvesti veliki broj slučajeva upotrebe čak i bez finog podešavanja. Međutim, ti modeli još uvijek dolaze sa svojim skupom ograničenja.
Nedostatak semantičkog razumijevanja svijeta
Na površini se čini da LLM pokazuju inteligenciju. Međutim, ovi modeli ne rade na isti način ljudski mozak radi. LLM se isključivo oslanjaju na statističke proračune za generiranje rezultata. Oni nemaju sposobnost da sami obrazlažu ideje i koncepte.
Zbog toga LLM može dati besmislene odgovore jednostavno zato što se riječi čine "ispravnim" ili "statistički vjerojatnim" kada se postave tim određenim redoslijedom.
Halucinacije
Modeli poput GPT-3 također pate od netočnih odgovora. LLM-i mogu patiti od fenomena poznatog kao halucinacija gdje modeli izlaze činjenično netočan odgovor bez ikakve svijesti da odgovor nema temelja u stvarnosti.
Na primjer, korisnik može zatražiti od modela da mu objasni što Steve Jobs misli o najnovijem iPhoneu. Model može generirati ponudu iz zraka na temelju podataka o obuci.
Predrasude i ograničeno znanje
Kao i mnogi drugi algoritmi, veliki jezični modeli skloni su naslijeđivanju pristranosti prisutnih u podacima za obuku. Kako se sve više počinjemo oslanjati na LLM-ove za dohvaćanje informacija, programeri ovih modela trebali bi pronaći načine za ublažavanje potencijalno štetnih učinaka pristranih odgovora.
U sličnom svojstvu, slijepe točke podataka o obuci modela također će ometati sam model. Trenutačno, obučavanje velikih jezičnih modela traje mjesecima. Ovi se modeli također oslanjaju na skupove podataka koji su ograničenog opsega. Zbog toga ChatGPT ima samo ograničeno znanje o događajima koji su se dogodili nakon 2021.
Zaključak
Veliki jezični modeli imaju potencijal istinski promijeniti način na koji komuniciramo s tehnologijom i našim svijetom općenito.
Ogromna količina podataka dostupnih na internetu dala je istraživačima način da modeliraju složenost jezika. Međutim, usput se čini da su ovi jezični modeli preuzeli ljudsko razumijevanje svijeta kakav jest.
Kako javnost počinje vjerovati da ovi jezični modeli daju točne rezultate, istraživači i programeri već pronalaze načine za dodavanje zaštitnih ograda kako bi tehnologija ostala etična.
Što mislite kakva je budućnost LLM studija?
Ostavi odgovor