Klasična težava umetne inteligence je iskanje stroja, ki bi lahko razumel človeški jezik.
Na primer, ko iščete »bližnje italijanske restavracije« v vašem priljubljenem iskalniku, mora algoritem analizirati vsako besedo v vaši poizvedbi in izpisati ustrezne rezultate. Primerna prevajalska aplikacija bo morala razumeti kontekst določene besede v angleščini in nekako upoštevati slovnične razlike med jeziki.
Vse te naloge in še veliko več spadajo v podpodročje računalništva, znano kot Obdelava Natural Language ali NLP. Napredek v NLP je privedel do široke palete praktičnih aplikacij od virtualnih pomočnikov, kot je Amazonova Alexa, do filtrov neželene pošte, ki zaznajo zlonamerno e-pošto.
Najnovejši preboj v NLP je ideja a velik jezikovni model ali LLM. LLM-ji, kot je GPT-3, so postali tako močni, da se zdi, da uspejo v skoraj vseh NLP nalogah ali primerih uporabe.
V tem članku bomo preučili, kaj točno so LLM, kako se ti modeli usposabljajo in trenutne omejitve, ki jih imajo.
Kaj je velik jezikovni model?
V svojem bistvu je jezikovni model preprosto algoritem, ki ve, kako verjetno je zaporedje besed veljaven stavek.
Zelo preprost jezikovni model, naučen na nekaj sto knjigah, bi moral povedati, da je »Šel je domov« bolj veljaven kot »Home je šel«.
Če razmeroma majhen nabor podatkov nadomestimo z ogromnim naborom podatkov, postrganim iz interneta, se začnemo približevati zamisli o velik jezikovni model.
Uporaba nevronske mreže, lahko raziskovalci usposabljajo LLM-je na veliki količini besedilnih podatkov. Zaradi količine besedilnih podatkov, ki jih je videl model, LLM postane zelo dober pri napovedovanju naslednje besede v zaporedju.
Model postane tako prefinjen, da lahko opravi veliko NLP nalog. Te naloge vključujejo povzemanje besedila, ustvarjanje nove vsebine in celo simulacijo človeškega pogovora.
Na primer, zelo priljubljen jezikovni model GPT-3 je usposobljen z več kot 175 milijardami parametrov in velja za najnaprednejši jezikovni model doslej.
Lahko ustvari delujočo kodo, napiše celotne članke in lahko poskuša odgovarjati na vprašanja o kateri koli temi.
Kako se usposabljajo LLM?
Na kratko smo se dotaknili dejstva, da LLM veliko svojo moč dolgujejo velikosti svojih podatkov o usposabljanju. Konec koncev obstaja razlog, zakaj jih imenujemo "veliki" jezikovni modeli.
Predhodno usposabljanje s transformatorsko arhitekturo
V fazi predhodnega usposabljanja se LLM-ji seznanijo z obstoječimi besedilnimi podatki, da se naučijo splošne strukture in pravil jezika.
V zadnjih nekaj letih so bili LLM predhodno usposobljeni za nabore podatkov, ki pokrivajo velik del javnega interneta. Na primer, jezikovni model GPT-3 je bil učen na podlagi podatkov iz Navadni pajk nabor podatkov, korpus spletnih objav, spletnih strani in digitaliziranih knjig, pobranih iz več kot 50 milijonov domen.
Ogromen nabor podatkov se nato vnese v model, znan kot a transformator. Transformatorji so vrsta globoka nevronska mreža ki najbolje deluje pri zaporednih podatkih.
Transformatorji uporabljajo an arhitektura kodirnika-dekoderja za obdelavo vnosa in izhoda. V bistvu transformator vsebuje dve nevronski mreži: kodirnik in dekoder. Kodirnik lahko izlušči pomen vnesenega besedila in ga shrani kot vektor. Dekoder nato sprejme vektor in ustvari svojo interpretacijo besedila.
Vendar je ključni koncept, ki je omogočil tako dobro delovanje transformatorske arhitekture, dodatek a mehanizem samopozornosti. Koncept samopozornosti je modelu omogočil, da je pozoren na najpomembnejše besede v danem stavku. Mehanizem celo upošteva uteži med besedami, ki so zaporedoma daleč narazen.
Druga prednost samopozornosti je, da je proces mogoče paralelizirati. Namesto obdelave zaporednih podatkov po vrstnem redu lahko modeli transformatorjev obdelajo vse vhode hkrati. To transformatorjem omogoča relativno hitro usposabljanje na ogromnih količinah podatkov v primerjavi z drugimi metodami.
Fina nastavitev
Po fazi pred usposabljanjem se lahko odločite za uvedbo novega besedila za osnovni LLM, na katerem se boste usposabljali. Temu procesu pravimo fina nastavitev in se pogosto uporablja za nadaljnje izboljšanje rezultatov LLM pri določeni nalogi.
Na primer, morda boste želeli uporabiti LLM za ustvarjanje vsebine za svoj račun Twitter. Modelu lahko posredujemo več primerov vaših prejšnjih tvitov, da dobi predstavo o želenem rezultatu.
Obstaja nekaj različnih vrst finih nastavitev.
Nekaj posnetkov učenja se nanaša na postopek dajanja majhnega števila primerov modelu s pričakovanjem, da bo jezikovni model ugotovil, kako narediti podoben rezultat. Enkratno učenje je podoben postopek, le da je naveden samo en primer.
Omejitve velikih jezikovnih modelov
LLM-ji, kot je GPT-3, lahko izvedejo veliko število primerov uporabe tudi brez natančnega prilagajanja. Vendar imajo ti modeli še vedno svoje omejitve.
Pomanjkanje semantičnega razumevanja sveta
Na površini se zdi, da LLM-ji izkazujejo inteligenco. Vendar ti modeli ne delujejo na enak način človeških možganov počne. LLM se za ustvarjanje rezultatov zanašajo izključno na statistične izračune. Nimajo sposobnosti, da bi sami razmišljali o idejah in konceptih.
Zaradi tega lahko LLM daje nesmiselne odgovore preprosto zato, ker se besede zdijo "prave" ali "statistično verjetne", če so postavljene v tem določenem vrstnem redu.
Halucinacije
Modeli, kot je GPT-3, imajo tudi netočne odzive. LLM lahko trpijo zaradi pojava, znanega kot halucinacija kjer modeli izpišejo dejansko napačen odgovor, ne da bi se zavedali, da odgovor nima podlage v realnosti.
Na primer, uporabnik lahko vpraša model, naj pojasni misli Steva Jobsa o najnovejšem iPhonu. Model lahko ustvari ponudbo iz nič na podlagi svojih podatkov o usposabljanju.
Pristranskosti in omejeno znanje
Tako kot mnogi drugi algoritmi so veliki jezikovni modeli nagnjeni k podedovanju pristranskosti, prisotnih v podatkih za usposabljanje. Ko se pri pridobivanju informacij začnemo bolj zanašati na LLM, bi morali razvijalci teh modelov najti načine za ublažitev potencialno škodljivih učinkov pristranskih odzivov.
V podobni vlogi bodo slepe pege podatkov o usposabljanju modela ovirale tudi sam model. Trenutno se za usposabljanje velikih jezikovnih modelov potrebujejo meseci. Ti modeli se zanašajo tudi na nize podatkov, ki imajo omejen obseg. Zato ima ChatGPT le omejeno znanje o dogodkih, ki so se zgodili po letu 2021.
zaključek
Veliki jezikovni modeli imajo potencial, da resnično spremenijo našo interakcijo s tehnologijo in našim svetom na splošno.
Ogromna količina podatkov, ki so na voljo na internetu, je raziskovalcem omogočila modeliranje zapletenosti jezika. Vendar se zdi, da so ti jezikovni modeli na tej poti prevzeli človeško podobno razumevanje sveta, kakršen je.
Ko javnost začne zaupati tem jezikovnim modelom, da zagotavljajo natančne rezultate, raziskovalci in razvijalci že iščejo načine za dodajanje varoval, tako da tehnologija ostaja etična.
Kakšna je po vašem mnenju prihodnost LLM?
Pustite Odgovori