Klassikaline tehisintellekti probleem on masina otsimine, mis suudaks mõista inimkeelt.
Näiteks kui otsite oma lemmikotsingumootoris sõna "lähedal asuvad Itaalia restoranid", peab algoritm analüüsima iga sõna teie päringus ja väljastama asjakohased tulemused. Korralik tõlkerakendus peab mõistma konkreetse ingliskeelse sõna konteksti ja kuidagi arvestama keelte grammatika erinevustega.
Kõik need ülesanded ja palju muud kuuluvad arvutiteaduse alamvaldkonda Natural Language Processing või NLP. NLP edusammud on toonud kaasa laia valiku praktilisi rakendusi alates virtuaalsetest assistentidest, nagu Amazoni Alexa, kuni rämpspostifiltriteni, mis tuvastavad pahatahtlikke e-kirju.
Kõige värskem läbimurre NLP-s on idee a suur keelemudel või LLM. LLM-id, nagu GPT-3, on muutunud nii võimsaks, et näivad õnnestuvat peaaegu igas NLP-ülesandes või kasutusjuhtumis.
Selles artiklis uurime, mis täpselt on LLM-id, kuidas neid mudeleid koolitatakse ja millised on nende praegused piirangud.
Mis on suur keelemudel?
Oma tuumaks on keelemudel lihtsalt algoritm, mis teab, kui tõenäoline on sõnade jada kehtiv lause.
Väga lihtne keelemudel, mis on koolitatud mõnesajal raamatul, peaks suutma öelda, et “Ta läks koju” on õigem kui “Koju läks ta”.
Kui asendame suhteliselt väikese andmestiku massilise Internetist kraabitud andmekogumiga, hakkame lähenema ideele suur keelemudel.
Kasutamine närvivõrgud, saavad teadlased koolitada LLM-e suure hulga tekstiandmete põhjal. Mudeli nähtud tekstiandmete hulga tõttu muutub LLM väga hästi jada järgmise sõna ennustamiseks.
Mudel muutub nii keerukaks, et suudab täita palju NLP-ülesandeid. Need ülesanded hõlmavad teksti kokkuvõtmist, uudse sisu loomist ja isegi inimliku vestluse simuleerimist.
Näiteks ülipopulaarne GPT-3 keelemudel on koolitatud üle 175 miljardi parameetriga ja seda peetakse seni kõige arenenumaks keelemudeliks.
See suudab genereerida toimivat koodi, kirjutada terveid artikleid ja vastata mis tahes teemaga seotud küsimustele.
Kuidas LLM-e koolitatakse?
Oleme põgusalt puudutanud tõsiasja, et LLM-id võlgnevad suure osa oma jõust nende koolitusandmete suurusele. On põhjus, miks me nimetame neid lõppude lõpuks "suurteks" keelemudeliteks.
Eelkoolitus trafoarhitektuuriga
Eelkoolituse etapis tutvustatakse LLM-idele olemasolevaid tekstiandmeid, et õppida tundma keele üldist struktuuri ja reegleid.
Viimastel aastatel on LLM-id saanud eelkoolituse andmekogumite osas, mis katavad märkimisväärse osa avalikust Internetist. Näiteks GPT-3 keelemudelit õpetati välja andmete põhjal Ühine indekseerimine andmestik, veebipostituste, veebilehtede ja digiteeritud raamatute kogum, mis on kogutud enam kui 50 miljonist domeenist.
Massiivne andmekogum sisestatakse seejärel mudelisse, mida nimetatakse a trafo. Trafod on teatud tüüpi sügav närvivõrk mis sobib kõige paremini järjestikuste andmete jaoks.
Trafod kasutavad an kodeerija-dekoodri arhitektuur sisendi ja väljundi käsitlemiseks. Põhimõtteliselt sisaldab trafo kahte närvivõrku: kodeerijat ja dekoodrit. Kodeerija saab eraldada sisendteksti tähenduse ja salvestada selle vektorina. Seejärel võtab dekooder vastu vektori ja loob oma tõlgenduse tekstist.
Põhikontseptsioon, mis võimaldas trafo arhitektuuril nii hästi töötada, on aga a enesetähelepanu mehhanism. Enesetähelepanu mõiste võimaldas mudelil pöörata tähelepanu antud lause kõige olulisematele sõnadele. Mehhanism arvestab isegi üksteisest kaugel asuvate sõnade vahelisi kaalusid.
Teine enesetähelepanu eelis on see, et protsessi saab paralleelselt ühendada. Selle asemel, et töödelda järjestikuseid andmeid, saavad trafomudelid töödelda kõiki sisendeid korraga. See võimaldab trafodel teiste meetoditega võrreldes suhteliselt kiiresti treenida tohutul hulgal andmemahtudel.
Peenhäälestus
Pärast eelkoolitusetappi saate valida, kas sisestate baas-LLM-i jaoks uue teksti, mille alusel treenida. Me nimetame seda protsessi peenhäälestus ja seda kasutatakse sageli konkreetse ülesande LLM-i väljundi edasiseks parandamiseks.
Näiteks võite oma Twitteri konto jaoks sisu loomiseks kasutada LLM-i. Soovitud väljundist aimu andmiseks saame mudelile esitada mitu näidet teie varasematest säutsustest.
Peenhäälestamist on mitut erinevat tüüpi.
Vähem õppimine viitab mudelile väikese arvu näidete esitamise protsessile, eeldades, et keelemudel mõtleb välja, kuidas sarnast väljundit teha. Ühekordne õppimine on sarnane protsess, välja arvatud ainult üks näide.
Suurte keelemudelite piirangud
LLM-id, nagu GPT-3, on võimelised täitma paljusid kasutusjuhtumeid isegi ilma peenhäälestuseta. Nendel mudelitel on siiski oma piirangud.
Maailma semantilise mõistmise puudumine
Peamiselt näib, et LLM-id näitavad intelligentsust. Need mudelid ei tööta aga samamoodi inimese aju teeb. LLM-id toetuvad väljundi genereerimiseks ainult statistilistele arvutustele. Nad ei suuda iseseisvalt ideid ja kontseptsioone välja mõelda.
Seetõttu saab LLM väljastada mõttetuid vastuseid lihtsalt seetõttu, et sõnad tunduvad „õiged” või „statistiliselt tõenäolised”, kui need on selles kindlas järjekorras paigutatud.
hallutsinatsioonid
Mudelid nagu GPT-3 kannatavad ka ebatäpsete vastuste all. LLM-id võivad kannatada nähtuse all, mida nimetatakse hallutsinatsioonid kus mudelid väljastavad faktiliselt vale vastuse, teadmata, et vastusel puudub tegelikkus.
Näiteks võib kasutaja paluda mudelil selgitada Steve Jobsi mõtteid uusima iPhone'i kohta. Mudel võib oma treeningandmete põhjal luua õhust hinnapakkumise.
Eelarvamused ja piiratud teadmised
Nagu paljud teised algoritmid, on suured keelemudelid kalduvad pärima koolitusandmetes esinevaid eelarvamusi. Kuna hakkame teabe hankimisel rohkem lootma LLM-idele, peaksid nende mudelite arendajad leidma viise kallutatud vastuste potentsiaalselt kahjulike mõjude leevendamiseks.
Sarnasel tasemel takistavad mudeli treeningandmete pimealad ka mudelit ennast. Praegu kulub suurte keelemudelite koolitamiseks kuid. Need mudelid tuginevad ka piiratud ulatusega andmekogumitele. Seetõttu on ChatGPT-l vaid piiratud teadmised sündmustest, mis toimusid pärast 2021. aastat.
Järeldus
Suured keelemudelid võivad tõeliselt muuta seda, kuidas me tehnoloogiaga ja meie maailmaga üldiselt suhtleme.
Internetis saadaolevate andmete tohutu hulk on andnud teadlastele võimaluse modelleerida keele keerukust. Siiski näivad need keelemudelid olevat omandanud inimliku arusaama maailmast sellisena, nagu see on.
Kuna avalikkus hakkab usaldama neid keelemudeleid, et pakkuda täpset väljundit, leiavad teadlased ja arendajad juba võimalusi kaitsepiirete lisamiseks, et tehnoloogia jääks eetiliseks.
Mis on teie arvates LLM-ide tulevik?
Jäta vastus