Adimen artifizialaren arazo klasiko bat giza hizkuntza uler dezakeen makina bat bilatzea da.
Adibidez, zure gogoko bilaketa-motorrean "inguruko jatetxe italiarrak" bilatzean, algoritmo batek zure kontsultako hitz bakoitza aztertu eta dagozkion emaitzak atera behar ditu. Itzulpen-aplikazio duin batek ingelesez hitz jakin baten testuingurua ulertu beharko du eta nolabait hizkuntzen arteko gramatikaren desberdintasunak kontuan hartu beharko ditu.
Zeregin horiek guztiak eta askoz gehiago bezala ezagutzen den informatikaren azpiesparruan sartzen dira Hizkuntza naturala prozesatzea edo NLP. NLPren aurrerapenek aplikazio praktiko ugari sortu dituzte Amazon-en Alexa bezalako laguntzaile birtualetatik mezu gaiztoak detektatzen dituzten spam-iragazkiak.
NLPren azken aurrerapen bat a ideia da hizkuntza eredu handia edo LLM. GPT-3 bezalako LLMak hain indartsuak bihurtu dira, non badirudi ia edozein NLP zeregin edo erabilera kasutan arrakasta dutela.
Artikulu honetan, LLMak zer diren, eredu horiek nola entrenatzen diren eta gaur egungo mugak aztertuko ditugu.
Zer da hizkuntza eredu handi bat?
Bere oinarrian, hizkuntza-eredu bat hitz-segida bat baliozko esaldi bat zenbaterainokoa den dakien algoritmo bat besterik ez da.
Ehunka liburutan trebatutako hizkuntza-eredu oso sinple batek "Etxera joan zen" "Etxera joan zen" baino balio handiagoa duela esan beharko luke.
Datu multzo txiki samarra Internetetik ateratako datu multzo masibo batekin ordezkatzen badugu, ideia baten ideiara hurbiltzen hasiko gara. hizkuntza eredu handia.
erabiliz neural sareak, ikertzaileek LLM-ak entrenatu ditzakete testu-datu kopuru handi batean. Ereduak ikusi duen testu-datu kopurua dela eta, LLM oso ona bihurtzen da sekuentzia bateko hurrengo hitza iragartzeko.
Eredua hain sofistikatua bihurtzen da, NLP zeregin asko egin ditzake. Zeregin horien artean, testua laburtzea, eduki berriak sortzea eta baita gizakiaren antzeko elkarrizketa simulatzea ere.
Adibidez, oso ezaguna den GPT-3 hizkuntza-eredua 175 milioi parametro baino gehiagorekin entrenatzen da eta orain arteko hizkuntza-eredu aurreratuena dela uste da.
Lan-kodea sortzeko gai da, artikulu osoak idazteko eta edozein gairi buruzko galderei erantzuteko aukera ematen du.
Nola trebatzen dira LLMak?
Labur ukitu dugu LLM-ek beren prestakuntza-datuen tamainari zor diotela indar handia. Arrazoi bat bada hizkuntza eredu “handiak” deitzen diegun azken finean.
Aurre-prestakuntza Transformer Arkitektura batekin
Prestakuntza-aurreko fasean, LLMak lehendik dauden testu-datuetara sartzen dira hizkuntza baten egitura eta arau orokorrak ikasteko.
Azken urteotan, LLM-ak Internet publikoaren zati garrantzitsu bat estaltzen duten datu multzoetan aldez aurretik trebatu dira. Adibidez, GPT-3-ren hizkuntza-eredua datuen arabera trebatu zen Ohiko arakatzea datu-multzoa, 50 milioi domeinu baino gehiagotik ateratako web-mezuen, web-orrien eta liburu digitalizatuen corpusa.
Datu multzo masiboa a gisa ezagutzen den eredu batera sartzen da transformatua. Transformadoreak mota bat dira neurona-sare sakona datu sekuentzialetarako ondoen funtzionatzen duena.
Transformadoreek an erabiltzen dute kodetzaile-deskodetzaile arkitektura sarrera eta irteera kudeatzeko. Funtsean, transformadoreak bi sare neuronal ditu: kodetzailea eta deskodetzailea. Kodetzaileak sarrerako testuaren esanahia atera dezake eta bektore gisa gorde dezake. Ondoren, deskodetzaileak bektorea jasotzen du eta testuaren interpretazioa egiten du.
Hala ere, transformadorearen arkitekturari hain ondo funtzionatzea ahalbidetu zion funtsezko kontzeptua a gehitzea da autoarreta mekanismoa. Autoarreta kontzeptuari esker, ereduari esaldi jakin bateko hitz garrantzitsuenei erreparatzeko aukera ematen zion. Mekanismoak urrun dauden hitzen arteko pisuak ere kontuan hartzen ditu sekuentzialki.
Norberaren arretaren beste onura bat prozesua paralelizatu daitekeela da. Datu sekuentzialak ordenan prozesatu beharrean, transformadore-ereduek sarrera guztiak aldi berean prozesatu ditzakete. Horri esker, transformadoreei datu kopuru handietan trebatzea nahiko azkar beste metodoekin alderatuta.
Doiketa fina
Prestakuntza-aurreko etaparen ondoren, oinarrizko LLMrako testu berria sartzea aukera dezakezu trebatzeko. Prozesu honi deitzen diogu doitzea eta maiz erabiltzen da LLMren irteera zeregin zehatz batean gehiago hobetzeko.
Adibidez, baliteke LLM bat erabiltzea zure Twitter konturako edukia sortzeko. Ereduari zure aurreko txioen hainbat adibide eman ditzakegu nahi den irteeraren ideia bat emateko.
Hainbat doikuntza mota daude.
Tiro gutxiko ikaskuntza eredu bati adibide kopuru txiki bat emateko prozesuari egiten dio erreferentzia, hizkuntza-ereduak antzeko irteera nola egin asmatuko duelakoan. Kolpe bakarreko ikaskuntza antzeko prozesu bat da, adibide bakarra ematen den izan ezik.
Hizkuntza-eredu handien mugak
GPT-3 bezalako LLMak erabilera-kasu ugari egiteko gai dira, doikuntza zehatzik gabe ere. Hala ere, eredu hauek beren mugak dituzte oraindik.
Munduaren ulermen semantikorik eza
Azalean, LLMak adimena erakusten duela dirudi. Hala ere, eredu hauek ez dute funtzionatzen modu berean giza garuna egiten du. LLMak konputazio estatistikoetan soilik oinarritzen dira irteera sortzeko. Ez dute beren kabuz ideiak eta kontzeptuak arrazoitzeko gaitasunik.
Hori dela eta, LLM batek zentzugabeko erantzunak atera ditzake hitzak ordena zehatz horretan jartzen direnean "egokiak" edo "estatistikoki litekeena" diruditelako.
hallucinations
GPT-3 bezalako ereduek ere erantzun okerrak jasaten dituzte. LLM-ek izenez ezagutzen den fenomenoa pairatu dezakete haluzinazio non ereduek egiazko erantzun okerra ematen dute erantzunak errealitatean oinarririk ez duela kontzienterik gabe.
Esaterako, erabiltzaile batek modeloari Steve Jobsen azken iPhone-n duen pentsamenduak azaltzeko eska diezaioke. Ereduak aire mehetik aurrekontu bat sor dezake bere prestakuntza-datuetan oinarrituta.
Alborapenak eta Ezagutza mugatua
Beste algoritmo askok bezala, hizkuntza-eredu handiek prestakuntza-datuetan dauden alborapenak heredatzeko joera dute. Informazioa berreskuratzeko LLM-etan oinarritzen garen heinean, eredu hauen garatzaileek erantzun alboratuak izan ditzaketen ondorio kaltegarriak arintzeko moduak aurkitu beharko lituzkete.
Antzeko gaitasunean, ereduaren prestakuntza-datuen puntu itsuek ere oztopatuko dute eredua bera. Gaur egun, hizkuntza eredu handiek hilabeteak behar dituzte entrenatzeko. Eredu hauek esparru mugatua duten datu multzoetan ere oinarritzen dira. Horregatik, ChatGPT-k 2021etik aurrera gertatutako gertaeren ezagutza mugatua du.
Ondorioa
Hizkuntz eredu handiek teknologiarekin eta, oro har, gure munduarekin erlazionatzeko modua benetan aldatzeko ahalmena dute.
Interneten dagoen datu kopuru handiak hizkuntzaren konplexutasunak modelatzeko modua eman die ikerlariei. Hala ere, bidean, badirudi hizkuntza-eredu hauek mundua den bezala ulertzeko gizakiaren antzekoa jaso dutela.
Publikoa hizkuntza-eredu horiek emaitza zehatza emateko fidatzen hasten den heinean, ikertzaileak eta garatzaileak jada guardrails gehitzeko moduak aurkitzen ari dira, teknologia etikoa izaten jarraitzeko.
Zein da zure ustez LLMen etorkizuna?
Utzi erantzun bat