ChatGPT-ren prestakuntza-prozesu osoa azaldu da

Edukien aurkibidea[Ezkutatu][Erakutsi]

Aurretrebakuntza generatiboa+-
- Lerrokatze-arazoa
Gainbegiratua Afinazioa+-
- Gainbegiratze-mugak: banaketa-txanda
Hobespenetan oinarrituta, sari ikaskuntza
Zer dauka Etorkizunak?

ChatGPT adimen artifizialaren hizkuntza eredu nabarmena da. Denok erabiltzen dugu hainbat zereginetan laguntzeko.

Inoiz galdetu al duzu nola trebatu zen hain giza itxura duten erantzunak sortzeko? Artikulu honetan, ChatGPT-ren prestakuntza aztertuko dugu.

Azalduko dugu nola eboluzionatu den nabarmenenetako batean hizkuntza ereduak. ChatGPT-ren mundu interesgarria arakatzen ari garen bitartean, etorri aurkikuntza-bidaia batean.

Prestakuntzaren ikuspegi orokorra

ChatGPT hizkuntza naturalaren prozesatzeko eredua da.

ChatGPT-rekin elkarrizketa interaktiboetan eta gizakien antzeko eztabaidetan parte hartu dezakegu. Honen antzeko ikuspegia erabiltzen du GPT-a eman, abangoardiako hizkuntza eredua dena. ChatGPT baino pixka bat lehenago garatu zen.

Metodo erakargarriagoa erabiltzen du. Horrek erabiltzaileen interakzio naturalak ahalbidetzen ditu. Beraz, tresna ezin hobea da hainbat aplikaziotarako, hala nola chatbots eta laguntzaile birtualak.

ChatGPT-en prestakuntza-prozedura etapa anitzeko prozesua da. Generative Pretraining ChatGPT-ren prestakuntzaren lehen urratsa da.

Fase honetan, eredua testu-datuen corpus handi bat erabiliz entrenatzen da. Ondoren, ereduak hizkuntza naturalean aurkitzen diren korrelazio eta eredu estatistikoak deskubritzen ditu. Beraz, gramatikalki erantzun zehatza eta koherentea izan dezakegu.

Ondoren, gainbegiraturiko doikuntzaren urrats bat jarraituko dugu. Zati honetan, eredua zeregin jakin batean trebatzen da. Adibidez, hizkuntza-itzulpena edo galderen erantzuna egin dezake.

Azkenik, ChatGPT-k gizakien iritzietatik jasotako sarien ikaskuntza erabiltzen du.

Orain, azter ditzagun urrats hauek.

Aurretrebakuntza generatiboa

Hasierako prestakuntza-maila Generative Pretraining da. Hizkuntza ereduak entrenatzeko ohiko metodoa da. Token-sekuentziak sortzeko, metodoak "hurrengo urratsa iragartzeko paradigma" aplikatzen du.

Zer esan nahi du?

Token bakoitza aldagai bakarra da. Hitz bat edo hitz baten zati bat adierazten dute. Eredua zehazten saiatzen da zein den litekeena den hurrengo hitzak aurretik dituen hitzak kontuan hartuta. Bere sekuentziako termino guztietan probabilitate banaketa erabiltzen du.

Hizkuntza ereduen helburua token sekuentziak eraikitzea da. Sekuentzia hauek giza hizkuntzaren ereduak eta egiturak irudikatu behar dituzte. Hori posible da testu-datu kopuru handietan ereduak entrenatuz.

Ondoren, datu hauek hizkuntzan hitzak nola banatzen diren ulertzeko erabiltzen dira.

Prestakuntzan zehar, ereduak probabilitatearen banaketa-parametroak aldatzen ditu.

Eta, testu batean espero diren hitzen eta benetako banaketaren arteko aldea murrizten saiatzen da. Hori posible da galera-funtzio bat erabiliz. Galera-funtzioak esperotako eta benetako banaketaren arteko aldea kalkulatzen du.

Hizkuntza naturala prozesatzea Ikusmen informatikoa Generative Pretraining erabiltzen dugun arloetako bat dira.

Openai 2

Lerrokatze-arazoa

Lerrokatze-arazoa da Generative Pretraining-en zailtasunetako bat. Honek ereduaren probabilitate-banaketa benetako datuen banaketarekin lotzeko zailtasunari egiten dio erreferentzia.
Beste era batera esanda, ereduak sortutako erantzunek gizakiaren antzekoagoak izan beharko lukete.

Ereduak noizean behin ustekabeko erantzunak edo desegokiak eman ditzake. Eta, hori hainbat kausa izan daiteke, hala nola prestakuntza-datuen alborapena edo ereduaren testuinguruaren kontzientzia eza. Lerrokatze-arazoari heldu behar zaio hizkuntza-ereduen kalitatea hobetzeko.

Arazo hori gainditzeko, ChatGPT bezalako hizkuntza-ereduek doikuntza-teknikak erabiltzen dituzte.

Gainbegiratua Afinazioa

ChatGPT prestakuntzaren bigarren zatia gainbegiratua da. Giza garatzaileek elkarrizketak egiten dituzte une honetan, giza erabiltzaile gisa eta txatbot gisa jokatuz.

Hitzaldi hauek datu-multzo batean erregistratu eta batzen dira. Prestakuntza-lagin bakoitzak elkarrizketa-historia desberdin bat biltzen du "chatbot" gisa funtzionatzen duen giza garatzailearen hurrengo erantzunarekin bat datorrena.

Gainbegiratutako doikuntzaren helburua ereduak lotutako erantzunean token-sekuentziari esleitutako probabilitatea maximizatzea da. Metodo hau "imitazio ikaskuntza" edo "portaera-klonazioa" izenez ezagutzen da.

Horrela ereduak erantzun naturalagoak eta koherenteagoak ematen ikas dezake. Giza kontratistek emandako erantzunak errepikatzen ari da.

Gainbegiratua finkatzea hizkuntza-eredua zeregin jakin baterako doi daiteke.

Eman dezagun adibide bat. Demagun chatbot bati filmaren gomendioak ematen irakatsi nahi diogula. Hizkuntza-eredua filmaren deskribapenetan oinarritutako filmen balorazioak aurreikusteko entrenatuko genuke. Eta, pelikularen deskribapen eta balorazioen datu multzo bat erabiliko genuke.

Algoritmoak azkenean irudikatuko luke pelikula baten zein alderdi zegozkion balorazio altuei edo eskasei.

Trebatu ondoren, gure eredua erabil genezake giza erabiltzaileei filmak iradokitzeko. Erabiltzaileek gustuko duten film bat deskriba dezakete, eta txatbot-ak hizkuntza eredu findua erabiliko luke haren parekoak diren film gehiago gomendatzeko.

Gainbegiratze-mugak: banaketa-txanda

Gainbegiratua finkapena helburu zehatz bat betetzeko hizkuntza-eredu bat irakastea da. Hau posible da eredua a elikatuz multzoaren eta, gero, iragarpenak egiteko trebatu. Sistema honek, ordea, "gainbegiratze murrizketak" izenez ezagutzen diren mugak ditu.

Murrizketa horietako bat "banaketa-aldaketa" da. Prestakuntza-datuek ereduak aurkituko lukeen sarreren mundu errealeko banaketa zehaztasunez ez islatzeko aukerari egiten dio erreferentzia.

Errepasa dezagun lehengo adibidea. Filmaren iradokizunen adibidean, baliteke eredua entrenatzeko erabilitako datu-multzoak txatbot-ak topatuko dituen film eta erabiltzaile-hobespenen aniztasuna zehaztasunez ez islatzea. Baliteke txatbot-ak guk nahi bezain ondo ez funtzionatzea.

Ondorioz, entrenamenduan behatu dituen inputak betetzen ditu.

Ikaskuntza gainbegiraturako, eredua instantzia multzo jakin batean soilik entrenatzen denean, arazo hau sortzen da.

Gainera, ereduak hobeto funtziona dezake banaketa-aldaketa baten aurrean, indartze-ikaskuntza erabiltzen bada testuinguru berrietara egokitzen eta akatsetatik ikasten laguntzeko.

Hobespenetan oinarrituta, sari ikaskuntza

Sarien ikaskuntza txatbot bat garatzeko hirugarren prestakuntza-etapa da. Sarien ikaskuntzan, eredua sari-seinalea maximizatzen irakasten da.

Modeloak lana nola eraginkortasunez betetzen duen adierazten duen puntuazioa da. Sari-seinalea ereduaren erantzunak baloratzen edo ebaluatzen dituzten pertsonen sarreran oinarritzen da.

Sarien ikaskuntzak giza erabiltzaileek nahiago dituzten kalitate handiko erantzunak sortzen dituen chatbot bat garatzea du helburu. Horretarako, ikasketa automatikoko teknika izenekoa indartze-ikaskuntza — feedback-etik ikastea barne hartzen duena sari moduan—eredua trebatzeko erabiltzen da.

Txatbot-ak erabiltzaileen galderei erantzuten die, adibidez, unean uneko zereginaren jabekuntzaren arabera, sarien ikaskuntzan ematen zaiona. Ondoren, sari-seinale bat ematen da chatbot-ak zenbaterainoko eraginkortasuna duen errendimenduaren arabera, erantzunak giza epaileek ebaluatu ondoren.

Sari-seinale hau chatbot-ek bere ezarpenak aldatzeko erabiltzen du. Eta zereginen errendimendua hobetzen du.

Sari-ikaskuntzarako muga batzuk

Sarien ikaskuntzaren eragozpen bat da txatbot-en erantzunei buruzko iritzia agian denbora pixka bat ez etortzea, sari-seinalea eskasa eta atzeratua izan daitekeelako. Ondorioz, txatbot-a behar bezala trebatzea zaila izan daiteke, baliteke erantzun zehatzei buruzko iritzia askoz beranduago arte jasoko ez duelako.

Beste arazo bat da giza epaileek erantzun arrakastatsua egiten dutenari buruzko iritzi edo interpretazio desberdinak izan ditzaketela, eta horrek sari-seinalean alborapena eragin dezake. Hori gutxitzeko, hainbat epailek erabiltzen dute sari-seinale fidagarriagoa emateko.

Zer dauka Etorkizunak?

Etorkizuneko hainbat urrats egon daitezke ChatGPTren errendimendua are gehiago hobetzeko.

Ereduaren ulermena areagotzeko, etorkizuneko bide potentzial bat prestakuntza-datu multzo eta datu-iturri gehiago sartzea da. Testualak ez diren sarrerak ulertzeko eta kontuan hartzeko ereduak duen gaitasuna hobetzea ere posible da.

Adibidez, hizkuntza-ereduek bisualak edo soinuak uler ditzakete.

Prestakuntza-teknika espezifikoak sartuz ChatGPT ere hobetu daiteke zenbait zereginetarako. Adibidez, egin dezake sentimenduen azterketa edo hizkuntza naturalaren ekoizpena. Bukatzeko, ChatGPT eta erlazionatutako hizkuntza ereduek aurrera egiteko itxaropen handia erakusten dute.