Tatizo la kawaida katika akili ya bandia ni kutafuta mashine inayoweza kuelewa lugha ya binadamu.
Kwa mfano, unapotafuta "migahawa ya Kiitaliano iliyo karibu" kwenye mtambo wako wa utafutaji unaoupenda, kanuni lazima ichanganue kila neno katika hoja yako na kutoa matokeo yanayofaa. Programu bora ya tafsiri italazimika kuelewa muktadha wa neno fulani katika Kiingereza na kwa njia fulani kuchangia tofauti za sarufi kati ya lugha.
Kazi hizi zote na mengi zaidi huanguka chini ya uwanja mdogo wa sayansi ya kompyuta inayojulikana kama Usindikaji wa lugha ya asili au NLP. Maendeleo katika NLP yamesababisha matumizi mengi ya vitendo kutoka kwa wasaidizi pepe kama vile Alexa ya Amazon hadi vichujio vya barua taka ambavyo hugundua barua pepe hasidi.
Mafanikio ya hivi majuzi zaidi katika NLP ni wazo la a mfano wa lugha kubwa au LLM. LLM kama vile GPT-3 zimekuwa na nguvu sana hivi kwamba zinaonekana kufaulu katika karibu kazi yoyote ya NLP au kesi ya utumiaji.
Katika makala haya, tutaangalia ni nini hasa LLMs, jinsi mifano hii inavyofunzwa, na mapungufu ya sasa waliyo nayo.
Mfano mkubwa wa lugha ni nini?
Kiini chake, modeli ya lugha ni algoriti inayojua uwezekano wa mfuatano wa maneno kuwa sentensi halali.
Mfano wa lugha rahisi sana uliofunzwa kwenye vitabu mia chache unapaswa kuwa na uwezo wa kusema kwamba "Alikwenda nyumbani" ni halali zaidi kuliko "Nyumbani akaenda".
Ikiwa tutabadilisha seti ndogo ya data na seti kubwa ya data iliyofutwa kutoka kwa mtandao, tunaanza kukaribia wazo la a. mfano wa lugha kubwa.
Kutumia mitandao ya neural, watafiti wanaweza kutoa mafunzo kwa LLM kwa kiasi kikubwa cha data ya maandishi. Kwa sababu ya kiasi cha data ya maandishi ambayo mtindo umeona, LLM inakuwa nzuri sana katika kutabiri neno linalofuata katika mlolongo.
Mfano huo unakuwa wa kisasa sana, unaweza kufanya kazi nyingi za NLP. Majukumu haya ni pamoja na kufupisha maandishi, kuunda maudhui ya riwaya, na hata kuiga mazungumzo kama ya binadamu.
Kwa mfano, modeli maarufu ya lugha ya GPT-3 imefunzwa kwa zaidi ya vigezo bilioni 175 na inachukuliwa kuwa modeli ya juu zaidi ya lugha kufikia sasa.
Inaweza kutoa msimbo wa kufanya kazi, kuandika makala yote, na inaweza kuchukua hatua ya kujibu maswali kuhusu mada yoyote.
LLMs Hufunzwaje?
Tumegusia kwa ufupi ukweli kwamba LLM zinadaiwa nguvu zao nyingi kwa saizi ya data ya mafunzo yao. Kuna sababu kwa nini tunawaita mifano ya lugha "kubwa" baada ya yote.
Mafunzo ya awali na Usanifu wa Transfoma
Wakati wa hatua ya awali ya mafunzo, LLMs huletwa kwa data ya maandishi iliyopo ili kujifunza muundo na kanuni za jumla za lugha.
Katika miaka michache iliyopita, LLMs zimepewa mafunzo ya awali kuhusu seti za data zinazoshughulikia sehemu kubwa ya mtandao wa umma. Kwa mfano, modeli ya lugha ya GPT-3 ilifunzwa kuhusu data kutoka kwa Utambazaji wa kawaida seti ya data, mkusanyiko wa machapisho ya wavuti, kurasa za wavuti, na vitabu vya dijitali vilivyofutwa kutoka zaidi ya vikoa milioni 50.
Seti kubwa ya data basi hulishwa kuwa modeli inayojulikana kama a transformer. Transfoma ni aina ya mtandao wa kina wa neva ambayo inafanya kazi vyema zaidi kwa data mfuatano.
Transfoma hutumia usanifu wa encoder-decoder kwa kushughulikia pembejeo na pato. Kimsingi, kibadilishaji kibadilishaji kina mitandao miwili ya neva: encoder na avkodare. Kisimbaji kinaweza kutoa maana ya maandishi ya ingizo na kuihifadhi kama vekta. Avkodare basi hupokea vekta na kutoa tafsiri yake ya maandishi.
Walakini, wazo kuu ambalo liliruhusu usanifu wa kibadilishaji kufanya kazi vizuri ni nyongeza ya a utaratibu wa kujiangalia. Wazo la kujishughulisha liliruhusu mtindo kuzingatia maneno muhimu zaidi katika sentensi fulani. Utaratibu huzingatia hata uzani kati ya maneno ambayo yako mbali sana kwa mpangilio.
Faida nyingine ya kujishughulisha ni kwamba mchakato unaweza kusawazishwa. Badala ya usindikaji wa data mfuatano kwa mpangilio, mifano ya kibadilishaji inaweza kusindika pembejeo zote mara moja. Hii huwezesha transfoma kutoa mafunzo kwa idadi kubwa ya data kwa haraka ikilinganishwa na mbinu zingine.
Kupanga vizuri
Baada ya hatua ya mafunzo ya awali, unaweza kuchagua kutambulisha maandishi mapya kwa LLM ya msingi ya kufundisha. Tunaita mchakato huu kupanga vizuri na mara nyingi hutumiwa kuboresha zaidi matokeo ya LLM kwenye kazi maalum.
Kwa mfano, unaweza kutaka kutumia LLM kutengeneza maudhui ya akaunti yako ya Twitter. Tunaweza kumpa kielelezo mifano kadhaa ya twiti zako za awali ili kuipa wazo la matokeo unayotaka.
Kuna aina chache tofauti za kurekebisha vizuri.
Kujifunza kwa risasi chache inarejelea mchakato wa kutoa modeli idadi ndogo ya mifano kwa matarajio kwamba modeli ya lugha itagundua jinsi ya kutoa matokeo sawa. Kujifunza kwa risasi moja ni mchakato sawa isipokuwa mfano mmoja tu umetolewa.
Mapungufu ya Miundo Kubwa ya Lugha
LLM kama vile GPT-3 zina uwezo wa kutekeleza idadi kubwa ya matukio ya utumiaji hata bila kusawazisha. Walakini, mifano hii bado inakuja na seti yao ya mapungufu.
Ukosefu wa Uelewa wa Kisemantiki wa Ulimwengu
Kwa juu juu, LLM zinaonekana kuonyesha akili. Walakini, mifano hii haifanyi kazi kwa njia ile ile ubongo wa binadamu hufanya. LLMs hutegemea tu hesabu za takwimu ili kutoa matokeo. Hawana uwezo wa kufikiria mawazo na dhana peke yao.
Kwa sababu hii, LLM inaweza kutoa majibu yasiyo na maana kwa sababu tu maneno yanaonekana "sawa" au "uwezekano wa kitakwimu" yanapowekwa kwa mpangilio huo.
Hallucinations
Miundo kama GPT-3 pia inakabiliwa na majibu yasiyo sahihi. LLMs wanaweza kuteseka kutokana na jambo linalojulikana kama kuona macho ambapo mifano hutoa jibu lisilo sahihi bila ufahamu wowote kwamba jibu halina msingi katika uhalisia.
Kwa mfano, mtumiaji anaweza kuuliza mfano kuelezea mawazo ya Steve Jobs kwenye iPhone ya hivi karibuni. Mfano huo unaweza kutoa nukuu kutoka kwa hewa nyembamba kulingana na data yake ya mafunzo.
Upendeleo na Ujuzi mdogo
Kama algoriti zingine nyingi, mifano mikubwa ya lugha ina uwezekano wa kurithi upendeleo uliopo kwenye data ya mafunzo. Tunapoanza kutegemea zaidi LLM ili kupata maelezo, wasanidi wa miundo hii wanapaswa kutafuta njia za kupunguza athari zinazoweza kudhuru za majibu yenye upendeleo.
Kwa uwezo sawa, vipofu vya data ya mafunzo ya mfano pia vitazuia mfano yenyewe. Hivi sasa, miundo mikubwa ya lugha huchukua miezi kufunzwa. Miundo hii pia hutegemea hifadhidata ambazo zina upeo mdogo. Hii ndiyo sababu ChatGPT ina ujuzi mdogo tu wa matukio yaliyotokea mwaka wa 2021 uliopita.
Hitimisho
Miundo mikubwa ya lugha ina uwezo wa kubadilisha kikweli jinsi tunavyoingiliana na teknolojia na ulimwengu wetu kwa ujumla.
Idadi kubwa ya data inayopatikana kwenye mtandao imewapa watafiti njia ya kuiga utata wa lugha. Walakini, njiani, mifano hii ya lugha inaonekana kuwa imepata uelewa kama wa mwanadamu wa ulimwengu kama ulivyo.
Umma unapoanza kuamini miundo hii ya lugha kutoa matokeo sahihi, watafiti na wasanidi programu tayari wanatafuta njia za kuongeza miiko ili teknolojia ibaki kuwa ya kimaadili.
Je, unadhani mustakabali wa LLM ni upi?
Acha Reply