Mitandao mikubwa ya neva ambayo imefunzwa kwa utambuzi wa lugha na kizazi imeonyesha matokeo bora katika kazi mbalimbali katika miaka ya hivi karibuni. GPT-3 ilithibitisha kuwa miundo mikubwa ya lugha (LLMs) inaweza kutumika kwa ujifunzaji wa hatua chache na kupata matokeo bora bila kuhitaji data pana ya kazi mahususi au kubadilisha vigezo vya modeli.
Google, kampuni ya teknolojia ya Silicon Valley, imeanzisha PaLM, au Pathways Language Model, kwa tasnia ya teknolojia duniani kote kama modeli ya kizazi kijacho ya lugha ya AI. Google imeingiza mpya bandia akili usanifu katika PaLM yenye malengo ya kimkakati ya kuboresha ubora wa modeli ya lugha ya AI.
Katika chapisho hili, tutachunguza algorithm ya Palm kwa undani, ikiwa ni pamoja na vigezo vinavyotumiwa kuifundisha, suala linalotatua, na mengi zaidi.
Nini Algorithm ya Google ya PaLM?
Njia ya Lugha Model ni nini PALM inasimama kwa. Hii ni kanuni mpya iliyotengenezwa na Google ili kuimarisha usanifu wa Pathways AI. Lengo kuu la muundo ni kufanya shughuli milioni tofauti mara moja.
Hizi ni pamoja na kila kitu kutoka kwa kufafanua data changamano hadi mawazo ya kukariri. PaLM ina uwezo wa kupita hali ya sasa ya AI na pia wanadamu katika kazi za lugha na hoja.
Hii ni pamoja na Mafunzo kwa Njia Chache, ambayo huiga jinsi wanadamu hujifunza mambo mapya na kuchanganya sehemu mbalimbali za maarifa ili kukabiliana na changamoto mpya ambazo hazijawahi kuonekana hapo awali, kwa manufaa ya mashine ambayo inaweza kutumia ujuzi wake wote kutatua changamoto mpya; mfano mmoja wa ujuzi huu katika PaLM ni uwezo wake wa kueleza mzaha ambayo haijawahi kusikia kabla.
PaLM ilionyesha ujuzi mwingi wa mafanikio katika kazi mbalimbali zenye changamoto, zikiwemo ufahamu na uundaji wa lugha, shughuli zinazohusiana na msimbo wa hesabu za hatua nyingi, hoja za akili ya kawaida, tafsiri, na mengine mengi.
Imeonyesha uwezo wake wa kutatua masuala magumu kwa kutumia seti za lugha nyingi za NLP. PaLM inaweza kutumika na soko la kimataifa la teknolojia kutofautisha sababu na athari, mchanganyiko wa dhana, michezo tofauti, na mambo mengine mengi.
Inaweza pia kutoa maelezo ya kina kwa miktadha mingi kwa kutumia uelekezaji wa kimantiki wa hatua nyingi, lugha ya kina, maarifa ya kimataifa, na mbinu zingine.
Je, Google ilitengenezaje algoriti ya PaLM?
Kwa utendakazi wa mafanikio wa Google katika PaLM, njia zimeratibiwa kuongeza hadi vigezo bilioni 540. Inatambulika kama kielelezo kimoja ambacho kinaweza kujumlisha ipasavyo na ipasavyo katika vikoa vingi. Pathways katika Google imejitolea kutengeneza kompyuta iliyosambazwa kwa vichapuzi.
PaLM ni modeli ya kibadilishaji cha dekoda pekee ambayo imefunzwa kwa kutumia mfumo wa Pathways. PaLM imefaulu kufikia utendakazi wa hali ya juu katika kazi kadhaa, kulingana na Google. PaLM imetumia mfumo wa Pathways kupanua mafunzo hadi usanidi mkubwa zaidi wa mfumo unaotegemea TPU, unaojulikana kama chips 6144 kwa mara ya kwanza.
Seti ya data ya mafunzo ya muundo wa lugha ya AI imeundwa na mchanganyiko wa Kiingereza na seti zingine za lugha nyingi. Kwa msamiati "bila hasara", ina maudhui ya mtandao ya ubora wa juu, majadiliano, vitabu, msimbo wa GitHub, Wikipedia, na mengi zaidi. Msamiati usio na hasara unatambulika kwa kuhifadhi nafasi nyeupe na kuvunja herufi za Unicode ambazo hazipo katika msamiati kuwa baiti.
PaLM ilitengenezwa na Google na Pathways kwa kutumia usanifu wa kigezo cha kibadilishaji cha kawaida na usanidi wa avkodare uliojumuisha Uwezeshaji wa SwiGLU, tabaka sambamba, upachikaji wa RoPE, upachikaji wa pato la pamoja, umakini wa hoja nyingi, na hakuna upendeleo au msamiati. PaLM, kwa upande mwingine, iko tayari kutoa msingi thabiti kwa Google na Pathways' modeli ya lugha ya AI.
Vigezo vinavyotumika kutoa mafunzo kwa PALM
Mwaka jana, Google ilizindua Pathways, kielelezo kimoja ambacho kinaweza kufunzwa kufanya maelfu, ikiwa si mamilioni, ya mambo—iliyopewa jina la “usanifu wa AI wa kizazi kijacho” kwani inaweza kushinda vizuizi vilivyopo vya kufunzwa kufanya jambo moja tu. . Badala ya kupanua uwezo wa mifano ya sasa, mifano mpya mara nyingi hujengwa kutoka chini hadi kukamilisha kazi moja.
Kama matokeo, wameunda makumi ya maelfu ya mifano kwa makumi ya maelfu ya shughuli tofauti. Hii ni kazi inayotumia muda mwingi na inayohitaji rasilimali nyingi.
Google ilithibitisha kupitia Pathways kwamba muundo mmoja unaweza kushughulikia shughuli mbalimbali na kuchora na kuchanganya vipaji vya sasa ili kujifunza kazi mpya kwa haraka na kwa ufanisi zaidi.
Miundo ya miundo mingi inayojumuisha maono, ufahamu wa lugha, na usindikaji wa kusikia yote kwa wakati mmoja inaweza kuwashwa kupitia njia. Muundo wa Lugha wa Pathways (PaLM) unaruhusu mafunzo ya muundo mmoja kwenye Podi nyingi za TPU v4 kutokana na muundo wake wa vigezo bilioni 540.
PaLM, muundo mnene wa Kibadilishaji cha dekoda pekee, hufanya kazi vizuri zaidi kuliko utendakazi wa hali ya juu katika safu mbalimbali za kazi. PaLM inafunzwa kwenye Podi mbili za TPU v4 ambazo zimeunganishwa kupitia mtandao wa kituo cha data (DCN).
Inachukua faida ya usawa wa modeli na data. Watafiti waliajiri wasindikaji 3072 TPU v4 katika kila Pod ya PaLM, ambayo iliunganishwa na wapangishi 768. Kulingana na watafiti, huu ndio usanidi mkubwa zaidi wa TPU ambao bado umefichuliwa, unaowaruhusu kuongeza mafunzo bila kutumia ulinganifu wa bomba.
Uwekaji wa bomba ni mchakato wa kukusanya maagizo kutoka kwa CPU kupitia bomba kwa ujumla. Tabaka za modeli zimegawanywa katika awamu ambazo zinaweza kuchakatwa kwa sambamba kupitia usawa wa mfano wa bomba (au usawa wa bomba).
Kumbukumbu ya kuwezesha hutumwa kwa hatua inayofuata wakati hatua moja inakamilisha kupita mbele kwa bechi ndogo. Gradients kisha hutumwa nyuma wakati hatua ifuatayo inakamilisha uenezi wake wa nyuma.
Uwezo wa Mafanikio ya PaLM
PaLM inaonyesha uwezo wa kuvunja msingi katika anuwai ya kazi ngumu. Hapa kuna mifano kadhaa:
1. Kuunda na kuelewa lugha
PaLM ilijaribiwa kwa kazi 29 tofauti za NLP kwa Kiingereza.
Kwa hatua chache, PaLM 540B ilifanya vyema zaidi miundo mikubwa ya awali kama vile GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla, na LaMDA kwenye kazi 28 kati ya 29, ikijumuisha kazi za kujibu maswali tofauti za kitabu-cha-wazi za kikoa huria. , kazi za kufunga na kukamilisha sentensi, kazi za mtindo wa Winograd, kazi za ufahamu wa kusoma katika muktadha, kazi za hoja za akili, kazi za SuperGLUE, na makisio asilia.
Kwenye kazi kadhaa za benchi KUBWA, PaLM huonyesha ukalimani bora wa lugha asilia na ustadi wa kizazi. Kwa mfano, muundo unaweza kutofautisha kati ya sababu na athari, kuelewa mchanganyiko wa dhana katika hali fulani, na hata kukisia filamu kutoka emoji. Ingawa ni 22% tu ya kongamano la mafunzo si la Kiingereza, PaLM hufanya vyema kwenye vigezo vya lugha nyingi vya NLP, ikiwa ni pamoja na tafsiri, pamoja na majukumu ya Kiingereza ya NLP.
2. Kujadili
PaLM huchanganya saizi ya kielelezo na msururu wa mawazo unaohimiza kuonyesha ujuzi wa mafanikio kwenye changamoto za hoja zinazohitaji hoja za hesabu za hatua nyingi au akili ya kawaida.
LLM za awali, kama vile Gopher, zilinufaika kidogo kutokana na ukubwa wa muundo katika suala la kuimarisha utendakazi. PaLM 540B yenye msururu wa mawazo ilifanya vyema kwenye hifadhidata tatu za hesabu na mbili za commonsense.
PaLM inashinda alama bora zaidi ya hapo awali ya 55%, ambayo ilipatikana kwa kurekebisha muundo wa GPT-3 175B na seti ya mafunzo ya shida 7500 na kuichanganya na kikokotoo cha nje na kithibitishaji kutatua asilimia 58 ya maswala katika GSM8K, a kipimo cha maelfu ya maswali magumu ya hesabu ya kiwango cha shule kwa kutumia vidokezo 8.
Alama hii mpya ni muhimu sana kwani inakaribia wastani wa 60% ya vizuizi vinavyopatikana kwa watoto wa miaka 9-12. Inaweza pia kujibu vicheshi asili ambavyo havipatikani kwenye mtandao.
3. Uzalishaji wa Kanuni
LLM pia zimeonyeshwa kufanya vyema katika kazi za usimbaji, ikijumuisha kutoa msimbo kutoka kwa maelezo ya lugha asilia (maandishi hadi msimbo), kutafsiri msimbo kati ya lugha, na kusuluhisha makosa ya utungaji. Licha ya kuwa na msimbo wa 5% pekee katika mkusanyiko wa data wa mafunzo ya awali, PaLM 540B hufanya vyema kwenye kazi za usimbaji na lugha asilia katika modeli moja.
Utendaji wake wa picha chache ni wa kushangaza, kwani unalingana na Codex 12B iliyosawazishwa huku ikifanya mazoezi na msimbo wa Python mara 50 chini. Utaftaji huu unarudi na matokeo ya hapo awali kwamba miundo mikubwa inaweza kuwa sampuli bora zaidi kuliko mifano ndogo kwa sababu inaweza kuhamisha kwa ufanisi ujifunzaji kutoka kwa anuwai. lugha za programu na data ya lugha nyepesi.
Hitimisho
PaLM inaonyesha uwezo wa mfumo wa Pathways wa kufikia maelfu ya vichakataji vichapuzi zaidi ya Podi mbili za TPU v4 kwa kufunza ipasavyo kigezo cha bilioni 540 kwa kichocheo kilichosomwa vyema, kilichoimarishwa vyema cha muundo wa Transfoma mnene wa dekoda pekee.
Hufanikisha utendakazi wa hatua chache katika anuwai ya usindikaji wa lugha asilia, hoja na changamoto za usimbaji kwa kusukuma mipaka ya kipimo cha muundo.
Acha Reply