Խոշոր նեյրոնային ցանցերը, որոնք պատրաստված են լեզուների ճանաչման և ստեղծման համար, վերջին տարիներին ակնառու արդյունքներ են ցույց տվել տարբեր առաջադրանքներում: GPT-3-ն ապացուցեց, որ մեծ լեզվի մոդելները (LLM) կարող են օգտագործվել մի քանի կրակոցների ուսուցման համար և ստանալ գերազանց արդյունքներ՝ առանց առաջադրանքների համար հատուկ տվյալներ պահանջելու կամ մոդելի պարամետրերը փոխելու:
Google-ը՝ Սիլիկոնային հովտի տեխնոլոգիական հսկան, ներկայացրել է PaLM-ը կամ Pathways Language Model-ը համաշխարհային տեխնոլոգիական արդյունաբերությանը՝ որպես արհեստական ինտելեկտի լեզվով աշխատող հաջորդ սերնդի մոդել: Google-ը ներդրել է նոր Արհեստական բանականություն ճարտարապետությունը դեպի PaLM՝ ռազմավարական նպատակներով՝ բարելավելու AI-լեզու մոդելի որակը:
Այս գրառման մեջ մենք մանրամասն կուսումնասիրենք Palm ալգորիթմը, ներառյալ այն պարամետրերը, որոնք օգտագործվում են այն մարզելու համար, այն խնդիրը, որը նա լուծում է և շատ ավելին:
Ինչ է Google-ի PaLM ալգորիթմ?
Pathways լեզվի մոդելը ինչ է PalM հանդես է գալիս. Սա Google-ի կողմից մշակված նոր ալգորիթմ է՝ Pathways AI ճարտարապետությունն ամրապնդելու նպատակով։ Կառույցի հիմնական նպատակն է միանգամից մեկ միլիոն տարբեր գործունեություն իրականացնել:
Դրանք ներառում են ամեն ինչ՝ բարդ տվյալների վերծանումից մինչև դեդուկտիվ հիմնավորում: PaLM-ն ունի լեզվական և տրամաբանական առաջադրանքներում գերազանցելու ներկայիս ժամանակակից արհեստական ինտելեկտը, ինչպես նաև մարդկանց:
Սա ներառում է Few-Shot Learning-ը, որը նմանակում է, թե ինչպես են մարդիկ սովորում նոր բաներ և միավորում գիտելիքների բազմազան մասնիկները՝ հաղթահարելու նոր մարտահրավերները, որոնք նախկինում երբևէ չեն տեսել, ի շահ մեքենայի, որը կարող է օգտագործել իր ողջ գիտելիքները նոր մարտահրավերներ լուծելու համար: PaLM-ում այս հմտության օրինակներից մեկն այն կատակը բացատրելու կարողությունն է, որը նախկինում երբեք չի լսել:
PaLM-ը ցույց տվեց բազմաթիվ բեկումնային հմտություններ մի շարք դժվար առաջադրանքների վերաբերյալ, ներառյալ լեզվի ըմբռնումը և ստեղծումը, թվաբանական կոդի հետ կապված բազմաքայլ գործողությունները, ողջախոհ տրամաբանությունը, թարգմանությունը և շատ ավելին:
Այն ցուցադրել է իր կարողությունը՝ լուծելու բարդ հարցեր՝ օգտագործելով բազմալեզու NLP հավաքածուներ: PaLM-ը կարող է օգտագործվել համաշխարհային տեխնոլոգիական շուկայի կողմից՝ տարբերելու պատճառն ու հետևանքը, հայեցակարգային համակցությունները, տարբեր խաղերը և շատ այլ բաներ:
Այն կարող է նաև խորը բացատրություններ առաջացնել բազմաթիվ համատեքստերի համար՝ օգտագործելով բազմաքայլ տրամաբանական եզրակացություն, խորը լեզու, գլոբալ գիտելիքներ և այլ տեխնիկա:
Ինչպե՞ս Google-ը մշակեց PaLM ալգորիթմը:
PaLM-ում Google-ի բեկումնային կատարողականի համար երթուղիները նախատեսված են մինչև 540 միլիարդ պարամետրի մասշտաբով: Այն ճանաչվում է որպես միակ մոդելը, որը կարող է արդյունավետ և արդյունավետ կերպով ընդհանրացնել բազմաթիվ տիրույթներում: Google-ի Pathways-ը նվիրված է արագացուցիչների համար բաշխված հաշվարկների մշակմանը:
PaLM-ը միայն ապակոդավորող տրանսֆորմատորային մոդել է, որը վերապատրաստվել է Pathways համակարգի միջոցով: Ըստ Google-ի, PaLM-ը հաջողությամբ հասել է ժամանակակից մի քանի կրակոցների կատարման մի քանի ծանրաբեռնվածության ընթացքում: PaLM-ն օգտագործել է Pathways համակարգը՝ ընդլայնելու ուսուցումը դեպի TPU-ի վրա հիմնված ամենամեծ համակարգի կոնֆիգուրացիա, որն առաջին անգամ հայտնի է որպես 6144 չիպեր:
AI-լեզու մոդելի վերապատրաստման տվյալների բազան կազմված է անգլերենի և այլ բազմալեզու տվյալների հավաքածուներից: «Անկորուստ» բառապաշարով այն պարունակում է բարձրորակ վեբ բովանդակություն, քննարկումներ, գրքեր, GitHub կոդ, Վիքիպեդիա և շատ ավելին: Անկորուստ բառապաշարը ճանաչվում է բացատը պահպանելու և բառապաշարում չգտնվող Unicode նիշերը բայթերի բաժանելու համար:
PaLM-ը մշակվել է Google-ի և Pathways-ի կողմից՝ օգտագործելով ստանդարտ տրանսֆորմատորային մոդելի ճարտարապետություն և ապակոդավորիչի կոնֆիգուրացիա, որը ներառում է SwiGLU ակտիվացում, զուգահեռ շերտեր, RoPE ներկառուցումներ, ընդհանուր մուտքային-ելքային ներկառուցումներ, բազմաթիվ հարցումների ուշադրություն և առանց կողմնակալության կամ բառապաշարի: Մյուս կողմից, PaLM-ը պատրաստ է ամուր հիմք ապահովել Google-ի և Pathways-ի AI-լեզու մոդելի համար:
Պարամետրեր, որոնք օգտագործվում են PaLM-ի մարզման համար
Անցյալ տարի Google-ը գործարկեց Pathways-ը՝ մեկ մոդել, որը կարող է մարզվել հազարավոր, եթե ոչ միլիոնավոր բաներ անելու համար, որը կոչվում է «հաջորդ սերնդի արհեստական ինտելեկտի ճարտարապետություն», քանի որ այն կարող է հաղթահարել գոյություն ունեցող մոդելների սահմանափակումները՝ վարժվելու միայն մեկ բան անելու համար։ . Ընթացիկ մոդելների հնարավորություններն ընդլայնելու փոխարեն, նոր մոդելները հաճախ կառուցվում են ներքևից վեր՝ մեկ աշխատանք կատարելու համար:
Արդյունքում նրանք ստեղծել են տասնյակ հազարավոր մոդելներ տասնյակ հազարավոր տարբեր գործունեության համար։ Սա ժամանակատար և ռեսուրսներ պահանջող խնդիր է:
Google-ը Pathways-ի միջոցով ապացուցեց, որ մեկ մոդելը կարող է տարբեր գործողություններ կատարել և օգտագործել և համատեղել ներկայիս տաղանդները՝ նոր առաջադրանքներն ավելի արագ և արդյունավետ սովորելու համար:
Մուլտիմոդալ մոդելները, որոնք ներառում են տեսլականը, լեզվական ըմբռնումը և լսողական մշակումը միաժամանակ, կարող են միացված լինել ուղիների միջոցով: Pathways Language Model-ը (PaLM) թույլ է տալիս ուսուցանել մեկ մոդել բազմաթիվ TPU v4 Pods-ում՝ շնորհիվ իր 540 միլիարդ պարամետր մոդելի:
PaLM-ը, միայն տրանսֆորմատորի խիտ ապակոդավորող մոդելը, գերազանցում է ժամանակակից մի քանի կրակոցների կատարողականը աշխատանքային բեռների լայն շրջանակում: PaLM-ը վերապատրաստվում է երկու TPU v4 Pods-ի վրա, որոնք կապված են տվյալների կենտրոնի ցանցի (DCN) միջոցով:
Այն օգտվում է ինչպես մոդելի, այնպես էլ տվյալների զուգահեռությունից: Հետազոտողները PaLM-ի համար յուրաքանչյուր Pod-ում օգտագործել են 3072 TPU v4 պրոցեսոր, որոնք միացված են եղել 768 հոսթներին: Ըստ հետազոտողների, սա ամենամեծ TPU կոնֆիգուրացիան է, որը մինչ այժմ բացահայտվել է, որը թույլ է տալիս նրանց ուսուցումը մասշտաբավորել՝ առանց խողովակաշարերի զուգահեռության կիրառման:
Խողովակների երեսպատումը ընդհանուր առմամբ խողովակաշարի միջոցով պրոցեսորից հրահանգներ հավաքելու գործընթացն է: Մոդելի շերտերը բաժանված են փուլերի, որոնք կարող են զուգահեռ մշակվել խողովակաշարի մոդելի զուգահեռության (կամ խողովակաշարի զուգահեռության) միջոցով:
Ակտիվացման հիշողությունն ուղարկվում է հաջորդ քայլին, երբ մի փուլն ավարտում է միկրո խմբաքանակի առաջ անցումը: Այնուհետև գրադիենտներն ուղարկվում են դեպի ետ, երբ հաջորդ փուլն ավարտում է իր հետընթաց տարածումը:
PaLM-ի բեկումնային հնարավորություններ
PaLM-ը ցուցադրում է բեկումնային կարողություններ մի շարք բարդ առաջադրանքների ժամանակ: Ահա մի քանի օրինակներ.
1. Լեզվի ստեղծում և ըմբռնում
PaLM-ը փորձարկվել է անգլերեն լեզվով NLP-ի 29 տարբեր առաջադրանքների վրա:
Մի քանի կրակոցների հիման վրա PaLM 540B-ն գերազանցեց նախկին խոշոր մոդելներին, ինչպիսիք են GLaM-ը, GPT-3-ը, Megatron-Turing NLG-ն, Gopher-ը, Chinchilla-ն և LaMDA-ն 28 առաջադրանքներից 29-ում, ներառյալ բաց տիրույթի փակ գրքի տարբերակների հարց պատասխանների առաջադրանքները: , փակման և նախադասության ավարտի առաջադրանքներ, Վինոգրադի ոճով առաջադրանքներ, ներտեքստում ընթերցանության ըմբռնման առաջադրանքներ, ընդհանուր տրամաբանական առաջադրանքներ, SuperGLUE առաջադրանքներ և բնական եզրակացություն:
Մի քանի BIG-bench առաջադրանքների ժամանակ PaLM-ը ցուցադրում է բնական լեզվի գերազանց թարգմանության և սերմանելու հմտություններ: Օրինակ, մոդելը կարող է տարբերակել պատճառն ու հետևանքը, հասկանալ կոնցեպտուալ համակցությունները որոշակի իրավիճակներում և նույնիսկ կռահել ֆիլմը էմոջիից: Չնայած ուսուցման կորպուսի ընդամենը 22%-ն է ոչ անգլերեն, PaLM-ը լավ է կատարում բազմալեզու NLP չափանիշները, ներառյալ թարգմանությունը, ի լրումն անգլերեն NLP առաջադրանքների:
2. Պատճառաբանություն
PaLM-ը միախառնում է մոդելի չափը մտքի շղթայի հետ, որը հուշում է ցույց տալ բեկումնային հմտություններ տրամաբանական մարտահրավերների վերաբերյալ, որոնք պահանջում են բազմաքայլ թվաբանական կամ ողջամիտ դատողություն:
Նախորդ LLM-ները, ինչպիսիք են Gopher-ը, ավելի քիչ օգուտ քաղեցին մոդելի չափսից՝ արդյունավետության բարձրացման տեսանկյունից: PaLM 540B-ը մտքերի շղթայով հուշումներով լավ գործեց երեք թվաբանական և երկու ընդհանուր մտածողության տվյալների հավաքածուների վրա:
PaLM-ը գերազանցում է նախորդ լավագույն գնահատականը՝ 55%, որը ստացվել է GPT-3 175B մոդելը 7500 խնդիրների ուսուցման հավաքածուով ճշգրտելով և այն արտաքին հաշվիչի և ստուգիչի հետ համատեղելով՝ լուծելու GSM58K-ի խնդիրների 8 տոկոսը, Դպրոցական մակարդակի մաթեմատիկայի հազարավոր բարդ հարցերի չափանիշ՝ օգտագործելով 8 կրակոց հուշում:
Այս նոր միավորը հատկապես ուշագրավ է, քանի որ այն մոտենում է 60-9 տարեկանների հանդիպած խոչընդոտների միջին 12%-ին: Այն կարող է նաև արձագանքել օրիգինալ կատակներին, որոնք հասանելի չեն ինտերնետում:
3. Կոդերի ստեղծում
Ցույց է տրվել, որ LLM-ները նաև լավ են կատարում կոդավորման առաջադրանքները, ներառյալ՝ բնական լեզվի նկարագրությունից կոդ ստեղծելը (տեքստից կոդ), լեզուների միջև ծածկագիրը թարգմանելը և կոմպիլյացիայի սխալները լուծելը: Չնայած նախնական ուսուցման տվյալների շտեմարանում միայն 5% կոդ ունենալուն, PaLM 540B-ը լավ է կատարում ինչպես կոդավորման, այնպես էլ բնական լեզվի առաջադրանքները մեկ մոդելում:
Նրա մի քանի կրակոցների կատարումն անհավանական է, քանի որ այն համապատասխանում է ճշգրտված Codex 12B-ին, մինչդեռ մարզվում է 50 անգամ ավելի քիչ Python կոդով: Այս բացահայտումը հաստատում է նախորդ բացահայտումները, որ ավելի մեծ մոդելները կարող են ավելի արդյունավետ լինել, քան փոքր մոդելները, քանի որ դրանք կարող են ավելի արդյունավետ կերպով փոխանցել ուսումը մի քանիից: ծրագրավորման լեզուները և պարզ լեզվով տվյալներ։
Եզրափակում
PaLM-ը ցույց է տալիս Pathways համակարգի կարողությունը՝ հասնելու հազարավոր արագացուցիչ պրոցեսորների երկու TPU v4 Pods-ի վրա՝ արդյունավետ կերպով վարժեցնելով 540 միլիարդ պարամետրանոց մոդելը լավ ուսումնասիրված, միայն խիտ ապակոդավորող տրանսֆորմատորի մոդելի լավ հաստատված բաղադրատոմսով:
Այն հասնում է բեկումնային մի քանի կրակոցների կատարման բնական լեզվի մշակման, հիմնավորման և կոդավորման մարտահրավերների շարքում՝ առաջացնելով մոդելի մասշտաբի սահմանները:
Թողնել գրառում