Մենք ականատես ենք AI-ի մեծ հեղափոխության:
Ամեն օր մենք ստանում ենք նոր հավելված, որն ունի զարմանալի հնարավորություններ: Բազմաթիվ հավելվածներով և ծրագրերով, որոնք օգտագործում են AI և մեքենայական ուսուցում, որոնք մտնում են մեր կյանք. մենք պետք է ավելի շատ ժամանակ հատկացնենք դրանց մասին սովորելու համար:
Այս գրառման մեջ մենք կուսումնասիրենք Machine Learning մանրամասնորեն. Նաև մենք հատուկ կկենտրոնանանք մեքենայական ուսուցման ուսուցման և եզրակացության թեմաների վրա:
Սկսենք հիմունքներից:
Ի՞նչ է մեքենաշինությունը
Շատ անգամ մենք տեսնում ենք, որ «մեքենայական ուսուցում» և «արհեստական ինտելեկտ» տերմինները օգտագործվում են միասին: Այսպիսով, եկեք նախ պարզենք այդ մեկը: Մեքենայական ուսուցումը արհեստական ինտելեկտի ճյուղ է։ Այն ներառում է վերապատրաստման ալգորիթմներ՝ տվյալների վրա հիմնված կանխատեսումներ կամ ընտրություններ արտադրելու համար:
Բացի այդ, այն թույլ է տալիս համակարգերին ավտոմատ կերպով բարձրացնել իրենց կատարողականությունը՝ հիմնվելով անցյալի փորձի վրա:
Արհեստական բանականություն, մյուս կողմից, մարդու ինտելեկտի նմանակումն է։ Այսպիսով, համակարգիչները նախատեսված են մարդկանց նման մտածելու և գործելու համար: Այն ներառում է մի քանի ենթաոլորտներ, ինչպիսիք են մեքենայական ուսուցումը, համակարգչային տեսլականը և բնական լեզվի մշակումը:
Մեքենայի ուսուցման մոդելների մշակում
Մեքենայի ուսուցման մոդելը ալգորիթմ է: Մենք ստեղծում ենք այս ալգորիթմները տվյալների ուսուցման միջոցով ավտոմատ կերպով կատարելագործելու կատարողականությունը: Մենք դրանք օգտագործում ենք մուտքային տվյալները ուսումնասիրելու, ապագա արդյունքները կանխատեսելու կամ դատողություններ անելու համար:
Օրինակ բերենք. Լուսանկարները դասակարգելու համար որպես ծաղիկ կամ կատու, մոդելը կարող է սովորեցնել պատկերները նույնականացնելու համար:
Եվ դա կարող է որոշել՝ նկարը ծաղի՞ է, թե՞ կատվի։ Մեքենայի ուսուցման հիմնական սկզբունքն այն է, որ մոդելի աշխատանքը պետք է շարունակաբար բարելավվի: Այն պետք է լավ արձագանքի տվյալների փոփոխվող պարամետրերին:
Հիմնականում մենք կատարում ենք այս մեքենայական ուսուցման ուսուցումը Jupyter Notebook, որը ֆանտաստիկ գործիք է ցանկացած տվյալների հետ կապված նախագծի համար:
Մոդելի ուսուցում
Ալգորիթմի ուսուցման գործընթացը՝ կանխատեսումներ ստեղծելու կամ մուտքային տվյալների վրա հիմնված գործողություններ կատարելու համար կոչվում է «ուսուցում»: Վերապատրաստման ընթացքում համակարգի պարամետրերը փոփոխվում են՝ ալգորիթմի աշխատանքի հնարավորություն տալու համար: Ի վերջո, մենք փորձում ենք ճշգրիտ կանխատեսումներ անել բոլորովին նոր տվյալների վերաբերյալ:
Վերահսկվող և չվերահսկվող ուսուցում մեքենայական ուսուցման երկու հիմնական կատեգորիաներն են:
Վերահսկվող ուսուցում
Պիտակավորված տվյալների բազան օգտագործվում է վերահսկվող ուսուցման ալգորիթմը վարժեցնելու համար: Այս տեսակի մեքենայական ուսուցման ժամանակ յուրաքանչյուր մուտքագրման համար նշվում է ակնկալվող արդյունքը: Ալգորիթմը կանխատեսումներ է անում թարմ տվյալների վրա: Բացի այդ, այն սովորում է մուտքերի և ելքերի միջև կապերը՝ օգտագործելով այս տեղեկատվությունը:
Քանի որ մոդելը վերահսկվում է, թե ինչպիսին պետք է լինեն ցանկալի արդյունքները, ուսուցման այս տեսակը կոչվում է «վերահսկվող»:
Ծրագրեր, ինչպիսիք են խոսքի ճանաչումը, պատկերների դասակարգում, և բնական լեզվի մշակումը բոլորն օգտագործում են վերահսկվող ուսուցումը: Այս հավելվածներում ալգորիթմը վերապատրաստվում է մեծ պիտակավորված տվյալների հավաքածուների վրա: Այսպիսով, մենք կարող ենք կանխատեսել թարմ, չնախատեսված տվյալներ։
Նաև մուտքային-ելք քարտեզագրումները պետք է սովորել հնարավորինս ճշգրիտ լինել:
Վերահսկվող ուսուցման նպատակը մուտքերի և արդյունքների միջև առավել ճշգրիտ քարտեզագրումն է:
Անվերահսկվող ուսուցում
Չվերահսկվող ուսուցումը մեքենայական ուսուցման ենթաբազմություն է: Մենք վարժեցնում ենք ալգորիթմը չպիտակավորված տվյալների բազայի վրա: Այսպիսով, մոդելները կարող են հայտնաբերել տվյալների օրինաչափություններ կամ հարաբերակցություններ: Մենք կարիք չունենք կոնկրետ սահմանելու, թե որոնք պետք է լինեն ելքերը: Այս տեսակի ուսուցումը կոչվում է «չվերահսկվող»: Դա պայմանավորված է նրանով, որ մոդելը չի ստանում հստակ ուղեցույց այն մասին, թե ինչպիսին պետք է լինեն ելքերը:
Անոմալիաների հայտնաբերումը, կլաստերավորումը և չափերի կրճատումը պահանջում են չվերահսկվող ուսուցում: Այս հավելվածներում ալգորիթմը պետք է ճանաչի տվյալների օրինաչափությունները կամ հարաբերակցությունները: Եվ դա առանց հստակ ցուցումների՝ չպիտակավորված տվյալների նմուշի վրա վերապատրաստվելուց հետո:
Չվերահսկվող ուսուցումը նպատակ ունի բացահայտել թաքնված օրինաչափությունները կամ կառուցվածքները: Մենք կարող ենք օգտագործել այն տարբեր առաջադրանքներում, ինչպիսիք են տվյալների սեղմումը կամ նմանատիպ բաների խմբավորումը:
Մեքենայի ուսուցման օպտիմիզացում
Օպտիմալացման գործընթացը էական նշանակություն ունի մեքենայական ուսուցման մոդելի կառուցման համար: Օպտիմալացման նպատակը մոդելի կանխատեսումների և վերապատրաստման տվյալների իրական արժեքների միջև տարբերությունը նվազեցնելն է:
Այս գործընթացը օգնում է մոդելին սովորել մուտքերի և ելքերի միջև կապը: Այսպիսով, մենք կարող ենք ստանալ հնարավորինս ճշգրիտ կանխատեսումներ:
Սխալը նվազեցնելով, մոդելը կարող է ավելի լավ ընդհանրացնել նոր, նախկինում անհայտ տվյալներին: Այսպիսով, այն կարող է արտադրել ավելի ամուր և հուսալի կանխատեսումներ:
Մեքենայական ուսուցման մեջ օպտիմալացման գործընթացն իրականացվում է այնպիսի ալգորիթմների օգտագործմամբ, ինչպիսին է գրադիենտ ծագումը: Այսպիսով, մեր ալգորիթմը շարունակաբար կարգավորում է պարամետրերը, մինչև սխալը նվազագույնի հասցվի: Օպտիմալացման ընթացակարգն անհրաժեշտ է, որպեսզի մոդելի կանխատեսումները ճշգրիտ լինեն:
Machine Learning's Training Dataset
Ուսուցման տվյալների հավաքածուն տվյալների մի շարք է, որն օգտագործվում է ա մեքենայական ուսուցման մոդել. Մենք ուսուցանում ենք մոդելին, թե ինչպես ստեղծել կանխատեսումներ՝ ցուցադրելով մուտքերի և արդյունքների օրինակներ: Այս վերապատրաստման տվյալների հիման վրա մոդելը փոփոխում է իր պարամետրը:
Հետևաբար, դրա կանխատեսումների ճշգրտությունը գնահատվում է օգտագործելով հստակ տվյալների բազա՝ վավերացման հավաքածու:
Վերապատրաստման տվյալների բազան պետք է արտացոլի լուծվող խնդիրը: Եվ այն պետք է պարունակի բավականաչափ տվյալներ՝ մոդելը պատշաճ կերպով պատրաստելու համար: Մոդելի կանխատեսումները կարող են սխալ լինել, եթե վերապատրաստման տվյալների բազան չափազանց փոքր է:
Կամ, դա կարող է լինել ոչ շատ ներկայացուցչական: Արդյունքում, ուսուցման տվյալների բազայի լայնածավալ նախնական մշակումը պահանջ է: Այսպիսով, մենք կարող ենք երաշխավորել, որ մոդելն ունի ամենաբարձր հաջողությունը:
Վերապատրաստման օրինակ.
Եկեք օրինակ բերենք՝ ուսուցման ընթացքը հասկանալու համար.
Այս օրինակում մենք ենթադրում ենք, որ ունենք «music.csv» անունով տվյալների բազա: Այն ունի սեռի, տարիքի և ժանրի արժեքներ: Այսպիսով, այն կանխատեսում է, թե որ ժանրի երաժշտություն է լսում մարդը՝ ելնելով իր տարիքից և սեռից:
Սա Python ծածկագիրն է պարզ մեքենայական ուսուցման ուսուցման համար՝ օգտագործելով scikit-learn գրադարանը: Լոգիստիկ ռեգրեսիայի մոտեցումն օգտագործվում է այս կոդում՝ տվյալների վրա մոդելը վարժեցնելու և այնուհետև թեստի տվյալների վրա դրա ճշգրտությունը գնահատելու համար:
Տվյալներն ի սկզբանե դրվում են պանդաների տվյալների շրջանակում, նախքան դրանք բաժանվում են հատկանիշների (X) և թիրախների (Y) (y): Դրանից հետո տվյալները բաժանվում են վերապատրաստման և թեստավորման խմբերի, որոնցից տվյալների 80%-ն օգտագործվում է ուսուցման և 20%-ը՝ թեստավորման համար: Այնուհետև մոդելը վերապատրաստվում է վերապատրաստման տվյալների վրա՝ նախքան փորձարկման տվյալների վրա փորձարկումը:
Եզրակացություն մեքենայական ուսուցման մեջ
Թարմ տվյալների վրա կանխատեսումներ կատարելու համար պատրաստված մոդելի օգտագործման գործընթացը կոչվում է եզրակացություն:
Այլ կերպ ասած, դա վերապատրաստման ընթացքում ձեռք բերված տեղեկատվության կիրառումն է։ Մոդելը ստանում է թարմ տվյալներ և ստեղծում է կանխատեսում կամ դատողություն՝ հիմնվելով վերապատրաստման տվյալների մեջ իր հայտնաբերած օրինաչափությունների վրա:
Մոդելի կանխատեսումները ճշգրիտ կլինեն՝ կախված վերապատրաստման տվյալների որակից: Բացի այդ, դա կախված կլինի ընտրված մոդելի ճարտարապետությունից և մոդելը վարժեցնելու համար օգտագործվող տեխնիկայից:
Եզրակացության կարևորությունը հավելվածներում
Եզրակացության արդյունքում մենք պետք է հնարավորություն տանք մոդելին ապահովելու արդյունքներ կոնկրետ նպատակի համար: Դրանք կարող են տարբեր լինել, օրինակ՝ պատկերների դասակարգումը, բնական լեզվի մշակումը կամ առաջարկությունների համակարգերը: Եզրակացության քայլի ճշգրտությունն ուղղակիորեն ազդում է համակարգի ամբողջ աշխատանքի վրա:
Այն չափազանց կարևոր է իրական աշխարհի ծրագրերում մեքենայական ուսուցման մոդելների իրական ներդրման համար:
Նոր, անհայտ տվյալների մուտքագրում
Մեքենայական ուսուցման մեջ եզրակացության գործընթացը սկսվում է մոդելին թարմ տվյալների ավելացմամբ: Այս տվյալները պետք է նախապես մշակվեն, որպեսզի համապատասխանեն մոդելի ուսուցման համար օգտագործվող մուտքային ձևաչափին:
Սովորած օրինաչափությունների վրա հիմնված կանխատեսումներ
Այնուհետև մոդելն օգտագործում է մուտքային տվյալները՝ վերապատրաստման տվյալների սովորած օրինաչափությունների հիման վրա կանխատեսումներ կատարելու համար: Կանխատեսումների ճշգրտությունը կախված է վերապատրաստման տվյալների որակից և օգտագործվող տեխնիկայից:
Եզրակացության օրինակ.
Ինչպես նախորդ օրինակը; մենք նախ կսովորեցնենք տվյալները, ապա կիրականացնենք եզրակացություն: Այս դեպքում մենք LogisticRegression-ի փոխարեն օգտագործել ենք RandomForestClassifier-ը:
Մենք կրկին կանխատեսումներ ենք պատրաստում Python-ում՝ օգտագործելով գիտական հավաքակազմ-սովորելու գործիքակազմը: Ենթադրենք, որ մենք պատրաստել ենք մոդել և ունենք տվյալների հավաքածու, որը կոչվում է X թեստ, որի վրա մենք ցանկանում ենք կանխատեսումներ անել:
Այս կոդը կանխատեսում է թեստային տվյալների հավաքածուի X թեստի վրա՝ օգտագործելով վերապատրաստված մոդելի կանխատեսման գործառույթը: Այնուհետև կանխատեսումները պահվում են տվյալների շրջանակում՝ առաջին հինգը ցույց տալով:
Եզրակացություն կատարողականի վրա ազդող գործոններ
Մի քանի կարևոր տարրեր ազդում են մեքենայական ուսուցման մեջ եզրակացությունների կատարման վրա:
Եզրակացության փուլի արագությունը
Եզրակացության արագությունը կարևոր մտահոգություն է, քանի որ այն ուղղակիորեն ազդում է համակարգի աշխատանքի վրա: Ավելի արագ եզրակացության ժամանակները կարող են թույլ տալ ավելի արագ որոշումներ կայացնել կամ կանխատեսել: Բացի այդ, այն բարձրացնում է մոդելի օգտակարությունը:
Կանխատեսման ճշգրտություն
Մեկ այլ կարևոր բաղադրիչ է եզրակացության ընթացքում ստեղծված կանխատեսումների ճշգրտությունը: Դա պայմանավորված է նրանով, որ մոդելի նպատակն է ապահովել ելքեր, որոնք հնարավորինս մոտ են իրական արժեքներին: Մոդելի ելքային ճշգրտությունը կախված է վերապատրաստման տվյալների որակից:
Բացի այդ, դա շատ կապված է մոդելային ճարտարապետության հետ:
Եզրակացության փուլի օպտիմալացման նշանակությունը
Հաշվի առնելով եզրակացության արագության և ճշգրտության կարևորությունը, կարևոր է եզրակացության գործընթացը օպտիմալացնել արդյունավետ արդյունքների համար: Սա կարող է ներառել այնպիսի ռազմավարություններ, ինչպիսիք են մոդելի չափի կրճատումը: Կամ դուք կարող եք օգտագործել ապարատային արագացումը կամ բարելավել մուտքային տվյալների մշակման գործընթացները:
Եզրափակում
Ի վերջո, մեքենայական ուսուցման մեջ վերապատրաստումը և եզրակացությունը կարևոր գործընթացներ են: Մենք պետք է ունենանք հատուկ գիտելիքներ և կարողություններ դրանք արդյունավետ իրականացնելու համար: Ուսուցումը մոդելին թույլ է տալիս կանխատեսումներ անել, մինչդեռ եզրակացությունը թույլ է տալիս մոդելին կանխատեսումներ անել՝ հիմնվելով թարմ տվյալների վրա:
Երկուսն էլ կարևոր դեր են խաղում մոդելի հաջողության և ճշգրտության որոշման գործում: Այսպիսով, հիշեք դրանք ձեր հաջորդ նախագծում:
Թողնել գրառում