Սկսնակների ուղեցույց Scikit-learn-ի համար

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է Scikit-learn-ը:
Scikit-learn գրադարանի կիրառությունները+-
Scikit-learn-ի տեղադրում
Հատկություններ +-
Կոալիցիայում
Դեմ
Եզրափակում

Եթե դուք Python-ի ծրագրավորող եք կամ որոնում եք հզոր գործիքակազմ, որն օգտագործելու է մեքենայական ուսուցումը արտադրության համակարգ ներմուծելու համար, Scikit-learn-ը գրադարան է, որը դուք պետք է ստուգեք:

Scikit-learn-ը լավ փաստագրված է և օգտագործման համար պարզ՝ անկախ նրանից՝ դուք նոր եք մեքենայական ուսուցման մեջ, ցանկանում եք արագ սկսել և աշխատել, թե ցանկանում եք օգտագործել ML հետազոտության ամենաարդիական գործիքը:

Այն թույլ է տալիս ստեղծել կանխատեսող տվյալների մոդել միայն մի քանի տող կոդի մեջ և այնուհետև օգտագործել այդ մոդելը՝ ձեր տվյալներին համապատասխանելու համար որպես բարձր մակարդակի գրադարան: Այն ճկուն է և լավ է աշխատում մյուսների հետ Python գրադարաններ ինչպես Matplotlib-ը՝ գծապատկերների համար, NumPy-ը՝ զանգվածների վեկտորացման համար, և պանդաները՝ տվյալների վիզուալիզացիայի համար:

Այս ուղեցույցում դուք կիմանաք ամեն ինչ այն մասին, թե ինչ է այն, ինչպես կարող եք օգտագործել այն, ինչպես նաև դրա դրական և բացասական կողմերը:

Ինչ է Scikit- սովորել?

Scikit-learn-ը (նաև հայտնի է որպես sklearn) առաջարկում է վիճակագրական մոդելների և մեքենայական ուսուցման բազմազան շարք: Ի տարբերություն մոդուլների մեծամասնության, sklearn-ը մշակվում է Python-ում, այլ ոչ թե C-ում: Չնայած այն մշակվել է Python-ում, sklearn-ի արդյունավետությունը վերագրվում է NumPy-ի օգտագործմանը՝ բարձր արդյունավետությամբ գծային հանրահաշվի և զանգվածի գործողությունների համար:

Scikit-Learn-ը ստեղծվել է Google-ի «Summer of Code» նախագծի շրջանակներում և այդ ժամանակից ի վեր ամբողջ աշխարհում ավելի պարզեցրել է Python կենտրոնացած տվյալների վրա հիմնված միլիոնավոր գիտնականների կյանքը: Շարքի այս բաժինը կենտրոնանում է գրադարանի ներկայացման և մեկ տարրի վրա՝ տվյալների բազայի փոխակերպումների վրա, որոնք կարևոր և կենսական քայլ են, որը պետք է ձեռնարկվի նախքան կանխատեսման մոդելի մշակումը:

Sklein

Գրադարանը հիմնված է SciPy-ի (Scientific Python) վրա, որը պետք է տեղադրվի, որպեսզի կարողանաք օգտագործել scikit-learn-ը: Այս բուրգը պարունակում է հետևյալ տարրերը.

NumPy. Python-ի ստանդարտ n-չափ զանգվածի փաթեթ
SciPy. Սա գիտական հաշվարկների հիմնարար փաթեթ է
Պանդաներ. Տվյալների կառուցվածք և վերլուծություն
Matplotlib. Դա հզոր 2D/3D գծագրման գրադարան է
Սիմպի՝ խորհրդանշական մաթեմատիկա
IPython. Բարելավված ինտերակտիվ վահանակ

Scikit-learn գրադարանի կիրառությունները

Scikit-learn-ը բաց կոդով Python փաթեթ է՝ տվյալների բարդ վերլուծության և մայնինգի առանձնահատկություններով: Այն գալիս է բազմաթիվ ներկառուցված ալգորիթմների հետ, որոնք կօգնեն ձեզ առավելագույն օգուտ քաղել ձեր տվյալների գիտության նախագծերից: Scikit-learn գրադարանն օգտագործվում է հետևյալ կերպ.

1. Հետընթաց

Ռեգրեսիոն վերլուծությունը վիճակագրական տեխնիկա է երկու կամ ավելի փոփոխականների միջև կապը վերլուծելու և ըմբռնելու համար: Ռեգրեսիոն վերլուծություն կատարելու համար օգտագործվող մեթոդը օգնում է որոշել, թե որ տարրերն են տեղին, որոնք կարող են անտեսվել և ինչպես են դրանք փոխազդում: Օրինակ, ռեգրեսիայի մեթոդները կարող են օգտագործվել բաժնետոմսերի գների վարքագիծը ավելի լավ հասկանալու համար:

Ռեգրեսիայի ալգորիթմները ներառում են.

գծային Հետընթաց
Ridge Regression
Լասսոյի հետընթաց
Որոշման ծառի ռեգրեսիա
Պատահական անտառ
Աջակցող վեկտորային մեքենաներ (SVM)

2. Դասակարգում

Դասակարգման մեթոդը վերահսկվող ուսուցման մոտեցում է, որն օգտագործում է վերապատրաստման տվյալները՝ պարզելու թարմ դիտարկումների կատեգորիան: Դասակարգման ալգորիթմը սովորում է տրվածից տվյալների շտեմարան կամ դիտարկումներ և այնուհետև լրացուցիչ դիտարկումները դասակարգում է բազմաթիվ դասերից կամ խմբավորումներից մեկում: Դրանք, օրինակ, կարող են օգտագործվել էլփոստի հաղորդակցությունները որպես սպամ դասակարգելու համար, թե ոչ:

Դասակարգման ալգորիթմները ներառում են հետևյալը.

Լոգիստիկ ռեգրեսիա
K-Մոտակա հարևանները
Աջակցման վեկտորային մեքենա
Որոշման ծառ
Պատահական անտառ

3. Կլաստերավորում

Scikit-learn-ում կլաստերավորման ալգորիթմներն օգտագործվում են նմանատիպ հատկություններով տվյալներն ավտոմատ կերպով բազմությունների մեջ դասավորելու համար: Կլաստերավորումը մի շարք տարրերի խմբավորման գործընթաց է, որպեսզի նույն խմբում գտնվողներն ավելի նման լինեն այլ խմբերի խմբերին: Հաճախորդների տվյալները, օրինակ, կարող են առանձնացվել՝ ելնելով նրանց գտնվելու վայրից:

Կլաստերավորման ալգորիթմները ներառում են հետևյալը.

DB-SCAN
Կ-Միանս
Mini-Batch K-Means
Սպեկտրային կլաստերավորում

4. Մոդելի ընտրություն

Մոդելի ընտրության ալգորիթմները տրամադրում են մեթոդներ՝ համեմատելու, վավերացնելու և ընտրելու օպտիմալ պարամետրերն ու մոդելները տվյալների գիտության նախաձեռնություններում օգտագործելու համար: Հաշվի առնելով տվյալները, մոդելի ընտրությունը թեկնածու մոդելների խմբից վիճակագրական մոդել ընտրելու խնդիրն է: Ամենատարրական հանգամանքներում հաշվի է առնվում նախկինում գոյություն ունեցող տվյալների հավաքածուն: Այնուամենայնիվ, առաջադրանքը կարող է ներառել նաև փորձերի ձևավորում, որպեսզի ստացված տվյալները լավ համապատասխանեն մոդելի ընտրության խնդրին:

Մոդելի ընտրության մոդուլները, որոնք կարող են բարելավել ճշգրտությունը՝ կարգավորելով պարամետրերը, ներառում են.

Խաչաձև վավերացում
Ցանցային որոնում
Չափման համակարգ

5. Չափերի կրճատում

Տվյալների փոխանցումը բարձրաչափ տարածությունից դեպի ցածրաչափ տարածություն այնպես, որ ցածրաչափ պատկերը պահպանի սկզբնական տվյալների որոշ նշանակալից կողմեր, որոնք իդեալականորեն մոտ են դրա բնորոշ չափմանը, հայտնի է որպես չափերի կրճատում: Վերլուծության համար պատահական փոփոխականների թիվը կրճատվում է, երբ չափականությունը կրճատվում է: Հեռավոր տվյալները, օրինակ, կարող են չհամարվել, որ բարելավում են վիզուալիզացիաների արդյունավետությունը:

Չափերի կրճատման ալգորիթմը ներառում է հետևյալը.

Ընտրանքի ընտրությունը
Հիմնական բաղադրիչի վերլուծություն (PCA)

Scikit-learn-ի տեղադրում

Scikit-learn-ն օգտագործելուց առաջ NumPy, SciPy, Matplotlib, IPython, Sympy և Panda-ները պետք է տեղադրվեն: Եկեք տեղադրենք դրանք՝ օգտագործելով pip վահանակից (աշխատում է միայն Windows-ի համար):

Տեղադրեք

Եկեք տեղադրենք Scikit-learn-ը հիմա, երբ մենք տեղադրել ենք անհրաժեշտ գրադարանները:

Sklearn-ի տեղադրում

Հատկություններ

Scikit-learn-ը, որը երբեմն հայտնի է որպես sklearn, Python-ի գործիքակազմ է՝ մեքենայական ուսուցման մոդելների և վիճակագրական մոդելավորման իրականացման համար: Մենք կարող ենք օգտագործել այն ռեգրեսիայի, դասակարգման և կլաստերավորման համար մեքենայական ուսուցման բազմաթիվ մոդելներ, ինչպես նաև այս մոդելները գնահատելու վիճակագրական գործիքներ ստեղծելու համար: Այն նաև ներառում է ծավալների կրճատում, առանձնահատկությունների ընտրություն, առանձնահատկությունների արդյունահանում, անսամբլի մոտեցումներ և ներկառուցված տվյալների հավաքածուներ: Մենք կուսումնասիրենք այս հատկություններից յուրաքանչյուրը մեկ առ մեկ:

1. Տվյալների հավաքածուների ներմուծում

Scikit-learn-ը ներառում է մի շարք նախապես կառուցված տվյալների հավաքածուներ, ինչպիսիք են ծիածանաթաղանթի տվյալների հավաքածուն, տան գների տվյալների բազան, տիտանիկ տվյալների հավաքածուն և այլն: Այս տվյալների հավաքածուների հիմնական առավելություններն այն են, որ դրանք ընկալելի են և կարող են օգտագործվել անմիջապես ML մոդելներ մշակելու համար: Այս տվյալների հավաքածուները հարմար են սկսնակների համար: Նմանապես, դուք կարող եք օգտագործել sklearn-ը լրացուցիչ տվյալների հավաքածուներ ներմուծելու համար: Նմանապես, դուք կարող եք օգտագործել այն լրացուցիչ տվյալների հավաքածուներ ներմուծելու համար:

Տվյալների հավաքածու

2. Տվյալների բաժանում վերապատրաստման և թեստավորման համար

Sklearn-ը ներառում էր տվյալների բազան վերապատրաստման և թեստավորման հատվածների բաժանելու հնարավորությունը: Տվյալների տվյալների բաժանումը պահանջվում է կանխատեսման կատարողականի անաչառ գնահատման համար: Մենք կարող ենք ճշտել, թե մեր տվյալների որքան մասը պետք է ներառվի գնացքի և փորձարկման տվյալների հավաքածուներում: Մենք բաժանել ենք տվյալների շտեմարանը՝ օգտագործելով գնացքի թեստային բաժանումը այնպես, որ գնացքի հավաքածուն կազմի տվյալների 80%-ը, իսկ թեստայինը՝ 20%-ը: Տվյալների հավաքածուն կարելի է բաժանել հետևյալ կերպ.

Պառակտում

3. Գծային ռեգրեսիա

Գծային ռեգրեսիան վերահսկվող ուսուցման վրա հիմնված մեքենայական ուսուցման տեխնիկա է: Այն իրականացնում է ռեգրեսիոն աշխատանք։ Անկախ փոփոխականների հիման վրա ռեգրեսիան մոդելավորում է նպատակի կանխատեսման արժեքը: Այն հիմնականում օգտագործվում է փոփոխականների և կանխատեսումների միջև կապը որոշելու համար: Տարբեր ռեգրեսիոն մոդելներ տարբերվում են կախված և անկախ փոփոխականների միջև կապի տեսակից, ինչպես նաև օգտագործվող անկախ փոփոխականների քանակից: Մենք կարող ենք պարզապես ստեղծել Գծային ռեգրեսիայի մոդել՝ օգտագործելով sklearn-ը հետևյալ կերպ.

գծային Հետընթաց

4. Լոգիստիկ ռեգրեսիա

Դասակարգման ընդհանուր մոտեցումը լոգիստիկ ռեգրեսիան է: Այն նույն ընտանիքում է, ինչ բազմանդամը և գծային ռեգրեսիան և պատկանում է գծային դասակարգիչների ընտանիքին: Լոգիստիկ ռեգրեսիայի բացահայտումները պարզ են ըմբռնելի և արագ են հաշվարկվում: Նույն կերպ, ինչպես գծային ռեգրեսիան, լոգիստիկ ռեգրեսիան վերահսկվող ռեգրեսիայի տեխնիկա է: Արդյունքների փոփոխականը կատեգորիկ է, հետևաբար դա միակ տարբերությունն է: Այն կարող է որոշել, թե արդյոք հիվանդը ունի սրտի հիվանդություն, թե ոչ:

Տարբեր դասակարգման խնդիրներ, ինչպիսիք են սպամի հայտնաբերումը, կարող են լուծվել լոգիստիկ ռեգրեսիայի միջոցով: Շաքարախտի կանխատեսումը, որոշելը, թե արդյոք սպառողը կգնի կոնկրետ ապրանք կամ կանցնի մրցակցի, որոշելը, թե արդյոք օգտվողը սեղմելու է կոնկրետ մարքեթինգային հղման վրա, և շատ այլ սցենարներ ընդամենը մի քանի օրինակ են:

Լոգիստիկ ռեգրեսիա

5. Որոշումների ծառ

Դասակարգման և կանխատեսման ամենահզոր և լայնորեն օգտագործվող տեխնիկան որոշումների ծառն է: Որոշման ծառը ծառի կառուցվածք է, որը նման է հոսքի գծապատկերի, որտեղ յուրաքանչյուր ներքին հանգույց ներկայացնում է թեստը հատկանիշի վրա, յուրաքանչյուր ճյուղ ներկայացնում է թեստի եզրակացությունը, և յուրաքանչյուր տերևային հանգույց (տերմինալ հանգույց) կրում է դասի պիտակ:

Երբ կախյալ փոփոխականները գծային կապ չունեն անկախ փոփոխականների հետ, այսինքն, երբ գծային ռեգրեսիան ճիշտ բացահայտումներ չի տալիս, որոշման ծառերը շահավետ են: DecisionTreeRegression() օբյեկտը կարող է օգտագործվել նույն կերպ՝ ռեգրեսիայի համար որոշման ծառ օգտագործելու համար:

Որոշման ծառ

6. Պատահական անտառ

Պատահական անտառը ա Machine Learning ռեգրեսիայի և դասակարգման խնդիրների լուծման մոտեցում: Այն օգտագործում է անսամբլային ուսուցումը, որը մի տեխնիկա է, որը միավորում է բազմաթիվ դասակարգիչներ՝ բարդ խնդիրներ լուծելու համար: Անտառի պատահական մեթոդը կազմված է մեծ թվով որոշման ծառերից: Այն կարող է օգտագործվել վարկային հայտերը դասակարգելու, խարդախ վարքագիծը հայտնաբերելու և հիվանդությունների բռնկումները կանխատեսելու համար:

Պատահական անտառ

7. Շփոթության մատրիցա

Շփոթության մատրիցը աղյուսակ է, որն օգտագործվում է դասակարգման մոդելի կատարողականը նկարագրելու համար: Շփոթության մատրիցը ուսումնասիրելու համար օգտագործվում են հետևյալ չորս բառերը.

Իրական դրական. Դա նշանակում է, որ մոդելը կանխատեսում էր բարենպաստ արդյունք և այն ճիշտ էր:
Ճշմարիտ բացասական. Դա նշանակում է, որ մոդելը կանխատեսում էր վատ արդյունք և այն ճիշտ էր:
Կեղծ դրական. Դա նշանակում է, որ մոդելը ակնկալում էր բարենպաստ արդյունք, բայց դա իսկապես բացասական էր:
Կեղծ բացասական: Դա նշանակում է, որ մոդելը ակնկալում էր բացասական արդյունք, մինչդեռ արդյունքն իսկապես դրական էր:

Շփոթության մատրիցայի լուսանկար

Շփոթության մատրիցայի իրականացում.

Շփոթության չափումներ

Կոալիցիայում

Պարզ է օգտագործման համար:
Scikit-learn փաթեթը չափազանց հարմարվող և օգտակար է, որը ծառայում է իրական նպատակներին, ինչպիսիք են սպառողների վարքագծի կանխատեսումը, նյարդապատկերի զարգացումը և այլն:
Օգտատերերը, ովքեր ցանկանում են կապել ալգորիթմներն իրենց հարթակների հետ, Scikit-learn կայքում կգտնեն մանրամասն API փաստաթղթեր:
Բազմաթիվ հեղինակներ, համահեղինակներ և համաշխարհային մեծ առցանց համայնք աջակցում և թարմացնում են Scikit-learn-ը:

Դեմ

Այն իդեալական տարբերակ չէ խորը ուսումնասիրության համար:

Եզրափակում

Scikit-learn-ը կարևորագույն փաթեթ է յուրաքանչյուր տվյալների գիտնականի համար, որը պետք է լավ տիրապետի և որոշակի փորձ ունենա: Այս ուղեցույցը պետք է օգնի ձեզ տվյալների մանիպուլյացիայի հարցում՝ օգտագործելով sklearn: Scikit-learn-ի շատ ավելի շատ հնարավորություններ կան, որոնք դուք կբացահայտեք, երբ առաջադիմեք ձեր տվյալների գիտության արկածախնդրության մեջ: Կիսվեք ձեր մտքերով մեկնաբանություններում։

Սկսնակների ուղեցույց Scikit-learn-ի համար

Ինչ է Scikit- սովորել?