Բառը[Թաքցնել][Ցուցադրում]
Եթե դուք Python-ի ծրագրավորող եք կամ որոնում եք հզոր գործիքակազմ, որն օգտագործելու է մեքենայական ուսուցումը արտադրության համակարգ ներմուծելու համար, Scikit-learn-ը գրադարան է, որը դուք պետք է ստուգեք:
Scikit-learn-ը լավ փաստագրված է և օգտագործման համար պարզ՝ անկախ նրանից՝ դուք նոր եք մեքենայական ուսուցման մեջ, ցանկանում եք արագ սկսել և աշխատել, թե ցանկանում եք օգտագործել ML հետազոտության ամենաարդիական գործիքը:
Այն թույլ է տալիս ստեղծել կանխատեսող տվյալների մոդել միայն մի քանի տող կոդի մեջ և այնուհետև օգտագործել այդ մոդելը՝ ձեր տվյալներին համապատասխանելու համար որպես բարձր մակարդակի գրադարան: Այն ճկուն է և լավ է աշխատում մյուսների հետ Python գրադարաններ ինչպես Matplotlib-ը՝ գծապատկերների համար, NumPy-ը՝ զանգվածների վեկտորացման համար, և պանդաները՝ տվյալների վիզուալիզացիայի համար:
Այս ուղեցույցում դուք կիմանաք ամեն ինչ այն մասին, թե ինչ է այն, ինչպես կարող եք օգտագործել այն, ինչպես նաև դրա դրական և բացասական կողմերը:
Ինչ է Scikit- սովորել?
Scikit-learn-ը (նաև հայտնի է որպես sklearn) առաջարկում է վիճակագրական մոդելների և մեքենայական ուսուցման բազմազան շարք: Ի տարբերություն մոդուլների մեծամասնության, sklearn-ը մշակվում է Python-ում, այլ ոչ թե C-ում: Չնայած այն մշակվել է Python-ում, sklearn-ի արդյունավետությունը վերագրվում է NumPy-ի օգտագործմանը՝ բարձր արդյունավետությամբ գծային հանրահաշվի և զանգվածի գործողությունների համար:
Scikit-Learn-ը ստեղծվել է Google-ի «Summer of Code» նախագծի շրջանակներում և այդ ժամանակից ի վեր ամբողջ աշխարհում ավելի պարզեցրել է Python կենտրոնացած տվյալների վրա հիմնված միլիոնավոր գիտնականների կյանքը: Շարքի այս բաժինը կենտրոնանում է գրադարանի ներկայացման և մեկ տարրի վրա՝ տվյալների բազայի փոխակերպումների վրա, որոնք կարևոր և կենսական քայլ են, որը պետք է ձեռնարկվի նախքան կանխատեսման մոդելի մշակումը:
Գրադարանը հիմնված է SciPy-ի (Scientific Python) վրա, որը պետք է տեղադրվի, որպեսզի կարողանաք օգտագործել scikit-learn-ը: Այս բուրգը պարունակում է հետևյալ տարրերը.
- NumPy. Python-ի ստանդարտ n-չափ զանգվածի փաթեթ
- SciPy. Սա գիտական հաշվարկների հիմնարար փաթեթ է
- Պանդաներ. Տվյալների կառուցվածք և վերլուծություն
- Matplotlib. Դա հզոր 2D/3D գծագրման գրադարան է
- Սիմպի՝ խորհրդանշական մաթեմատիկա
- IPython. Բարելավված ինտերակտիվ վահանակ
Scikit-learn գրադարանի կիրառությունները
Scikit-learn-ը բաց կոդով Python փաթեթ է՝ տվյալների բարդ վերլուծության և մայնինգի առանձնահատկություններով: Այն գալիս է բազմաթիվ ներկառուցված ալգորիթմների հետ, որոնք կօգնեն ձեզ առավելագույն օգուտ քաղել ձեր տվյալների գիտության նախագծերից: Scikit-learn գրադարանն օգտագործվում է հետևյալ կերպ.
1. Հետընթաց
Ռեգրեսիոն վերլուծությունը վիճակագրական տեխնիկա է երկու կամ ավելի փոփոխականների միջև կապը վերլուծելու և ըմբռնելու համար: Ռեգրեսիոն վերլուծություն կատարելու համար օգտագործվող մեթոդը օգնում է որոշել, թե որ տարրերն են տեղին, որոնք կարող են անտեսվել և ինչպես են դրանք փոխազդում: Օրինակ, ռեգրեսիայի մեթոդները կարող են օգտագործվել բաժնետոմսերի գների վարքագիծը ավելի լավ հասկանալու համար:
Ռեգրեսիայի ալգորիթմները ներառում են.
- գծային Հետընթաց
- Ridge Regression
- Լասսոյի հետընթաց
- Որոշման ծառի ռեգրեսիա
- Պատահական անտառ
- Աջակցող վեկտորային մեքենաներ (SVM)
2. Դասակարգում
Դասակարգման մեթոդը վերահսկվող ուսուցման մոտեցում է, որն օգտագործում է վերապատրաստման տվյալները՝ պարզելու թարմ դիտարկումների կատեգորիան: Դասակարգման ալգորիթմը սովորում է տրվածից տվյալների շտեմարան կամ դիտարկումներ և այնուհետև լրացուցիչ դիտարկումները դասակարգում է բազմաթիվ դասերից կամ խմբավորումներից մեկում: Դրանք, օրինակ, կարող են օգտագործվել էլփոստի հաղորդակցությունները որպես սպամ դասակարգելու համար, թե ոչ:
Դասակարգման ալգորիթմները ներառում են հետևյալը.
- Լոգիստիկ ռեգրեսիա
- K-Մոտակա հարևանները
- Աջակցման վեկտորային մեքենա
- Որոշման ծառ
- Պատահական անտառ
3. Կլաստերավորում
Scikit-learn-ում կլաստերավորման ալգորիթմներն օգտագործվում են նմանատիպ հատկություններով տվյալներն ավտոմատ կերպով բազմությունների մեջ դասավորելու համար: Կլաստերավորումը մի շարք տարրերի խմբավորման գործընթաց է, որպեսզի նույն խմբում գտնվողներն ավելի նման լինեն այլ խմբերի խմբերին: Հաճախորդների տվյալները, օրինակ, կարող են առանձնացվել՝ ելնելով նրանց գտնվելու վայրից:
Կլաստերավորման ալգորիթմները ներառում են հետևյալը.
- DB-SCAN
- Կ-Միանս
- Mini-Batch K-Means
- Սպեկտրային կլաստերավորում
4. Մոդելի ընտրություն
Մոդելի ընտրության ալգորիթմները տրամադրում են մեթոդներ՝ համեմատելու, վավերացնելու և ընտրելու օպտիմալ պարամետրերն ու մոդելները տվյալների գիտության նախաձեռնություններում օգտագործելու համար: Հաշվի առնելով տվյալները, մոդելի ընտրությունը թեկնածու մոդելների խմբից վիճակագրական մոդել ընտրելու խնդիրն է: Ամենատարրական հանգամանքներում հաշվի է առնվում նախկինում գոյություն ունեցող տվյալների հավաքածուն: Այնուամենայնիվ, առաջադրանքը կարող է ներառել նաև փորձերի ձևավորում, որպեսզի ստացված տվյալները լավ համապատասխանեն մոդելի ընտրության խնդրին:
Մոդելի ընտրության մոդուլները, որոնք կարող են բարելավել ճշգրտությունը՝ կարգավորելով պարամետրերը, ներառում են.
- Խաչաձև վավերացում
- Ցանցային որոնում
- Չափման համակարգ
5. Չափերի կրճատում
Տվյալների փոխանցումը բարձրաչափ տարածությունից դեպի ցածրաչափ տարածություն այնպես, որ ցածրաչափ պատկերը պահպանի սկզբնական տվյալների որոշ նշանակալից կողմեր, որոնք իդեալականորեն մոտ են դրա բնորոշ չափմանը, հայտնի է որպես չափերի կրճատում: Վերլուծության համար պատահական փոփոխականների թիվը կրճատվում է, երբ չափականությունը կրճատվում է: Հեռավոր տվյալները, օրինակ, կարող են չհամարվել, որ բարելավում են վիզուալիզացիաների արդյունավետությունը:
Չափերի կրճատման ալգորիթմը ներառում է հետևյալը.
- Ընտրանքի ընտրությունը
- Հիմնական բաղադրիչի վերլուծություն (PCA)
Scikit-learn-ի տեղադրում
Scikit-learn-ն օգտագործելուց առաջ NumPy, SciPy, Matplotlib, IPython, Sympy և Panda-ները պետք է տեղադրվեն: Եկեք տեղադրենք դրանք՝ օգտագործելով pip վահանակից (աշխատում է միայն Windows-ի համար):
Եկեք տեղադրենք Scikit-learn-ը հիմա, երբ մենք տեղադրել ենք անհրաժեշտ գրադարանները:
Հատկություններ
Scikit-learn-ը, որը երբեմն հայտնի է որպես sklearn, Python-ի գործիքակազմ է՝ մեքենայական ուսուցման մոդելների և վիճակագրական մոդելավորման իրականացման համար: Մենք կարող ենք օգտագործել այն ռեգրեսիայի, դասակարգման և կլաստերավորման համար մեքենայական ուսուցման բազմաթիվ մոդելներ, ինչպես նաև այս մոդելները գնահատելու վիճակագրական գործիքներ ստեղծելու համար: Այն նաև ներառում է ծավալների կրճատում, առանձնահատկությունների ընտրություն, առանձնահատկությունների արդյունահանում, անսամբլի մոտեցումներ և ներկառուցված տվյալների հավաքածուներ: Մենք կուսումնասիրենք այս հատկություններից յուրաքանչյուրը մեկ առ մեկ:
1. Տվյալների հավաքածուների ներմուծում
Scikit-learn-ը ներառում է մի շարք նախապես կառուցված տվյալների հավաքածուներ, ինչպիսիք են ծիածանաթաղանթի տվյալների հավաքածուն, տան գների տվյալների բազան, տիտանիկ տվյալների հավաքածուն և այլն: Այս տվյալների հավաքածուների հիմնական առավելություններն այն են, որ դրանք ընկալելի են և կարող են օգտագործվել անմիջապես ML մոդելներ մշակելու համար: Այս տվյալների հավաքածուները հարմար են սկսնակների համար: Նմանապես, դուք կարող եք օգտագործել sklearn-ը լրացուցիչ տվյալների հավաքածուներ ներմուծելու համար: Նմանապես, դուք կարող եք օգտագործել այն լրացուցիչ տվյալների հավաքածուներ ներմուծելու համար:
2. Տվյալների բաժանում վերապատրաստման և թեստավորման համար
Sklearn-ը ներառում էր տվյալների բազան վերապատրաստման և թեստավորման հատվածների բաժանելու հնարավորությունը: Տվյալների տվյալների բաժանումը պահանջվում է կանխատեսման կատարողականի անաչառ գնահատման համար: Մենք կարող ենք ճշտել, թե մեր տվյալների որքան մասը պետք է ներառվի գնացքի և փորձարկման տվյալների հավաքածուներում: Մենք բաժանել ենք տվյալների շտեմարանը՝ օգտագործելով գնացքի թեստային բաժանումը այնպես, որ գնացքի հավաքածուն կազմի տվյալների 80%-ը, իսկ թեստայինը՝ 20%-ը: Տվյալների հավաքածուն կարելի է բաժանել հետևյալ կերպ.
3. Գծային ռեգրեսիա
Գծային ռեգրեսիան վերահսկվող ուսուցման վրա հիմնված մեքենայական ուսուցման տեխնիկա է: Այն իրականացնում է ռեգրեսիոն աշխատանք։ Անկախ փոփոխականների հիման վրա ռեգրեսիան մոդելավորում է նպատակի կանխատեսման արժեքը: Այն հիմնականում օգտագործվում է փոփոխականների և կանխատեսումների միջև կապը որոշելու համար: Տարբեր ռեգրեսիոն մոդելներ տարբերվում են կախված և անկախ փոփոխականների միջև կապի տեսակից, ինչպես նաև օգտագործվող անկախ փոփոխականների քանակից: Մենք կարող ենք պարզապես ստեղծել Գծային ռեգրեսիայի մոդել՝ օգտագործելով sklearn-ը հետևյալ կերպ.
4. Լոգիստիկ ռեգրեսիա
Դասակարգման ընդհանուր մոտեցումը լոգիստիկ ռեգրեսիան է: Այն նույն ընտանիքում է, ինչ բազմանդամը և գծային ռեգրեսիան և պատկանում է գծային դասակարգիչների ընտանիքին: Լոգիստիկ ռեգրեսիայի բացահայտումները պարզ են ըմբռնելի և արագ են հաշվարկվում: Նույն կերպ, ինչպես գծային ռեգրեսիան, լոգիստիկ ռեգրեսիան վերահսկվող ռեգրեսիայի տեխնիկա է: Արդյունքների փոփոխականը կատեգորիկ է, հետևաբար դա միակ տարբերությունն է: Այն կարող է որոշել, թե արդյոք հիվանդը ունի սրտի հիվանդություն, թե ոչ:
Տարբեր դասակարգման խնդիրներ, ինչպիսիք են սպամի հայտնաբերումը, կարող են լուծվել լոգիստիկ ռեգրեսիայի միջոցով: Շաքարախտի կանխատեսումը, որոշելը, թե արդյոք սպառողը կգնի կոնկրետ ապրանք կամ կանցնի մրցակցի, որոշելը, թե արդյոք օգտվողը սեղմելու է կոնկրետ մարքեթինգային հղման վրա, և շատ այլ սցենարներ ընդամենը մի քանի օրինակ են:
5. Որոշումների ծառ
Դասակարգման և կանխատեսման ամենահզոր և լայնորեն օգտագործվող տեխնիկան որոշումների ծառն է: Որոշման ծառը ծառի կառուցվածք է, որը նման է հոսքի գծապատկերի, որտեղ յուրաքանչյուր ներքին հանգույց ներկայացնում է թեստը հատկանիշի վրա, յուրաքանչյուր ճյուղ ներկայացնում է թեստի եզրակացությունը, և յուրաքանչյուր տերևային հանգույց (տերմինալ հանգույց) կրում է դասի պիտակ:
Երբ կախյալ փոփոխականները գծային կապ չունեն անկախ փոփոխականների հետ, այսինքն, երբ գծային ռեգրեսիան ճիշտ բացահայտումներ չի տալիս, որոշման ծառերը շահավետ են: DecisionTreeRegression() օբյեկտը կարող է օգտագործվել նույն կերպ՝ ռեգրեսիայի համար որոշման ծառ օգտագործելու համար:
6. Պատահական անտառ
Պատահական անտառը ա Machine Learning ռեգրեսիայի և դասակարգման խնդիրների լուծման մոտեցում: Այն օգտագործում է անսամբլային ուսուցումը, որը մի տեխնիկա է, որը միավորում է բազմաթիվ դասակարգիչներ՝ բարդ խնդիրներ լուծելու համար: Անտառի պատահական մեթոդը կազմված է մեծ թվով որոշման ծառերից: Այն կարող է օգտագործվել վարկային հայտերը դասակարգելու, խարդախ վարքագիծը հայտնաբերելու և հիվանդությունների բռնկումները կանխատեսելու համար:
7. Շփոթության մատրիցա
Շփոթության մատրիցը աղյուսակ է, որն օգտագործվում է դասակարգման մոդելի կատարողականը նկարագրելու համար: Շփոթության մատրիցը ուսումնասիրելու համար օգտագործվում են հետևյալ չորս բառերը.
- Իրական դրական. Դա նշանակում է, որ մոդելը կանխատեսում էր բարենպաստ արդյունք և այն ճիշտ էր:
- Ճշմարիտ բացասական. Դա նշանակում է, որ մոդելը կանխատեսում էր վատ արդյունք և այն ճիշտ էր:
- Կեղծ դրական. Դա նշանակում է, որ մոդելը ակնկալում էր բարենպաստ արդյունք, բայց դա իսկապես բացասական էր:
- Կեղծ բացասական: Դա նշանակում է, որ մոդելը ակնկալում էր բացասական արդյունք, մինչդեռ արդյունքն իսկապես դրական էր:
Շփոթության մատրիցայի իրականացում.
Կոալիցիայում
- Պարզ է օգտագործման համար:
- Scikit-learn փաթեթը չափազանց հարմարվող և օգտակար է, որը ծառայում է իրական նպատակներին, ինչպիսիք են սպառողների վարքագծի կանխատեսումը, նյարդապատկերի զարգացումը և այլն:
- Օգտատերերը, ովքեր ցանկանում են կապել ալգորիթմներն իրենց հարթակների հետ, Scikit-learn կայքում կգտնեն մանրամասն API փաստաթղթեր:
- Բազմաթիվ հեղինակներ, համահեղինակներ և համաշխարհային մեծ առցանց համայնք աջակցում և թարմացնում են Scikit-learn-ը:
Դեմ
- Այն իդեալական տարբերակ չէ խորը ուսումնասիրության համար:
Եզրափակում
Scikit-learn-ը կարևորագույն փաթեթ է յուրաքանչյուր տվյալների գիտնականի համար, որը պետք է լավ տիրապետի և որոշակի փորձ ունենա: Այս ուղեցույցը պետք է օգնի ձեզ տվյալների մանիպուլյացիայի հարցում՝ օգտագործելով sklearn: Scikit-learn-ի շատ ավելի շատ հնարավորություններ կան, որոնք դուք կբացահայտեք, երբ առաջադիմեք ձեր տվյալների գիտության արկածախնդրության մեջ: Կիսվեք ձեր մտքերով մեկնաբանություններում։
Թողնել գրառում