Scikit-öyrənmək üçün Başlayanlar üçün Bələdçi

Mündəricat[Gizlət][Göstər]

Scikit-learn nədir?
Scikit-learn kitabxanasının tətbiqləri+-
Scikit-learn quraşdırılması
Xüsusiyyətləri +-
Pros
Eksiler
Nəticə

Əgər siz Python proqramçısısınızsa və ya maşın öyrənməsini istehsal sisteminə təqdim etmək üçün istifadə etmək üçün güclü alətlər dəsti axtarırsınızsa, Scikit-learn yoxlamalı olduğunuz bir kitabxanadır.

Scikit-learn yaxşı sənədləşdirilmiş və istifadəsi sadədir, istər maşın öyrənməsində yenisinizsə, istər tez işə düşmək istərdiniz və ya ən müasir ML tədqiqat alətindən istifadə etmək istəsəniz.

Bu, yalnız bir neçə kod sətirində proqnozlaşdırılan məlumat modelini qurmağa imkan verir və sonra həmin modeli yüksək səviyyəli kitabxana kimi məlumatlarınıza uyğunlaşdırmaq üçün istifadə edir. Çevikdir və digərləri ilə yaxşı işləyir Python kitabxanaları diaqram üçün Matplotlib, massiv vektorizasiyası üçün NumPy və məlumatların vizuallaşdırılması üçün pandalar kimi.

Bu təlimatda siz onun nə olduğu, ondan necə istifadə edə biləcəyiniz, müsbət və mənfi cəhətləri ilə bağlı hər şeyi öyrənəcəksiniz.

Nədir Scikit-öyrən?

Scikit-learn (həmçinin sklearn kimi tanınır) müxtəlif statistik modellər və maşın öyrənməsi təklif edir. Əksər modullardan fərqli olaraq, sklearn C-də deyil, Python-da işlənib hazırlanmışdır. Python-da işlənib hazırlanmasına baxmayaraq, sklearn-ın səmərəliliyi onun yüksək performanslı xətti cəbr və massiv əməliyyatları üçün NumPy-dən istifadə etməsi ilə əlaqələndirilir.

Scikit-Learn Google-un Summer of Code layihəsinin bir hissəsi kimi yaradılıb və o vaxtdan bəri dünya üzrə milyonlarla Python mərkəzli məlumat alimlərinin həyatını sadələşdirib. Seriyanın bu bölməsi kitabxananın təqdim edilməsinə və bir elementə - məlumat toplusunun transformasiyalarına diqqət yetirməyə yönəlib, bu, proqnozlaşdırma modelini hazırlamazdan əvvəl atılması lazım olan əsas və həyati addımdır.

Sklearn

Kitabxana SciPy-ə (Scientific Python) əsaslanır, siz scikit-learn-dan istifadə etməzdən əvvəl quraşdırılmalıdır. Bu yığına aşağıdakı elementlər daxildir:

NumPy: Python-un standart n-ölçülü massiv paketi
SciPy: Bu, elmi hesablamalar üçün fundamental paketdir
Pandalar: Məlumat strukturları və təhlili
Matplotlib: Bu, güclü 2D/3D qrafika kitabxanasıdır
Simpiya: Simvolik riyaziyyat
IPython: Təkmilləşdirilmiş interaktiv konsol

Scikit-learn kitabxanasının tətbiqləri

Scikit-learn, mürəkkəb məlumat təhlili və mədən xüsusiyyətləri ilə açıq mənbəli Python paketidir. Məlumat elmi layihələrinizdən maksimum yararlanmağınıza kömək etmək üçün çoxlu daxili alqoritmlərlə gəlir. Scikit-learn kitabxanası aşağıdakı üsullarla istifadə olunur.

1. Reqressiya

Reqressiya təhlili iki və ya daha çox dəyişən arasındakı əlaqəni təhlil etmək və dərk etmək üçün statistik bir üsuldur. Reqressiya təhlili aparmaq üçün istifadə olunan üsul hansı elementlərin müvafiq olduğunu, hansının nəzərə alınmadığını və onların qarşılıqlı əlaqəsini müəyyən etməyə kömək edir. Reqressiya üsulları, məsələn, səhm qiymətlərinin davranışını daha yaxşı başa düşmək üçün istifadə edilə bilər.

Reqressiya alqoritmlərinə aşağıdakılar daxildir:

Linear Regression
Ridge reqressiyası
Lasso Reqressiyası
Qərar ağacının reqressiyası
Təsadüfi Meşə
Dəstək Vektor Maşınları (SVM)

2. Təsnifat

Təsnifat metodu yeni müşahidələrin kateqoriyasını müəyyən etmək üçün təlim məlumatlarından istifadə edən Nəzarət Edilən Öyrənmə yanaşmasıdır. Təsnifatda alqoritm veriləndən öyrənir məlumat bazası və ya müşahidələr aparır və sonra əlavə müşahidələri çoxlu siniflərdən və ya qruplardan birinə təsnif edir. Onlar, məsələn, e-poçt kommunikasiyalarını spam kimi təsnif etmək üçün istifadə edilə bilər.

Təsnifat alqoritmlərinə aşağıdakılar daxildir:

Logistik Reqressiya
K-Ən yaxın qonşular
Dəstək vektor maşını
Qərar ağacı
Təsadüfi Meşə

3. Klasterləşmə

Scikit-learn-da klasterləşdirmə alqoritmləri oxşar xassələrə malik verilənləri dəstlərə avtomatik təşkil etmək üçün istifadə olunur. Klasterləşdirmə, eyni qrupdakıların digər qruplarda olanlara daha çox bənzəməsi üçün bir sıra maddələrin qruplaşdırılması prosesidir. Məsələn, müştəri məlumatları onların yerləşdiyi yerə görə ayrıla bilər.

Klasterləşdirmə alqoritmlərinə aşağıdakılar daxildir:

DB-SCAN
K-O deməkdir
Mini-toplu K-vasitələri
Spektral klasterləşmə

4. Model seçimi

Model seçimi alqoritmləri verilənlər elmi təşəbbüslərində istifadə üçün optimal parametrlərin və modellərin müqayisəsi, təsdiqi və seçilməsi üsullarını təmin edir. Verilən məlumatlar əsasında model seçimi bir qrup namizəd modeldən statistik model seçmək problemidir. Ən əsas hallarda, əvvəlcədən mövcud olan məlumat toplusu nəzərə alınır. Bununla belə, tapşırığa eksperimentlərin dizaynı da daxil ola bilər ki, əldə edilən məlumat model seçimi probleminə yaxşı uyğun olsun.

Parametrləri tənzimləməklə dəqiqliyi artıra bilən model seçim modullarına aşağıdakılar daxildir:

Çapraz doğrulama
Şəbəkə Axtarışı
Metrik

5. Ölçülərin Azaldılması

Məlumatın yüksək ölçülü məkandan aşağı ölçülü fəzaya ötürülməsi, beləliklə, aşağı ölçülü təqdimat orijinal məlumatın bəzi əhəmiyyətli aspektlərini, ideal olaraq özünəməxsus ölçüsünə yaxın saxlayır, ölçülü azalma kimi tanınır. Təhlil üçün təsadüfi dəyişənlərin sayı ölçülülük azaldıqda azalır. Məsələn, kənar məlumatlar vizuallaşdırmanın səmərəliliyini artırmaq üçün nəzərdə tutulmaya bilər.

Ölçülərin Azaldılması alqoritmi aşağıdakıları əhatə edir:

Xüsusiyyət seçimi
Əsas Komponent Təhlili (PCA)

Scikit-learn quraşdırılması

Scikit-learn istifadə etməzdən əvvəl NumPy, SciPy, Matplotlib, IPython, Sympy və Pandaların quraşdırılması tələb olunur. Gəlin onları konsoldan pip istifadə edərək quraşdıraq (yalnız Windows üçün işləyir).

Quraşdırın

Gəlin Scikit-learn-ı quraşdıraq, çünki biz tələb olunan kitabxanaları quraşdırmışıq.

Sklearn quraşdırılması

Xüsusiyyətləri

Bəzən sklearn kimi tanınan Scikit-learn, maşın öyrənmə modellərini və statistik modelləşdirməni həyata keçirmək üçün Python alət dəstidir. Biz ondan reqressiya, təsnifat və klasterləşmə üçün çoxsaylı maşın öyrənmə modelləri, habelə bu modelləri qiymətləndirmək üçün statistik alətlər yaratmaq üçün istifadə edə bilərik. Buraya həmçinin ölçülərin azaldılması, xüsusiyyət seçimi, xüsusiyyət çıxarılması, ansambl yanaşmaları və daxili verilənlər dəstləri daxildir. Bu keyfiyyətlərin hər birini bir-bir araşdıracağıq.

1. Datasetlərin idxalı

Scikit-learn iris verilənlər bazası, ev qiymətləri məlumat dəsti, titanik məlumat dəsti və s. kimi bir sıra əvvəlcədən qurulmuş verilənlər toplusunu əhatə edir. Bu məlumat dəstlərinin əsas üstünlükləri onların başa düşülməsinin sadə olması və dərhal ML modellərini hazırlamaq üçün istifadə oluna bilməsidir. Bu məlumat dəstləri yeni başlayanlar üçün uyğundur. Eynilə, əlavə məlumat dəstlərini idxal etmək üçün sklearn-dan istifadə edə bilərsiniz. Eynilə, siz ondan əlavə məlumat dəstlərini idxal etmək üçün istifadə edə bilərsiniz.

Dataset

2. Təlim və Test üçün Datasetin Ayrılması

Sklearn məlumat dəstini təlim və sınaq seqmentlərinə bölmək qabiliyyətini daxil etdi. Verilənlər toplusunun bölünməsi proqnozlaşdırma performansının qərəzsiz qiymətləndirilməsi üçün tələb olunur. Biz məlumatlarımızın nə qədərinin qatar və test məlumat dəstlərinə daxil ediləcəyini müəyyən edə bilərik. Biz məlumat dəstini qatar test bölməsindən istifadə edərək böldük ki, qatar dəsti məlumatların 80%-ni, test dəstinin isə 20%-ni təşkil etsin. Məlumat dəsti aşağıdakı kimi bölünə bilər:

Parçalanma

3. Xətti reqressiya

Xətti Reqressiya nəzarət edilən öyrənməyə əsaslanan maşın öyrənmə texnikasıdır. Bir reqressiya işini yerinə yetirir. Müstəqil dəyişənlərə əsaslanaraq, reqressiya hədəf proqnozu dəyərini modelləşdirir. Daha çox dəyişənlər və proqnozlaşdırma arasında əlaqəni müəyyən etmək üçün istifadə olunur. Müxtəlif reqressiya modelləri asılı və müstəqil dəyişənlər arasında qiymətləndirdikləri əlaqə növü, həmçinin istifadə olunan müstəqil dəyişənlərin sayı baxımından fərqlənir. Biz sadəcə olaraq sklearn-dan istifadə edərək Xətti Reqressiya modelini aşağıdakı kimi yarada bilərik:

Linear Regression

4. Logistik reqressiya

Ümumi təsnifat yanaşması logistik reqressiyadır. Çoxhədli və xətti reqressiya ilə eyni ailədədir və xətti təsnifat ailəsinə aiddir. Logistik reqressiyanın nəticələrini başa düşmək asandır və hesablamaq tezdir. Xətti reqressiya kimi, logistik reqressiya da nəzarət edilən reqressiya texnikasıdır. Çıxış dəyişəni kateqoriyalıdır, ona görə də yeganə fərq budur. Xəstənin ürək xəstəliyinin olub-olmadığını müəyyən edə bilər.

Spam aşkarlanması kimi müxtəlif təsnifat problemləri logistik reqressiyadan istifadə etməklə həll edilə bilər. Diabetin proqnozlaşdırılması, istehlakçının müəyyən bir məhsul alacağını və ya rəqibə keçəcəyini müəyyən etmək, istifadəçinin müəyyən bir marketinq linkinə klikləyəcəyini müəyyən etmək və daha bir çox ssenari bir neçə nümunədir.

Logistik Reqressiya

5. Qərar ağacı

Ən güclü və geniş istifadə olunan təsnifat və proqnozlaşdırma üsulu qərar ağacıdır. Qərar ağacı, hər bir daxili qovşaq atributdakı testi, hər bir budaq testin nəticəsini və hər bir yarpaq qovşağı (terminal qovşağı) sinif etiketinə malik olan, axın sxeminə bənzəyən ağac strukturudur.

Asılı dəyişənlərin müstəqil dəyişənlərlə xətti əlaqəsi olmadıqda, yəni xətti reqressiya düzgün nəticələr vermədikdə, qərar ağacları faydalıdır. Reqressiya üçün qərar ağacından istifadə etmək üçün DecisionTreeRegression() obyekti oxşar şəkildə istifadə edilə bilər.

Qərar ağacı

6. Təsadüfi meşə

Təsadüfi meşə a maşın təlim reqressiya və təsnifat məsələlərinin həllinə yanaşma. O, mürəkkəb problemləri həll etmək üçün çoxlu təsnifatçıları birləşdirən texnika olan ansambl öyrənməsindən istifadə edir. Təsadüfi meşə üsulu çox sayda qərar ağacından ibarətdir. O, kredit müraciətlərini kateqoriyalara ayırmaq, fırıldaqçılıq davranışını aşkar etmək və xəstəliyin baş verməsini proqnozlaşdırmaq üçün istifadə oluna bilər.

Təsadüfi Meşə

7. Qarışıqlıq matrisi

Qarışıqlıq matrisi təsnifat modelinin performansını təsvir etmək üçün istifadə olunan cədvəldir. Qarışıqlıq matrisini araşdırmaq üçün aşağıdakı dörd söz istifadə olunur:

Əsl Müsbət: Bu, modelin əlverişli nəticə proqnozlaşdırdığını və düzgün olduğunu bildirir.
Həqiqi Mənfi: Bu, modelin pis nəticə proqnozlaşdırdığını və düzgün olduğunu bildirir.
Yanlış Müsbət: Bu, modelin müsbət nəticə gözlədiyini, lakin həqiqətən mənfi olduğunu göstərir.
Yanlış Mənfi: Bu, modelin mənfi nəticə gözlədiyini, nəticənin həqiqətən müsbət olduğunu bildirir.

Qarışıqlıq Matrisi Foto

Qarışıqlıq matrisinin tətbiqi:

Qarışıqlıq Metrikləri

Pros

İstifadəsi asandır.
Scikit-learn paketi son dərəcə uyğunlaşa bilən və faydalıdır, istehlakçı davranışının proqnozlaşdırılması, neyroimajın inkişafı və s. kimi real məqsədlərə xidmət edir.
Alqoritmləri öz platformaları ilə əlaqələndirmək istəyən istifadəçilər Scikit-learn saytında ətraflı API sənədlərini tapacaqlar.
Çoxsaylı müəlliflər, əməkdaşlar və böyük bir dünya miqyasında onlayn icma dəstək verir və Scikit-learn-ı yeniləyir.

Eksiler

Dərin öyrənmə üçün ideal seçim deyil.

Nəticə

Scikit-learn hər bir məlumat aliminin güclü qavrayışı və müəyyən təcrübəyə malik olması üçün kritik paketdir. Bu təlimat sklearn istifadə edərək məlumatların manipulyasiyasında sizə kömək etməlidir. Scikit-learn-ın daha bir çox imkanları var ki, onları məlumat elmi macəranızda irəlilədikcə kəşf edəcəksiniz. Fikirlərinizi şərhlərdə paylaşın.

Scikit-öyrənmək üçün Başlayanlar üçün Bələdçi

Nədir Scikit-öyrən?