Жаңадан бастаушыға арналған Scikit-learn нұсқаулығы

Мазмұны[Жасыру][Көрсету]

Scikit-learn дегеніміз не?
Scikit-learn кітапханасының қолданбалары+-
Scikit-learn орнату
Мүмкіндіктер +-
артықшылықтары
Минус
қорытынды

Егер сіз Python бағдарламашысы болсаңыз немесе өндіріс жүйесіне машиналық оқытуды енгізу үшін пайдалану үшін қуатты құралдар жинағын іздесеңіз, Scikit-learn - бұл сізге тексеру керек кітапхана.

Scikit-learn жақсы құжатталған және пайдалану оңай, машиналық оқытуды жаңадан бастасаңыз да, тез іске қосқыңыз келсе немесе ML зерттеуінің ең заманауи құралын пайдаланғыңыз келсе де.

Ол кодтың бірнеше жолында болжамды деректер үлгісін құруға мүмкіндік береді, содан кейін деректеріңізді жоғары деңгейлі кітапхана ретінде сәйкестендіру үшін сол үлгіні пайдаланады. Ол икемді және басқалармен жақсы жұмыс істейді Python кітапханалары диаграмма үшін Matplotlib, массив векторизациясы үшін NumPy және деректерді визуализациялау үшін пандалар сияқты.

Бұл нұсқаулықта сіз оның не екенін, оны қалай пайдалануға болатынын және оның артықшылықтары мен кемшіліктерін білесіз.

қандай Scikit-үйреніңіз?

Scikit-learn (сонымен қатар sklearn ретінде белгілі) әртүрлі статистикалық модельдер мен машиналық оқытуды ұсынады. Көптеген модульдерден айырмашылығы, sklearn C емес, Python тілінде жасалған. Python тілінде жасалғанына қарамастан, sklearn тиімділігі оның жоғары өнімді сызықтық алгебра және массив операциялары үшін NumPy пайдалануымен байланысты.

Scikit-Learn Google компаниясының Summer of Code жобасының бөлігі ретінде жасалды және содан бері бүкіл әлем бойынша миллиондаған Python-центрлік деректер ғалымдарының өмірін жеңілдетті. Серияның бұл бөлімі кітапхананы көрсетуге және бір элементке – деректер жиынын түрлендіруге назар аударуға бағытталған, олар болжау үлгісін әзірлеу алдында қабылданатын негізгі және маңызды қадам болып табылады.

Склерн

Кітапхана SciPy (Scientific Python) негізінде жасалған, оны scikit-learn қолданбас бұрын орнату керек. Бұл стек келесі элементтерді қамтиды:

NumPy: Python стандартты n-өлшемді массив пакеті
SciPy: Бұл ғылыми есептеулерге арналған іргелі пакет
Пандалар: деректер құрылымдары және талдау
Matplotlib: Бұл қуатты 2D/3D графикалық кітапханасы
Симпиялық: Символдық математика
IPython: жақсартылған интерактивті консоль

Scikit-learn кітапханасының қолданбалары

Scikit-learn - күрделі деректерді талдау және өндіру мүмкіндіктері бар ашық бастапқы Python пакеті. Ол деректер туралы ғылым жобаларынан барынша пайда алуға көмектесетін көптеген кірістірілген алгоритмдермен бірге келеді. Scikit-learn кітапханасы келесі жолдармен қолданылады.

1. Регрессия

Регрессиялық талдау – екі немесе одан да көп айнымалылар арасындағы байланысты талдауға және түсінуге арналған статистикалық әдіс. Регрессиялық талдауды орындау үшін қолданылатын әдіс қандай элементтердің маңызды екенін, қайсысы еленбеуі мүмкін екенін және олардың өзара әрекеттесуін анықтауға көмектеседі. Регрессия әдістері, мысалы, акциялар бағасының мінез-құлқын жақсы түсіну үшін қолданылуы мүмкін.

Регрессия алгоритмдеріне мыналар жатады:

Сызықтық регрессия
Жоталардың регрессиясы
Лассо регрессиясы
Шешім ағашының регрессиясы
Кездейсоқ орман
Векторлық машиналарды қолдау (SVM)

2. Жіктеу

Жіктеу әдісі - жаңа бақылаулар санатын анықтау үшін оқу деректерін пайдаланатын Бақыланатын оқыту тәсілі. Жіктеудегі алгоритм берілгеннен үйренеді мәліметтер базасы немесе бақылаулар, содан кейін қосымша бақылауларды көптеген сыныптардың немесе топтардың біріне жіктейді. Олар, мысалы, электрондық пошта хабарларын спам немесе спам ретінде жіктеу үшін пайдаланылуы мүмкін.

Жіктеу алгоритмдеріне мыналар жатады:

Логистикалық регрессия
K-Ең жақын көршілер
Векторлық машинаны қолдау
Шешім ағашы
Кездейсоқ орман

3. Кластерлеу

Scikit-learn жүйесіндегі кластерлеу алгоритмдері ұқсас қасиеттері бар деректерді жиындарға автоматты түрде реттеу үшін пайдаланылады. Кластерлеу - бір топтағылар басқа топтағыларға ұқсас болуы үшін элементтер жиынын топтастыру процесі. Тұтынушы деректері, мысалы, олардың орналасқан жеріне қарай бөлінуі мүмкін.

Кластерлеу алгоритмдеріне мыналар жатады:

DB-SCAN
K- білдіреді
Шағын топтама K-құралдары
Спектрлік кластерлеу

4. Үлгіні таңдау

Үлгіні таңдау алгоритмдері деректер туралы ғылым бастамаларында пайдалану үшін оңтайлы параметрлер мен үлгілерді салыстыру, тексеру және таңдау әдістерін қамтамасыз етеді. Берілген деректер, үлгіні таңдау үміткер модельдер тобынан статистикалық модельді таңдау мәселесі болып табылады. Ең негізгі жағдайларда бұрыннан бар деректер жинағы есепке алынады. Дегенмен, алынған деректер үлгі таңдау мәселесіне жақсы сәйкес келетіндей тапсырма тәжірибелерді жобалауды да қамтуы мүмкін.

Параметрлерді реттеу арқылы дәлдікті жақсартатын үлгі таңдау модульдері мыналарды қамтиды:

Айқас валидация
Тор іздеу
Метрика

5. Өлшемді азайту

Төмен өлшемді көрініс бастапқы деректердің кейбір маңызды аспектілерін сақтайтындай етіп, жоғары өлшемді кеңістіктен төмен өлшемді кеңістікке деректерді тасымалдау өлшемді азайту ретінде белгілі. Өлшемділік азайған кезде талдауға арналған кездейсоқ шамалардың саны азаяды. Мысалы, сыртқы деректер визуализацияның тиімділігін арттыру үшін қарастырылмауы мүмкін.

Өлшемді азайту алгоритмі мыналарды қамтиды:

Таңдауды таңдау
Негізгі компоненттерді талдау (PCA)

Scikit-learn орнату

Scikit-learn қолданбас бұрын NumPy, SciPy, Matplotlib, IPython, Sympy және Pandas орнатылуы керек. Оларды консольден pip көмегімен орнатайық (тек Windows үшін жұмыс істейді).

орнату

Қажетті кітапханаларды орнатқаннан кейін Scikit-learn бағдарламасын орнатайық.

Sklearn орнату

Мүмкіндіктер

Scikit-learn, кейде sklearn ретінде белгілі, машиналық оқыту үлгілерін және статистикалық модельдеуді енгізуге арналған Python құралдар жинағы. Біз оны регрессия, жіктеу және кластерлеу үшін бірнеше машиналық оқыту үлгілерін, сондай-ақ осы үлгілерді бағалауға арналған статистикалық құралдарды жасау үшін пайдалана аламыз. Ол сондай-ақ өлшемді азайтуды, мүмкіндікті таңдауды, мүмкіндікті алуды, ансамбльдік тәсілдерді және кірістірілген деректер жиынын қамтиды. Біз осы қасиеттердің әрқайсысын бір-бірден зерттейміз.

1. Деректер жиынын импорттау

Scikit-learn бірқатар алдын ала құрастырылған деректер жиынын қамтиды, мысалы, ирис деректер жинағы, үй бағасы деректер жинағы, титаникалық деректер жинағы және т.б. Бұл деректер жиынының негізгі артықшылықтары оларды түсіну оңай және ML үлгілерін дереу әзірлеу үшін пайдаланылуы мүмкін. Бұл деректер жинақтары жаңадан бастаушыларға жарамды. Сол сияқты, сіз қосымша деректер жиынын импорттау үшін sklearn пайдалана аласыз. Сол сияқты, сіз оны қосымша деректер жиынын импорттау үшін пайдалана аласыз.

Деректер жиынтығы

2. Оқыту және тестілеу үшін деректер жиынын бөлу

Sklearn деректер жинағын оқыту және тестілеу сегменттеріне бөлу мүмкіндігін қамтиды. Деректер жиынын бөлу болжау өнімділігін объективті бағалау үшін қажет. Біз деректеріміздің қанша бөлігін пойызға және сынақ деректер жиынына қосу керектігін белгілей аламыз. Біз деректер жинағын пойыз сынағы бөлу арқылы бөлдік, осылайша пойыз жинағы деректердің 80%, ал сынақ жинағы 20% құрайды. Деректер жиынтығын келесідей бөлуге болады:

Бөлу

3. Сызықтық регрессия

Сызықтық регрессия – бақыланатын оқытуға негізделген машиналық оқыту әдісі. Ол регрессия жұмысын орындайды. Тәуелсіз айнымалыларға негізделген регрессия мақсатты болжау мәнін модельдейді. Ол көбінесе айнымалылар мен болжау арасындағы байланысты анықтау үшін қолданылады. Әртүрлі регрессия үлгілері тәуелді және тәуелсіз айнымалылар арасында бағалайтын байланыс түрі, сондай-ақ пайдаланылатын тәуелсіз айнымалылар саны бойынша ерекшеленеді. Біз sklearn көмегімен сызықтық регрессия үлгісін келесідей жасай аламыз:

Сызықтық регрессия

4. Логистикалық регрессия

Жалпы санаттау тәсілі логистикалық регрессия болып табылады. Ол көпмүшелік және сызықтық регрессиямен бір отбасында және сызықтық жіктеуіштер тобына жатады. Логистикалық регрессияның нәтижелерін түсіну оңай және есептелуі тез. Сызықтық регрессия сияқты, логистикалық регрессия да бақыланатын регрессия әдісі болып табылады. Шығару айнымалысы категориялық, сондықтан бұл жалғыз айырмашылық. Ол науқаста жүрек ауруы бар-жоғын анықтауға болады.

Спамды анықтау сияқты әртүрлі жіктеу мәселелері логистикалық регрессия арқылы шешілуі мүмкін. Қант диабетін болжау, тұтынушының белгілі бір өнімді сатып алатынын немесе бәсекелеске ауысатынын анықтау, пайдаланушының белгілі бір маркетингтік сілтемені басатынын анықтау және басқа да көптеген сценарийлер бірнеше мысалдар ғана.

Логистикалық регрессия

5. Шешім ағашы

Ең күшті және кеңінен қолданылатын жіктеу мен болжау әдісі - шешім ағашы. Шешім ағашы - бұл блок-схемаға ұқсайтын ағаш құрылымы, әрбір ішкі түйін атрибуттағы сынақты білдіреді, әрбір тармақ сынақтың қорытындысын көрсетеді және әрбір жапырақ түйіні (терминал түйіні) сынып белгісін ұстайды.

Тәуелді айнымалылардың тәуелсіз айнымалылармен сызықтық қатынасы болмаған кезде, яғни сызықтық регрессия дұрыс нәтиже бермесе, шешім ағаштары пайдалы болады. DecisionTreeRegression() нысаны регрессия үшін шешім ағашын пайдалану үшін ұқсас жолмен пайдаланылуы мүмкін.

Шешім ағашы

6. Кездейсоқ орман

Кездейсоқ орман - бұл а машина оқыту регрессия және классификация мәселелерін шешу тәсілі. Ол күрделі есептерді шешу үшін бірнеше классификаторларды біріктіретін әдіс болып табылатын ансамбльдік оқытуды пайдаланады. Кездейсоқ орман әдісі көптеген шешім ағаштарынан тұрады. Ол несиелік өтінімдерді санаттау, алаяқтық әрекеттерді анықтау және аурудың өршуін болжау үшін пайдаланылуы мүмкін.

Кездейсоқ орман

7. Шатасу матрицасы

Шатасу матрицасы классификация моделінің өнімділігін сипаттау үшін пайдаланылатын кесте болып табылады. Шатасу матрицасын тексеру үшін келесі төрт сөз қолданылады:

Шынайы оң: бұл модель қолайлы нәтижені болжағанын және дұрыс болғанын білдіреді.
Нағыз теріс: бұл модель нашар нәтижені болжағанын және оның дұрыс болғанын білдіреді.
Жалған оң: бұл модель қолайлы нәтиже күткенін білдіреді, бірақ ол шынымен теріс болды.
Жалған теріс: бұл модель теріс нәтиже күткенін білдіреді, ал нәтиже шынымен оң болды.

Шатасу матрицалық фотосурет

Шатасу матрицасын жүзеге асыру:

Шатасу көрсеткіштері

артықшылықтары

Қолдану қарапайым.
Scikit-learn пакеті өте бейімделгіш және пайдалы, ол тұтынушылардың мінез-құлқын болжау, нейробейнелерді дамыту және т.б. сияқты нақты мақсаттарға қызмет етеді.
Алгоритмдерді платформаларымен байланыстырғысы келетін пайдаланушылар Scikit-learn веб-сайтында толық API құжаттамасын табады.
Көптеген авторлар, серіктестер және үлкен дүниежүзілік желілік қауымдастық Scikit-learn-ді қолдайды және жаңартып отырады.

Минус

Бұл тереңдетілген оқу үшін тамаша нұсқа емес.

қорытынды

Scikit-learn - бұл әрбір деректер ғалымы үшін жақсы түсінетін және біраз тәжірибесі бар маңызды пакет. Бұл нұсқаулық sklearn көмегімен деректерді өңдеуге көмектесуі керек. Scikit-learn қолданбасының көптеген мүмкіндіктері бар, оларды сіз деректер ғылымының шытырман оқиғасы арқылы ілгерілеген кезде табасыз. Пікірлерде өз ойларыңызбен бөлісіңіз.

Жаңадан бастаушыларға арналған Scikit-learn нұсқаулығы

қандай Scikit-үйреніңіз?