Yangi boshlanuvchilar uchun Scikit-learn uchun qo'llanma

Mundarija[Yashirish][Show]

Scikit-learn nima?
Scikit-learn kutubxonasining ilovalari+-
Scikit-learn o'rnatilmoqda
Xususiyatlari +-
Taroziga
Kamchiliklari
Xulosa

Agar siz Python dasturchisi bo'lsangiz yoki ishlab chiqarish tizimiga mashina o'rganishni joriy qilish uchun kuchli vositalar to'plamini qidirayotgan bo'lsangiz, Scikit-learn kutubxonasi bo'lib, uni tekshirishingiz kerak.

Scikit-learn yaxshi hujjatlashtirilgan va ulardan foydalanish oson, siz mashinani o'rganishga yangi bo'lsangiz, tezda ishga tushishni xohlaysizmi yoki eng so'nggi ML tadqiqot vositasidan foydalanmoqchimisiz.

Bu sizga bir necha qator kodlarda bashoratli ma'lumotlar modelini yaratishga imkon beradi va keyin ushbu modeldan yuqori darajadagi kutubxona sifatida ma'lumotlaringizga mos kelish uchun foydalanadi. U moslashuvchan va boshqalar bilan yaxshi ishlaydi Python kutubxonalari diagramma uchun Matplotlib, massiv vektorlashtirish uchun NumPy va ma'lumotlarni vizualizatsiya qilish uchun pandalar kabi.

Ushbu qo'llanmada siz uning nima ekanligini, undan qanday foydalanishni, shuningdek, uning ijobiy va salbiy tomonlarini bilib olasiz.

Nima bu Scikit-o'rganing?

Scikit-learn (sklearn nomi bilan ham tanilgan) turli xil statistik modellar va mashinalarni o'rganishni taklif qiladi. Aksariyat modullardan farqli o'laroq, sklearn C emas, balki Python da ishlab chiqilgan. Pythonda ishlab chiqilganiga qaramay, sklearn samaradorligi yuqori samarali chiziqli algebra va massiv operatsiyalari uchun NumPy dan foydalanish bilan bog'liq.

Scikit-Learn Google-ning Summer of Code loyihasining bir qismi sifatida yaratilgan va shundan beri butun dunyo bo'ylab millionlab Python-markazli ma'lumotlar olimlarining hayotini soddalashtirdi. Seriyaning ushbu bo'limi kutubxonani taqdim etishga va bitta elementga - ma'lumotlar to'plamini o'zgartirishga qaratilgan bo'lib, ular bashorat qilish modelini ishlab chiqishdan oldin asosiy va muhim qadamdir.

Sklearn

Kutubxona SciPy (Scientific Python) ga asoslangan, uni scikit-learn dan foydalanishdan oldin o'rnatish kerak. Ushbu to'plam quyidagi elementlarni o'z ichiga oladi:

NumPy: Pythonning standart n o'lchovli massiv paketi
SciPy: Bu ilmiy hisoblash uchun asosiy paket
Pandalar: ma'lumotlar tuzilmalari va tahlili
Matplotlib: Bu kuchli 2D/3D chizmachilik kutubxonasi
Simpiya: ramziy matematika
IPython: Yaxshilangan interaktiv konsol

Scikit-learn kutubxonasining ilovalari

Scikit-learn - bu murakkab ma'lumotlarni tahlil qilish va qazib olish xususiyatlariga ega ochiq manba Python to'plami. Bu sizga ma'lumotlar fanlari bo'yicha loyihalaringizdan maksimal darajada foydalanishga yordam beradigan ko'plab o'rnatilgan algoritmlar bilan birga keladi. Scikit-learn kutubxonasidan quyidagi usullarda foydalaniladi.

1. Regressiya

Regressiya tahlili - bu ikki yoki undan ortiq o'zgaruvchilar o'rtasidagi bog'liqlikni tahlil qilish va tushunish uchun statistik usul. Regressiya tahlilini o'tkazishda qo'llaniladigan usul qaysi elementlarning tegishli ekanligini, qaysi biri e'tiborga olinmasligi va ularning o'zaro ta'sirini aniqlashga yordam beradi. Masalan, aktsiya baholarining xatti-harakatlarini yaxshiroq tushunish uchun regressiya usullaridan foydalanish mumkin.

Regressiya algoritmlariga quyidagilar kiradi:

Lineer regressiya
Ridge regressiyasi
Lasso regressiyasi
Qaror daraxtining regressiyasi
Tasodifiy o'rmon
Vektorli mashinalarni qo'llab-quvvatlash (SVM)

2. Tasniflash

Tasniflash usuli - yangi kuzatuvlar toifasini aniqlash uchun o'quv ma'lumotlaridan foydalanadigan nazorat ostida o'rganish usuli. Tasniflashdagi algoritm berilgandan o'rganadi ma'lumotlar bazasi yoki kuzatishlar, so'ngra qo'shimcha kuzatishlarni ko'plab sinflar yoki guruhlardan biriga tasniflaydi. Ular, masalan, elektron pochta xabarlarini spam yoki yo'q deb tasniflash uchun ishlatilishi mumkin.

Tasniflash algoritmlari quyidagilarni o'z ichiga oladi:

Logistik regressiya
K-Eng yaqin qo'shnilar
Vektor mashinasini qo'llab-quvvatlash
Qaror daraxti
Tasodifiy o'rmon

3. Klasterlash

Scikit-learn-dagi klasterlash algoritmlari o'xshash xususiyatlarga ega ma'lumotlarni to'plamlarga avtomatik ravishda joylashtirish uchun ishlatiladi. Klasterlash - bu bir guruhdagilar boshqa guruhlarga o'xshash bo'lishi uchun elementlar to'plamini guruhlash jarayoni. Mijoz ma'lumotlari, masalan, joylashuviga qarab ajratilishi mumkin.

Klasterlash algoritmlari quyidagilarni o'z ichiga oladi:

DB-SCAN
K - degani
Mini-to'plam K-vositalari
Spektral klasterlash

4. Model tanlash

Model tanlash algoritmlari ma'lumotlar fanlari tashabbuslarida foydalanish uchun optimal parametrlar va modellarni taqqoslash, tasdiqlash va tanlash usullarini taqdim etadi. Berilgan ma'lumotlarga ko'ra, model tanlash - bu nomzod modellar guruhidan statistik modelni tanlash muammosi. Eng asosiy holatlarda, oldindan mavjud bo'lgan ma'lumotlar to'plami hisobga olinadi. Shu bilan birga, topshiriq tajribalarni loyihalashni ham o'z ichiga olishi mumkin, shunda olingan ma'lumotlar model tanlash muammosiga juda mos keladi.

Parametrlarni sozlash orqali aniqlikni yaxshilaydigan model tanlash modullariga quyidagilar kiradi:

O'zaro tasdiqlash
Tarmoq qidiruvi
Metrikalar

5. Hajmining qisqarishi

Ma'lumotni yuqori o'lchamli bo'shliqdan past o'lchamli bo'shliqqa o'tkazish, past o'lchamli tasvir asl ma'lumotlarning ba'zi muhim tomonlarini, ideal darajada uning o'ziga xos o'lchamiga yaqinligini saqlab qolish uchun o'lchovlilikni kamaytirish deb nomlanadi. Tahlil uchun tasodifiy o'zgaruvchilar soni o'lchovlilik kamaytirilganda kamayadi. Masalan, tashqi ma'lumotlar vizualizatsiya samaradorligini oshirish uchun hisoblanmasligi mumkin.

O'lchovni qisqartirish algoritmi quyidagilarni o'z ichiga oladi:

Tanlovni tanlash
Asosiy komponentlar tahlili (PCA)

Scikit-learn o'rnatilmoqda

Scikit-learn dan foydalanishdan oldin NumPy, SciPy, Matplotlib, IPython, Sympy va Pandas o'rnatilishi talab qilinadi. Keling, ularni konsoldan pip yordamida o'rnatamiz (faqat Windows uchun ishlaydi).

o'rnatmoq

Keling, Scikit-learn-ni o'rnatamiz, chunki biz kerakli kutubxonalarni o'rnatdik.

Sklearn o'rnatilmoqda

Xususiyatlari

Scikit-learn, ba'zan sklearn sifatida tanilgan, bu mashinani o'rganish modellari va statistik modellashtirishni amalga oshirish uchun Python asboblar to'plamidir. Biz undan regressiya, tasniflash va klasterlash uchun bir nechta mashinani o'rganish modellarini, shuningdek, ushbu modellarni baholash uchun statistik vositalarni yaratish uchun foydalanishimiz mumkin. Shuningdek, u o'lchamlarni qisqartirish, xususiyat tanlash, xususiyatlarni ajratib olish, ansambl yondashuvlari va o'rnatilgan ma'lumotlar to'plamini o'z ichiga oladi. Biz ushbu fazilatlarning har birini birma-bir tekshiramiz.

1. Ma'lumotlar to'plamini import qilish

Scikit-learn bir qator oldindan tuzilgan ma'lumotlar to'plamini o'z ichiga oladi, masalan, iris ma'lumotlar to'plami, uy narxlari ma'lumotlar to'plami, titanik ma'lumotlar to'plami va boshqalar. Ushbu ma'lumotlar to'plamining asosiy afzalliklari shundaki, ularni tushunish oson va ML modellarini darhol ishlab chiqish uchun foydalanish mumkin. Ushbu ma'lumotlar to'plami yangi boshlanuvchilar uchun mos keladi. Xuddi shunday, siz qo'shimcha ma'lumotlar to'plamlarini import qilish uchun sklearn dan foydalanishingiz mumkin. Xuddi shunday, siz undan qo'shimcha ma'lumotlar to'plamlarini import qilish uchun foydalanishingiz mumkin.

Ma'lumotlarni to'plami

2. Ma'lumotlar to'plamini o'qitish va sinovdan o'tkazish uchun ajratish

Sklearn ma'lumotlar to'plamini o'qitish va sinov segmentlariga bo'lish qobiliyatini o'z ichiga oladi. Ma'lumotlar to'plamini bo'lish bashorat samaradorligini xolis baholash uchun talab qilinadi. Biz qancha maʼlumotlarimizni poezd va test maʼlumotlar toʻplamiga kiritish kerakligini belgilashimiz mumkin. Biz ma'lumotlar to'plamini poezd testi bo'linmasi yordamida shunday ajratdikki, poezdlar to'plami ma'lumotlarning 80% ni va test to'plami 20% ni tashkil qiladi. Ma'lumotlar to'plamini quyidagicha ajratish mumkin:

Bo'linish

3. Chiziqli regressiya

Chiziqli regressiya - bu boshqariladigan o'rganishga asoslangan mashinani o'rganish usuli. U regressiya ishini bajaradi. Mustaqil o'zgaruvchilarga asoslanib, regressiya maqsadni bashorat qilish qiymatini modellashtiradi. U asosan o'zgaruvchilar va bashorat qilish o'rtasidagi bog'liqlikni aniqlash uchun ishlatiladi. Turli regressiya modellari qaram va mustaqil o'zgaruvchilar o'rtasidagi bog'lanish turi, shuningdek foydalanilgan mustaqil o'zgaruvchilar soni jihatidan farqlanadi. Biz sklearn yordamida chiziqli regressiya modelini quyidagicha yaratishimiz mumkin:

Lineer regressiya

4. Logistik regressiya

Umumiy tasniflash yondashuvi logistik regressiyadir. U polinom va chiziqli regressiya bilan bir oilaga kiradi va chiziqli tasniflagichlar oilasiga kiradi. Logistik regressiya natijalarini tushunish oson va tez hisoblash mumkin. Chiziqli regressiya singari, logistik regressiya ham boshqariladigan regressiya usulidir. Chiqish o'zgaruvchisi kategorik, shuning uchun yagona farq. Bemorda yurak kasalligi bor yoki yo'qligini aniqlash mumkin.

Turli tasniflash muammolari, masalan, spamni aniqlash logistik regressiya yordamida hal qilinishi mumkin. Qandli diabetni prognoz qilish, iste'molchining ma'lum bir mahsulotni sotib olishini yoki raqibga o'tishini aniqlash, foydalanuvchining ma'lum bir marketing havolasini bosishini aniqlash va boshqa ko'plab stsenariylar bir nechta misollardir.

Logistik regressiya

5. Qarorlar daraxti

Eng kuchli va keng qo'llaniladigan tasniflash va bashorat qilish usuli qaror daraxtidir. Qaror daraxti - bu oqim sxemasiga o'xshab ko'rinadigan daraxt strukturasi bo'lib, har bir ichki tugun atribut bo'yicha testni ifodalaydi, har bir novda testning xulosasini ifodalaydi va har bir barg tugun (terminal tugun) sinf belgisiga ega.

Agar qaram o'zgaruvchilar mustaqil o'zgaruvchilar bilan chiziqli munosabatga ega bo'lmasa, ya'ni chiziqli regressiya to'g'ri xulosalar keltirmasa, qaror daraxtlari foydali bo'ladi. Regressiya uchun qarorlar daraxtidan foydalanish uchun DecisionTreeRegression() ob'ekti xuddi shunday tarzda ishlatilishi mumkin.

Qaror daraxti

6. Tasodifiy o'rmon

Tasodifiy o'rmon - a kompyuterni o'rganish regressiya va tasniflash masalalarini hal qilish uchun yondashuv. U murakkab muammolarni hal qilish uchun bir nechta tasniflagichlarni birlashtirgan ansambl ta'limidan foydalanadi. Tasodifiy o'rmon usuli ko'p sonli qaror daraxtlaridan iborat. U kredit arizalarini tasniflash, firibgarlik xatti-harakatlarini aniqlash va kasallikning avj olishini kutish uchun ishlatilishi mumkin.

Tasodifiy o'rmon

7. Chalkashlik matritsasi

Chalkashlik matritsasi - bu tasniflash modelining ishlashini tavsiflash uchun ishlatiladigan jadval. Quyidagi to'rtta so'z chalkashlik matritsasini tekshirish uchun ishlatiladi:

Haqiqiy ijobiy: bu model ijobiy natijani prognoz qilganligini va u to'g'ri ekanligini anglatadi.
Haqiqiy salbiy: bu model yomon natijani prognoz qilganligini va u to'g'ri ekanligini anglatadi.
Noto'g'ri ijobiy: Bu model ijobiy natija kutganligini anglatadi, lekin bu haqiqatan ham salbiy edi.
Noto'g'ri salbiy: Bu model salbiy natija kutganligini, natija esa haqiqatan ham ijobiy bo'lganligini anglatadi.

Chalkashlik matritsasi fotosurati

Chalkashlik matritsasini amalga oshirish:

Chalkashlik ko'rsatkichlari

Taroziga

Foydalanish oson.
Scikit-learn to'plami juda moslashuvchan va foydali bo'lib, iste'molchilarning xatti-harakatlarini bashorat qilish, neyroimajni rivojlantirish va boshqalar kabi haqiqiy maqsadlarga xizmat qiladi.
Algoritmlarni o'z platformalari bilan bog'lamoqchi bo'lgan foydalanuvchilar Scikit-learn veb-saytida batafsil API hujjatlarini topadilar.
Ko'plab mualliflar, hamkorlar va butun dunyo bo'ylab katta onlayn hamjamiyat Scikit-learn-ni qo'llab-quvvatlaydi va yangilab turadi.

Kamchiliklari

Bu chuqur o'rganish uchun ideal variant emas.

Xulosa

Scikit-learn - bu har bir ma'lumot olimi uchun kuchli tushunish va tajribaga ega bo'lishi uchun juda muhim paket. Ushbu qo'llanma sklearn yordamida ma'lumotlarni manipulyatsiya qilishda sizga yordam berishi kerak. Scikit-learn-ning yana ko'plab imkoniyatlari mavjud, ularni siz ma'lumotlar faniga oid sarguzashtingiz davomida kashf etasiz. Fikrlaringizni sharhlarda baham ko'ring.

Yangi boshlanuvchilar uchun Scikit-learn uchun qo'llanma

Nima bu Scikit-o'rganing?