Scikit-learn үчүн башталгыч үчүн колдонмо

Мазмуну[Жашыруу][Көрсөтүү]

Scikit-learn деген эмне?
Scikit-learn китепканасынын тиркемелери+-
Scikit-learn орнотуу
Өзгөчөлүктөрү +-
жакшы
жактары
жыйынтыктоо

Эгер сиз Python программисти болсоңуз же өндүрүш тутумуна машиналык үйрөнүүнү киргизүү үчүн күчтүү инструменттерди издеп жатсаңыз, Scikit-learn китепканасы сиз текшеришиңиз керек.

Scikit-learn жакшы документтештирилген жана колдонууга жөнөкөй, мейли, сиз машина үйрөнүү үчүн жаңысызбы, тез иштөөнү каалайсызбы же ML изилдөөнүн эң заманбап куралын колдонгуңуз келеби.

Бул коддун бир нече саптарында болжолдуу маалымат моделин түзүүгө мүмкүндүк берет жана андан кийин ал моделди сиздин маалыматтарыңызга жогорку деңгээлдеги китепкана катары ылайыктуу үчүн колдонот. Бул ийкемдүү жана башкалар менен жакшы иштейт Python китепканалары диаграммаларды түзүү үчүн Matplotlib, массивдерди векторлоо үчүн NumPy жана маалыматтарды визуалдаштыруу үчүн пандалар сыяктуу.

Бул колдонмодо сиз анын эмне экенин, аны кантип колдонсоңуз болорун, ошондой эле анын жакшы жана жаман жактарын биле аласыз.

Эмне Scikit-үйрөн?

Scikit-learn (ошондой эле sklearn деп аталат) ар кандай статистикалык моделдердин жана машина үйрөнүүнү сунуштайт. Көпчүлүк модулдардан айырмаланып, sklearn C эмес, Pythonдо иштелип чыккан. Pythonдо иштелип чыкканына карабастан, sklearn эффективдүүлүгү анын NumPyди жогорку натыйжалуу сызыктуу алгебра жана массив операциялары үчүн колдонуусу менен түшүндүрүлөт.

Scikit-Learn Google'дун Summer of Code долбоорунун бир бөлүгү катары түзүлгөн жана ошондон бери дүйнө жүзү боюнча миллиондогон Python борборлоштурулган маалымат илимпоздорунун жашоосун жөнөкөйлөттү. Сериянын бул бөлүмү китепкананы көрсөтүүгө жана бир элементке көңүл бурууга багытталган - маалыматтар топтомун трансформациялоо, алар болжолдоо моделин иштеп чыгуудан мурун жасала турган негизги жана маанилүү кадам болуп саналат.

Sklearn

Китепкана SciPy (Scientific Python) негизинде түзүлгөн, аны scikit-learn колдонуудан мурун орнотуу керек. Бул стек төмөнкү элементтерди камтыйт:

NumPy: Python стандарттык n-өлчөмдүү массив пакети
SciPy: Бул илимий эсептөө үчүн негизги пакети болуп саналат
Pandas: Маалымат структуралары жана талдоо
Matplotlib: Бул күчтүү 2D/3D пландоо китепканасы
Sympy: Символикалык математика
IPython: Жакшыртылган интерактивдүү консол

Scikit-learn китепканасынын тиркемелери

Scikit-learn - татаал маалыматтарды талдоо жана тоо-кен казып алуу өзгөчөлүктөрү бар ачык булактуу Python пакети. Бул маалымат илими боюнча долбоорлоруңуздан максималдуу пайда алууга жардам берүү үчүн көптөгөн орнотулган алгоритмдер менен келет. Scikit-learn китепканасы төмөнкү жолдор менен колдонулат.

1. Регрессия

Регрессиялык анализ - эки же андан көп өзгөрмөлөрдүн ортосундагы байланышты талдоо жана түшүнүү үчүн статистикалык ыкма. Регрессиялык талдоо жүргүзүү үчүн колдонулган ыкма кайсы элементтердин тиешелүү экенин, кайсынысына көңүл бурулбай калышы мүмкүн экенин жана алардын өз ара аракеттенүүсүн аныктоого жардам берет. Мисалы, регрессиялык ыкмалар акциялардын баасынын жүрүм-турумун жакшыраак түшүнүү үчүн колдонулушу мүмкүн.

Регрессиянын алгоритмдерине төмөнкүлөр кирет:

сызыктуу регрессиялык
Ridge регрессия
Лассо регрессиясы
Чечим дарагынын регресси
Random Forest
Колдоо вектордук машиналар (SVM)

2. Классификация

Классификация ыкмасы жаңы байкоолордун категориясын аныктоо үчүн окуу маалыматтарын колдонгон Көзөмөлгө алынган окутуу ыкмасы. Классификациядагы алгоритм берилгенден үйрөнөт танышуусуна же байкоолор жана андан кийин кошумча байкоолорду көптөгөн класстардын же топтордун бирине классификациялайт. Алар, мисалы, электрондук почта билдирүүлөрүн спам же спам катары классификациялоо үчүн колдонулушу мүмкүн.

Классификациялоо алгоритмдерине төмөнкүлөр кирет:

логистикалык регрессия
K-Жакынкы кошуналар
Колдоо вектордук машина
Чечим дарагы
Random Forest

3. Кластерлөө

Scikit-learnдеги кластерлөө алгоритмдери окшош касиеттери бар маалыматтарды топтомдорго автоматтык түрдө иретке келтирүү үчүн колдонулат. Кластерлөө – бул бир эле топтогулар башка топтордогуларга көбүрөөк окшош болушу үчүн бир нерселерди топтоо процесси. Кардар маалыматтары, мисалы, алардын жайгашкан жерине жараша бөлүнүшү мүмкүн.

Кластердик алгоритмдер төмөнкүлөрдү камтыйт:

DB-SCAN
K- билдирет
Mini-Patch K-Means
Спектралдык кластерлөө

4. Моделди тандоо

Моделди тандоо алгоритмдери маалымат илиминин демилгелеринде колдонуу үчүн оптималдуу параметрлерди жана моделдерди салыштыруу, текшерүү жана тандоо ыкмаларын камсыз кылат. Берилген маалыматтар, моделди тандоо талапкер моделдердин тобунан статистикалык моделди тандоо маселеси болуп саналат. Эң негизги шарттарда алдын ала болгон маалыматтардын жыйнагы эске алынат. Бирок, тапшырма ошондой эле алынган маалыматтар моделди тандоо маселесине ылайыктуу болушу үчүн эксперименттердин дизайнын камтышы мүмкүн.

Параметрлерди тууралоо менен тактыкты жакшыртуучу моделди тандоо модулдарына төмөнкүлөр кирет:

Кайчылаш текшерүү
Тор издөө
ченемдер

5. Өлчөмдүүлүктү азайтуу

Өлчөмдүү мейкиндиктен төмөн өлчөмдүү мейкиндикке берилиштерди өткөрүп берүү төмөнкү өлчөмдүү көрсөтүү баштапкы маалыматтардын кээ бир маанилүү аспектилерин, идеалдуу түрдө анын мүнөздүү өлчөмүнө жакындыгын сактап калат, өлчөмдүүлүктү азайтуу деп аталат. Өлчөмдүүлүк азайганда талдоо үчүн кокус өзгөрмөлөрдүн саны азаят. Мисалы, сырткы маалыматтар визуализациянын натыйжалуулугун жогорулатуу үчүн каралбашы мүмкүн.

Өлчөмдүүлүктү азайтуу алгоритми төмөнкүлөрдү камтыйт:

Мүмкүнчүлүк тандоо
Негизги компоненттерди талдоо (PCA)

Scikit-learn орнотуу

Scikit-learn колдонуудан мурун NumPy, SciPy, Matplotlib, IPython, Sympy жана Pandas орнотулушу керек. Келгиле, аларды консолдон pip аркылуу орнотобуз (Windows үчүн гана иштейт).

орнотуу

Келгиле, Scikit-learn орнотуп алалы, биз керектүү китепканаларды орноттук.

Sklearn орнотулууда

Өзгөчөлүктөрү

Scikit-learn, кээде sklearn деп аталат, бул машина үйрөнүү моделдерин жана статистикалык моделдештирүү үчүн Python инструменттери. Биз аны регрессия, классификация жана кластерлөө үчүн бир нече машина үйрөнүү моделдерин, ошондой эле бул моделдерди баалоо үчүн статистикалык куралдарды түзүү үчүн колдоно алабыз. Ал ошондой эле өлчөмдүүлүктү кыскартууну, өзгөчөлүктү тандоону, өзгөчөлүктөрдү чыгарууну, ансамблдик ыкмаларды жана орнотулган маалымат топтомдорун камтыйт. Биз бул сапаттардын ар бирин бирден иликтейбиз.

1. Берилиштер топтомун импорттоо

Scikit-learn бир катар алдын ала түзүлгөн берилиштер топтомун камтыйт, мисалы, ирис маалымат топтому, үй баасынын маалымат топтому, титаникалык маалымат топтому жана башкалар. Бул маалымат топтомдорунун негизги артыкчылыктары, аларды түшүнүү оңой жана ML моделдерин дароо иштеп чыгуу үчүн колдонулушу мүмкүн. Бул маалымат топтомдору башталгычтар үчүн ылайыктуу. Ошо сыяктуу эле, кошумча маалымат топтомдорун импорттоо үчүн sklearn колдоно аласыз. Ошо сыяктуу эле, сиз аны кошумча маалымат топтомдорун импорттоо үчүн колдонсоңуз болот.

танышуусуна

2. Окутуу жана тестирлөө үчүн берилиштер топтомун бөлүү

Sklearn маалымат топтомун окутуу жана тестирлөө сегменттерине бөлүү мүмкүнчүлүгүн камтыган. Берилиштер топтомун бөлүү болжолдоолордун натыйжалуулугун калыс баалоо үчүн талап кылынат. Поездге жана тесттик маалымат топтомдоруна канча маалымат киргизилиши керектигин аныктай алабыз. Биз берилиштер топтомун поезд тесттик бөлүү аркылуу бөлдүк, ошондой эле поезд топтому маалыматтардын 80%, ал эми тест топтому 20% түзөт. Берилиштер топтомун төмөнкүчө бөлүүгө болот:

Бөлүү

3. Сызыктуу регрессия

Сызыктуу регрессия көзөмөлгө алынган окутууга негизделген машинаны үйрөнүү ыкмасы. Ал регрессия ишин аткарат. Көз карандысыз өзгөрмөлөрдүн негизинде регрессия максатты болжолдоо маанисин моделдейт. Ал көбүнчө өзгөрмөлөр менен болжолдоолордун ортосундагы байланышты аныктоо үчүн колдонулат. Ар кандай регрессиялык моделдер көз каранды жана көз карандысыз өзгөрмөлөр ортосундагы байланыштын түрү, ошондой эле колдонулган көз карандысыз өзгөрмөлөрдүн саны боюнча айырмаланат. Биз sklearn аркылуу сызыктуу регрессия моделин төмөнкүдөй түзө алабыз:

сызыктуу регрессиялык

4. Логистикалык регрессия

Категориялоонун жалпы ыкмасы логистикалык регрессия болуп саналат. Бул полиномдук жана сызыктуу регрессия менен бир үй-бүлөдө жана сызыктуу классификатор үй-бүлөсүнө кирет. Логистикалык регрессиянын тыянактары түшүнүү үчүн жөнөкөй жана тез эсептелинет. Сызыктуу регрессия сыяктуу эле, логистикалык регрессия да көзөмөлдөнгөн регрессия ыкмасы болуп саналат. Чыгарылган өзгөрмө категориялык, ошондуктан бир гана айырма. Ал бейтаптын жүрөк оорусу бар же жок экенин аныктай алат.

Ар кандай классификация маселелери, мисалы, спам аныктоо, логистикалык регрессиянын жардамы менен чечилиши мүмкүн. Диабетти болжолдоо, керектөөчү белгилүү бир продуктуну сатып алаарын же атаандашына өтөөрүн аныктоо, колдонуучу белгилүү бир маркетинг шилтемесин басарын аныктоо жана башка көптөгөн сценарийлер бир нече мисалдар.

логистикалык регрессия

5. Чечим дарагы

Эң күчтүү жана кеңири колдонулган классификация жана болжолдоо ыкмасы - чечим дарагы. Чечим дарагы - бул блок-схема сыяктуу көрүнгөн дарак структурасы, ар бир ички түйүн атрибуттагы тестти, ар бир бутак тесттин корутундусун билдирет жана ар бир жалбырак түйүнү (терминалдык түйүн) класс белгисин камтыйт.

Көз каранды өзгөрмөлөрдүн көз карандысыз өзгөрмөлөр менен сызыктуу байланышы жок болгондо, башкача айтканда, сызыктуу регрессия туура жыйынтыктарды бербесе, чечим дарактары пайдалуу. DecisionTreeRegression() объекти регрессия үчүн чечим дарагын колдонуу үчүн ушундай эле жол менен колдонулушу мүмкүн.

Чечим дарагы

6. Кокус токой

Кокус токой – а машина үйрөнүү регрессия жана классификация маселелерин чечүү үчүн ыкма. Ал татаал маселелерди чечүү үчүн бир нече классификаторлорду бириктирген ыкма болгон ансамблдик окутууну колдонот. Кокус токой ыкмасы көп сандагы чечим дарактарынан турат. Бул кредиттик өтүнмөлөрдү категорияларга бөлүү, алдамчылык жүрүм-турумун аныктоо жана оорулардын чыгышын алдын ала билүү үчүн колдонулушу мүмкүн.

Random Forest

7. Башаламандык матрицасы

Башаламандык матрицасы классификация моделинин иштешин сүрөттөө үчүн колдонулган таблица. Төмөнкү төрт сөз башаламандык матрицасын текшерүү үчүн колдонулат:

Чыныгы Позитивдүү: Бул модель жагымдуу натыйжаны болжолдоп, туура болгонун билдирет.
Чыныгы терс: Бул модель жаман натыйжаны болжолдоп, туура болгонун билдирет.
False Positive: Бул моделдин жагымдуу натыйжа күткөндүгүн, бирок бул чындыгында терс болгонун билдирет.
False Negative: Бул модель терс натыйжаны күткөндүгүн, ал эми натыйжа чындап оң болгонун билдирет.

Confusion Matrix Photo

Башаламандык матрицасын ишке ашыруу:

Башаламандык метрикасы

жакшы

Бул колдонуу үчүн жөнөкөй.
Scikit-learn пакети өтө ийкемдүү жана пайдалуу, ал керектөөчүлөрдүн жүрүм-турумун болжолдоо, нейросүрөттөрдү өнүктүрүү жана башкалар сыяктуу реалдуу максаттарга кызмат кылат.
Алгоритмдерди платформалары менен туташтырууну каалаган колдонуучулар Scikit-learn веб-сайтында толук API документтерин таба алышат.
Көптөгөн авторлор, өнөктөштөр жана дүйнө жүзү боюнча чоң онлайн коомчулугу Scikit-learn программасын колдоп, жаңыртып турушат.

жактары

Бул терең изилдөө үчүн идеалдуу вариант эмес.

жыйынтыктоо

Scikit-learn - бул ар бир илимпоз үчүн абдан маанилүү пакет. Бул колдонмо сизге sklearn аркылуу маалыматтарды манипуляциялоого жардам бериши керек. Scikit-learn программасынын дагы көптөгөн мүмкүнчүлүктөрү бар, аларды сиз маалымат илими укмуштуу окуялары аркылуу алга жылган сайын таба аласыз. Комментарийлерде өз оюңуз менен бөлүшүңүз.

Scikit-learn үчүн башталгыч үчүн колдонмо

Эмне Scikit-үйрөн?