Водич за почетнике за Сцикит-леарн

Преглед садржаја[Сакрити][Прикажи]

Шта је Сцикит-леарн?
Апликације библиотеке Сцикит-леарн+-
Инсталирање Сцикит-леарн-а
Карактеристике +-
Прозодија
Против
Zakljucak

Ако сте Питхон програмер или тражите моћан комплет алата који ћете користити за увођење машинског учења у производни систем, Сцикит-леарн је библиотека коју морате да проверите.

Сцикит-леарн је добро документован и једноставан за коришћење, било да сте нови у машинском учењу, желите да се брзо покренете или желите да користите најсавременији алат за истраживање МЛ-а.

Омогућава вам да конструишете предиктивни модел података у само неколико редова кода, а затим користите тај модел да одговара вашим подацима као библиотеку високог нивоа. Флексибилан је и добро ради са другима Питхон библиотеке као што је Матплотлиб за цртање, НумПи за векторизацију низа и пандас за визуелизацију података.

У овом водичу ћете сазнати све о томе шта је то, како га можете користити, заједно са његовим предностима и недостацима.

Шта је Сцикит-леарн?

Сцикит-леарн (такође познат као склеарн) нуди разноврстан скуп статистичких модела и машинског учења. За разлику од већине модула, склеарн је развијен у Питхон-у, а не у Ц. Упркос томе што је развијен у Питхон-у, ефикасност склеарн-а се приписује његовој употреби НумПи-а за линеарну алгебру високих перформанси и операције низова.

Сцикит-Леарн је креиран као део Гоогле-овог Суммер оф Цоде пројекта и од тада је олакшао животе милиона научника који се баве подацима о Питхон-у широм света. Овај део серије се фокусира на представљање библиотеке и фокусирање на један елемент – трансформације скупова података, које су кључни и витални корак који треба предузети пре развоја модела предвиђања.

Склеарн

Библиотека је заснована на СциПи-у (Сциентифиц Питхон), који мора бити инсталиран да бисте могли да користите сцикит-леарн. Овај стог садржи следеће ставке:

НумПи: Питхон-ов стандардни н-димензионални пакет низа
СциПи: То је основни пакет за научно рачунарство
Панде: Структуре података и анализа
Матплотлиб: То је моћна библиотека 2Д/3Д цртања
Симпи: Симболичка математика
ИПитхон: Побољшана интерактивна конзола

Апликације библиотеке Сцикит-леарн

Сцикит-леарн је Питхон пакет отвореног кода са софистицираном анализом података и функцијама рударења. Долази са мноштвом уграђених алгоритама који ће вам помоћи да на најбољи начин искористите своје пројекте науке о подацима. Сцикит-леарн библиотека се користи на следеће начине.

1. Регресија

Регресиона анализа је статистичка техника за анализу и разумевање везе између две или више варијабли. Метода која се користи за регресиону анализу помаже у одређивању који су елементи релевантни, који се могу занемарити и како су у интеракцији. Технике регресије, на пример, могу се користити за боље разумевање понашања цена акција.

Алгоритми регресије укључују:

линеарна регресија
Ридге Регрессион
Ласо регресија
Регресија стабла одлучивања
Случајна шума
Подршке векторске машине (СВМ)

2. Класификација

Метод класификације је приступ надгледаног учења који користи податке обуке да идентификује категорију свежих запажања. Алгоритам у класификацији учи из датог скуп података или запажања, а затим класификује додатна запажања у једну од многих класа или група. Они се, на пример, могу користити за класификовање комуникације путем е-поште као нежељене поште или не.

Алгоритми класификације укључују следеће:

Логистичка регресија
К-најближи суседи
Суппорт Вецтор Мацхине
Стабло одлучивања
Случајна шума

3. Груписање

Алгоритми за груписање у Сцикит-леарн-у се користе за аутоматско распоређивање података са сличним својствима у скупове. Груписање је процес груписања скупа ставки тако да су они у истој групи сличнији онима у другим групама. Подаци о клијентима, на пример, могу бити раздвојени на основу њихове локације.

Алгоритми груписања укључују следеће:

ДБ-СЦАН
К-Меанс
Мини-Батцх К-Меанс
Спецтрал Цлустеринг

4. Избор модела

Алгоритми за одабир модела обезбеђују методе за поређење, валидацију и избор оптималних параметара и модела за употребу у иницијативама науке о подацима. С обзиром на податке, одабир модела представља проблем одабира статистичког модела из групе модела кандидата. У најосновнијим околностима узима се у обзир већ постојећа збирка података. Међутим, задатак може укључивати и дизајн експеримената тако да добијени подаци добро одговарају проблему одабира модела.

Модули за одабир модела који могу побољшати тачност подешавањем параметара укључују:

Унакрсна валидација
Претрага по мрежи
Метрицс

5. Смањење димензионалности

Пренос података из високодимензионалног простора у простор ниске димензије, тако да нискодимензионална репрезентација чува неке значајне аспекте оригиналних података, идеално близу њихове инхерентне димензије, познато је као смањење димензионалности. Број случајних променљивих за анализу се смањује када се смањи димензионалност. Спољни подаци, на пример, не могу се сматрати да побољшавају ефикасност визуелизације.

Алгоритам за смањење димензионалности укључује следеће:

Избор карактеристика
Анализа главне компоненте (ПЦА)

Инсталирање Сцикит-леарн-а

НумПи, СциПи, Матплотлиб, ИПитхон, Симпи и Пандас морају бити инсталирани пре коришћења Сцикит-леарн-а. Хајде да их инсталирамо користећи пип са конзоле (ради само за Виндовс).

Инсталирати

Хајде да инсталирамо Сцикит-леарн сада када смо инсталирали потребне библиотеке.

Инсталирање Склеарна

Карактеристике

Сцикит-леарн, понекад познат као склеарн, је Питхон комплет алата за имплементацију модела машинског учења и статистичког моделирања. Можемо га користити за креирање више модела машинског учења за регресију, класификацију и груписање, као и статистичке алате за процену ових модела. Такође укључује смањење димензионалности, избор карактеристика, екстракцију карактеристика, приступе ансамбла и уграђене скупове података. Истражићемо сваки од ових квалитета један по један.

1. Увоз скупова података

Сцикит-леарн укључује бројне унапред изграђене скупове података, као што су скуп података о шареници, скуп података о ценама куће, скуп података Титаниц итд. Кључне предности ових скупова података су да су једноставни за разумевање и да се могу користити за тренутни развој МЛ модела. Ови скупови података су прикладни за почетнике. Слично, можете користити склеарн за увоз додатних скупова података. Слично, можете га користити за увоз додатних скупова података.

Датасет

2. Подела скупа података за обуку и тестирање

Склеарн је укључио могућност поделе скупа података на сегменте обуке и тестирања. Подела скупа података је неопходна за непристрасну процену учинка предвиђања. Можемо да наведемо колико наших података треба да буде укључено у скупове података за обуку и тестирање. Поделили смо скуп података коришћењем поделе тестова возова тако да скуп возова садржи 80% података, а скуп тестова 20%. Скуп података се може поделити на следећи начин:

Цепање

3. Линеарна регресија

Линеарна регресија је техника машинског учења под надзором заснована на учењу. Изводи посао регресије. На основу независних променљивих, регресија моделује вредност предвиђања циља. Углавном се користи за одређивање везе између варијабли и предвиђања. Различити модели регресије разликују се у погледу врсте везе коју процењују између зависних и независних варијабли, као и броја независних варијабли које се користе. Можемо једноставно креирати модел линеарне регресије користећи склеарн на следећи начин:

линеарна регресија

4. Логистичка регресија

Уобичајени приступ категоризацији је логистичка регресија. Налази се у истој породици као полином и линеарна регресија и припада породици линеарних класификатора. Налази логистичке регресије су једноставни за разумевање и брзо се израчунавају. На исти начин као и линеарна регресија, логистичка регресија је техника надгледане регресије. Излазна варијабла је категорична, тако да је то једина разлика. Може утврдити да ли пацијент има срчану болест или не.

Различити проблеми класификације, као што је откривање нежељене поште, могу се решити коришћењем логистичке регресије. Предвиђање дијабетеса, одређивање да ли ће потрошач купити одређени производ или ће се пребацити на ривала, одређивање да ли ће корисник кликнути на одређену маркетиншку везу и још много сценарија су само неколико примера.

Логистичка регресија

5. Стабло одлучивања

Најмоћнија и најраспрострањенија техника класификације и предвиђања је стабло одлучивања. Стабло одлучивања је структура стабла која изгледа као дијаграм тока, са сваким унутрашњим чвором који представља тест на атрибуту, свака грана представља закључак теста, а сваки листни чвор (терминални чвор) држи ознаку класе.

Када зависне варијабле немају линеарну везу са независним варијаблама, тј. када линеарна регресија не даје тачне налазе, стабла одлучивања су корисна. Објекат ДецисионТрееРегрессион() може се користити на сличан начин за коришћење стабла одлучивања за регресију.

Стабло одлучивања

6. Случајна шума

Случајна шума је а Машина учење приступ решавању питања регресије и класификације. Користи учење ансамбла, што је техника која комбинује више класификатора за решавање компликованих проблема. Метод случајне шуме се састоји од великог броја стабала одлучивања. Може се користити за категоризацију захтева за кредит, откривање лажног понашања и предвиђање избијања болести.

Случајна шума

7. Матрица забуне

Матрица конфузије је табела која се користи за описивање перформанси модела класификације. Следеће четири речи се користе за испитивање матрице конфузије:

Право позитивно: Означава да је модел пројектовао повољан исход и да је био тачан.
Право негативно: Означава да је модел пројектовао лош исход и да је био тачан.
Лажно позитивно: Означава да је модел очекивао повољан исход, али је заиста био негативан.
Лажно негативан: Означава да је модел очекивао негативан исход, док је исход био заиста позитиван.

Цонфусион Матрик Пхото

Имплементација матрице конфузије:

метрика конфузије

Прозодија

Једноставан је за употребу.
Пакет Сцикит-леарн је изузетно прилагодљив и користан, служећи циљевима из стварног света као што су предвиђање понашања потрошача, развој неуро слике и тако даље.
Корисници који желе да повежу алгоритме са својим платформама наћи ће детаљну АПИ документацију на веб локацији Сцикит-леарн.
Бројни аутори, сарадници и велика светска онлајн заједница подржавају и одржавају Сцикит-леарн у току.

Против

То није идеална опција за дубинско проучавање.

Zakljucak

Сцикит-леарн је критичан пакет за сваког научника података који треба да има добро разумевање и одређено искуство. Овај водич би требало да вам помогне у манипулацији подацима користећи склеарн. Постоји много више могућности Сцикит-леарн-а које ћете открити док будете напредовали кроз своју авантуру у области науке о подацима. Поделите своје мисли у коментарима.

Водич за почетнике за Сцикит-леарн

Шта је Сцикит-леарн?