Mwongozo wa Wanaoanza kwa Scikit-learn

Orodha ya Yaliyomo[Ficha][Onyesha]

Scikit-kujifunza ni nini?
Utumizi wa maktaba ya kujifunza Scikit+-
Inasakinisha Scikit-learn
Vipengele +-
faida
Africa
Hitimisho

Ikiwa wewe ni mpanga programu wa Python au unatafuta zana yenye nguvu ya kutumia kutambulisha ujifunzaji wa mashine kwenye mfumo wa uzalishaji, Scikit-learn ni maktaba ambayo unahitaji kuangalia.

Scikit-learn imerekodiwa vyema na ni rahisi kutumia, iwe wewe ni mgeni katika kujifunza kwa mashine, unataka kuamka na kufanya kazi haraka, au unataka kutumia zana ya utafiti ya ML iliyosasishwa zaidi.

Inakuruhusu kuunda kielelezo cha data cha ubashiri katika mistari michache tu ya msimbo na kisha kutumia muundo huo kutoshea data yako kama maktaba ya kiwango cha juu. Ni rahisi na inafanya kazi vizuri na zingine Maktaba za Python kama Matplotlib ya kuweka chati, NumPy ya uwekaji vekta wa safu, na panda za taswira ya data.

Katika mwongozo huu, utapata yote kuhusu ni nini, jinsi unavyoweza kuitumia, pamoja na faida na hasara zake.

Nini Scikit-jifunze?

Scikit-learn (pia inajulikana kama sklearn) hutoa seti tofauti za miundo ya takwimu na kujifunza kwa mashine. Tofauti na moduli nyingi, sklearn inatengenezwa katika Python badala ya C. Licha ya kuendelezwa katika Python, ufanisi wa sklearn unahusishwa na matumizi yake ya NumPy kwa aljebra ya utendaji wa juu na uendeshaji wa safu.

Scikit-Learn iliundwa kama sehemu ya mradi wa Majira ya Misimbo ya Google na tangu wakati huo imerahisisha maisha ya mamilioni ya wanasayansi wa data wa Python kote ulimwenguni. Sehemu hii ya mfululizo inalenga katika kuwasilisha maktaba na kuzingatia kipengele kimoja - mabadiliko ya seti ya data, ambayo ni hatua muhimu na muhimu ya kuchukua kabla ya kuunda modeli ya utabiri.

Sklearn

Maktaba inategemea SciPy (Scientific Python), ambayo lazima isakinishwe kabla ya kutumia scikit-learn. Rafu hii ina vitu vifuatavyo:

NumPy: Kifurushi cha kawaida cha safu ya n-dimensional cha Python
SciPy: Ni kifurushi cha kimsingi cha kompyuta ya kisayansi
Pandas: Miundo ya data na uchambuzi
Matplotlib: Ni maktaba yenye nguvu ya 2D/3D ya kupanga njama
Sympy: Hisabati ya ishara
IPython: Kiweko ingiliani kilichoboreshwa

Utumizi wa maktaba ya kujifunza Scikit

Scikit-learn ni kifurushi cha Python cha chanzo huria chenye uchanganuzi wa data wa hali ya juu na vipengele vya uchimbaji madini. Inakuja na idadi kubwa ya kanuni zilizojumuishwa ili kukusaidia kupata manufaa zaidi kutoka kwa miradi yako ya sayansi ya data. Maktaba ya kujifunza Scikit inatumika kwa njia zifuatazo.

1. Ukandamizaji

Uchanganuzi wa urejeshi ni mbinu ya takwimu ya kuchanganua na kuelewa uhusiano kati ya viambishi viwili au zaidi. Mbinu inayotumiwa kufanya uchanganuzi wa urejeshi husaidia katika kubainisha ni vipengele vipi vinavyofaa, ambavyo vinaweza kupuuzwa, na jinsi vinavyoingiliana. Mbinu za urejeshaji, kwa mfano, zinaweza kutumika kuelewa vyema tabia ya bei za hisa.

Algorithms ya urekebishaji ni pamoja na:

linear regression
Regression ya Ridge
Ukandamizaji wa Lasso
Kurudi kwa Mti wa Uamuzi
Msitu wa nasibu
Mashine za Vekta za Kusaidia (SVM)

2. Uainishaji

Mbinu ya Uainishaji ni mbinu ya Kujifunza Kusimamiwa ambayo hutumia data ya mafunzo ili kutambua aina ya uchunguzi mpya. Algorithm katika Uainishaji hujifunza kutoka kwa fulani daftari au uchunguzi na kisha kuainisha uchunguzi wa ziada katika mojawapo ya madarasa au vikundi vingi. Wanaweza, kwa mfano, kutumika kuainisha mawasiliano ya barua pepe kama barua taka au la.

Algorithms ya uainishaji ni pamoja na yafuatayo:

Udhibiti wa vifaa
K-Majirani wa Karibu
Msaada wa mashine ya Vector
Mti wa Uamuzi
Msitu wa nasibu

3. Kuunganisha

Kanuni za uunganishaji katika Scikit-learn hutumiwa kupanga kiotomatiki data yenye sifa zinazofanana katika seti. Kuunganisha ni mchakato wa kupanga seti ya vitu ili wale walio katika kundi moja wafanane zaidi na wale walio katika vikundi vingine. Data ya mteja, kwa mfano, inaweza kutengwa kulingana na eneo lao.

Algorithms ya kujumuisha ni pamoja na yafuatayo:

DB-SCAN
K-Njia
Mini-Batch K-Njia
Mkusanyiko wa Spectral

4. Uchaguzi wa Mfano

Algoriti za uteuzi wa vielelezo hutoa mbinu za kulinganisha, kuthibitisha na kuchagua vigezo na miundo bora zaidi ya matumizi katika mipango ya sayansi ya data. Kwa kuzingatia data, uteuzi wa kielelezo ndio shida ya kuchagua kielelezo cha takwimu kutoka kwa kikundi cha modeli za watahiniwa. Katika hali za kimsingi zaidi, mkusanyiko wa data uliokuwepo huzingatiwa. Hata hivyo, kazi hiyo inaweza pia kujumuisha muundo wa majaribio ili data iliyopatikana inafaa kwa tatizo la uteuzi wa mfano.

Moduli za uteuzi wa mifano ambazo zinaweza kuboresha usahihi kwa kurekebisha vigezo ni pamoja na:

Uthibitisho mtambuka
Utafutaji wa Gridi
Metrics

5. Kupunguza Dimensionality

Uhamishaji wa data kutoka nafasi ya juu hadi nafasi ya chini-dimensional ili uwakilishi wa hali ya chini uhifadhi vipengele muhimu vya data asilia, karibu na mwelekeo wake wa asili, unajulikana kama kupunguza dimensionality. Idadi ya vigeu vya nasibu vya uchanganuzi hupunguzwa ukubwa unapopunguzwa. Data ya nje, kwa mfano, haiwezi kuzingatiwa kuboresha ufanisi wa taswira.

Algorithm ya Kupunguza Dimensionality inajumuisha yafuatayo:

Uchaguzi wa kipengele
Uchanganuzi wa Sehemu kuu (PCA)

Inasakinisha Scikit-learn

NumPy, SciPy, Matplotlib, IPython, Sympy, na Pandas zinahitajika kusakinishwa kabla ya kutumia Scikit-learn. Wacha tuzisakinishe kwa kutumia bomba kutoka kwa koni (inafanya kazi kwa Windows tu).

Kufunga

Hebu tusakinishe Scikit-jifunze sasa kwa kuwa tumesakinisha maktaba zinazohitajika.

Inasakinisha Sklearn

Vipengele

Scikit-learn, ambayo wakati mwingine hujulikana kama sklearn, ni zana ya zana ya Python ya kutekeleza miundo ya kujifunza kwa mashine na uundaji wa takwimu. Tunaweza kuitumia kuunda miundo mingi ya kujifunza kwa mashine kwa urejeshaji, uainishaji na mkusanyiko, pamoja na zana za takwimu za kutathmini miundo hii. Pia inajumuisha upunguzaji wa vipimo, uteuzi wa vipengele, uchimbaji wa vipengele, mbinu za kuunganisha, na hifadhidata zilizojumuishwa. Tutachunguza kila moja ya sifa hizi moja baada ya nyingine.

1. Kuagiza Hifadhidata

Scikit-learn inajumuisha idadi ya seti za data zilizoundwa awali, kama vile seti ya data ya iris, seti ya data ya bei ya nyumbani, seti ya data ya titanic na kadhalika. Faida kuu za hifadhidata hizi ni kwamba ni rahisi kufahamu na zinaweza kutumika kuunda miundo ya ML mara moja. Seti hizi za data zinafaa kwa wanaoanza. Vile vile, unaweza kutumia sklearn kuleta hifadhidata za ziada. Vile vile, unaweza kuitumia kuleta hifadhidata za ziada.

Dataset

2. Kugawanya Seti ya Data kwa Mafunzo na Majaribio

Sklearn ilijumuisha uwezo wa kugawanya mkusanyiko wa data katika sehemu za mafunzo na majaribio. Kugawanya mkusanyiko wa data kunahitajika kwa tathmini isiyopendelea ya utendakazi wa ubashiri. Tunaweza kubainisha ni kiasi gani cha data yetu inapaswa kujumuishwa katika hifadhidata za treni na majaribio. Tuligawanya mkusanyiko wa data kwa kutumia mgawanyiko wa majaribio ya treni hivi kwamba seti ya treni inajumuisha 80% ya data na seti ya majaribio ina 20%. Seti ya data inaweza kugawanywa kama ifuatavyo:

Kugawanyika

3. Urejeshaji wa Mstari

Regression ya Linear ni mbinu ya kujifunza kwa mashine inayosimamiwa. Inafanya kazi ya kurudisha nyuma. Kulingana na vigeu vinavyojitegemea, urejeshaji huonyesha thamani ya utabiri wa lengo. Mara nyingi hutumika kuamua uhusiano kati ya vigeuzo na utabiri. Aina tofauti za urejeshaji hutofautiana kulingana na aina ya muunganisho wanayotathmini kati ya vigeu tegemezi na vinavyojitegemea, pamoja na idadi ya vigeu huru vinavyotumika. Tunaweza kuunda mfano wa Urekebishaji wa Linear kwa kutumia sklearn kama ifuatavyo:

linear regression

4. Urekebishaji wa vifaa

Mbinu ya kawaida ya uainishaji ni urekebishaji wa vifaa. Iko katika familia sawa na urejeshaji wa polinomia na mstari na ni ya familia ya waainishaji wa mstari. Matokeo ya urekebishaji wa vifaa ni rahisi kuelewa na ni haraka kuhesabu. Kwa njia sawa na urejeleaji wa mstari, urejeleaji wa vifaa ni mbinu ya urejeleaji inayosimamiwa. Tofauti ya pato ni ya kitengo, kwa hivyo hiyo ndiyo tofauti pekee. Inaweza kuamua ikiwa mgonjwa ana ugonjwa wa moyo au la.

Masuala mbalimbali ya uainishaji, kama vile ugunduzi wa barua taka, yanaweza kutatuliwa kwa urekebishaji wa vifaa. Utabiri wa ugonjwa wa kisukari, unaobainisha ikiwa mtumiaji atanunua bidhaa mahususi au atabadilisha hadi mpinzani, kubainisha iwapo mtumiaji atabofya kiungo mahususi cha uuzaji, na hali nyingi zaidi ni mifano michache tu.

Udhibiti wa vifaa

5. Mti wa Uamuzi

Mbinu yenye nguvu zaidi na inayotumiwa sana ya uainishaji na utabiri ni mti wa maamuzi. Mti wa maamuzi ni muundo wa mti unaofanana na chati mtiririko, huku kila nodi ya ndani ikiwakilisha jaribio kwenye sifa, kila tawi likiwakilisha hitimisho la jaribio, na kila nodi ya jani (nodi ya mwisho) ikishikilia lebo ya darasa.

Wakati vigeu tegemezi havina uhusiano wa kimstari na vigeu vinavyojitegemea, yaani wakati urejeshaji wa mstari hautoi matokeo sahihi, miti ya maamuzi ni ya manufaa. Kitu cha DecisionTreeRegression() kinaweza kutumika kwa njia sawa na kutumia mti wa uamuzi kwa rejista.

Mti wa Uamuzi

6. Msitu wa nasibu

Msitu wa nasibu ni a mashine kujifunza mbinu ya kutatua maswala ya urejeleaji na uainishaji. Hutumia ujifunzaji wa pamoja, ambayo ni mbinu inayochanganya viainishaji vingi ili kutatua matatizo magumu. Njia ya msitu wa nasibu huundwa na idadi kubwa ya miti ya maamuzi. Inaweza kutumika kuainisha maombi ya mkopo, kugundua tabia ya ulaghai na kutazamia milipuko ya magonjwa.

Msitu wa nasibu

7. Matrix ya Kuchanganyikiwa

Matrix ya mkanganyiko ni jedwali linalotumiwa kuelezea utendaji wa kielelezo cha uainishaji. Maneno manne yafuatayo yanatumika kuchunguza matrix ya mkanganyiko:

Kweli Chanya: Inaashiria kuwa mtindo ulitoa matokeo mazuri na ilikuwa sahihi.
Kweli Hasi: Inaashiria kuwa mfano ulitoa matokeo mabaya na ilikuwa sahihi.
Uongo Chanya: Inaashiria kuwa mtindo ulitarajia matokeo mazuri lakini kwa kweli yalikuwa mabaya.
Uongo Hasi: Inaashiria kwamba mtindo ulitarajia matokeo mabaya, wakati matokeo yalikuwa chanya kweli.

Picha ya Matrix ya Kuchanganyikiwa

Utekelezaji wa matrix ya mkanganyiko:

Vipimo vya Kuchanganyikiwa

faida

Ni rahisi kutumia.
Kifurushi cha kujifunza Scikit kinaweza kubadilika na ni muhimu sana, kikitumikia malengo ya ulimwengu halisi kama vile utabiri wa tabia ya watumiaji, ukuzaji wa picha za neuro, na kadhalika.
Watumiaji wanaotaka kuunganisha algoriti na mifumo yao watapata hati za kina za API kwenye tovuti ya Scikit-learn.
Waandishi wengi, washiriki, na usaidizi mkubwa wa jumuiya ya mtandaoni duniani kote na usasishe Scikit-lear.

Africa

Sio chaguo bora kwa utafiti wa kina.

Hitimisho

Scikit-learn ni kifurushi muhimu kwa kila mwanasayansi wa data kuwa na ufahamu wa kutosha na uzoefu fulani. Mwongozo huu unapaswa kukusaidia kwa udanganyifu wa data kwa kutumia sklearn. Kuna uwezo mwingi zaidi wa Scikit-learn ambao utagundua unapoendelea kupitia tukio lako la sayansi ya data. Shiriki mawazo yako katika maoni.

Mwongozo wa Wanaoanza kwa Scikit-learn

Nini Scikit-jifunze?