Fizahan-takelaka[Afeno][Aseho]
Raha mpandrindra Python ianao na raha mitady fitaovana mahery vaika hampiasaina hampidirana fianarana milina amin'ny rafitra famokarana, ny Scikit-learn dia tranomboky mila jerenao.
Ny Scikit-learn dia voarakitra an-tsoratra tsara ary mora ampiasaina, na vaovao amin'ny fianarana milina ianao, na te hifoha sy mihazakazaka haingana, na te hampiasa ny fitaovana fikarohana ML farany indrindra.
Mamela anao hanangana maodely angona vinavina ao anatin'ny andalana vitsivitsy fotsiny ny kaody ary avy eo dia mampiasa io maodely io hifanaraka amin'ny angonao ho tranomboky avo lenta. Mifanaraka tsara izy io ary miasa tsara amin'ny hafa Tranomboky Python toy ny Matplotlib ho an'ny tabilao, NumPy ho an'ny vectorization array, ary pandas ho an'ny fijerena angon-drakitra.
Ao amin'ity torolalana ity dia ho hitanao ny momba azy rehetra, ny fomba azonao ampiasana azy, miaraka amin'ny tombony sy ny fatiantoka.
Inona ny Scikit-mianatra?
Ny Scikit-learn (fantatra ihany koa amin'ny hoe sklearn) dia manolotra karazana maodely statistika sy fianarana milina. Tsy toy ny ankamaroan'ny môdôly, ny sklearn dia novolavolaina tamin'ny Python fa tsy C. Na dia novolavolaina tamin'ny Python aza, ny fahombiazan'ny sklearn dia nomena ny fampiasana ny NumPy ho an'ny algebra tsipika sy fampandehanana array.
Scikit-Learn dia noforonina ho ampahany amin'ny tetikasa Summer of Code an'ny Google ary avy eo dia nanamora kokoa ny fiainan'ireo mpahay siansa momba ny angona Python an-tapitrisany manerana izao tontolo izao. Ity fizarana amin'ny andian-dahatsoratra ity dia mifantoka amin'ny fanolorana ny tranomboky ary mifantoka amin'ny singa iray - ny fiovan'ny angon-drakitra, izay dingana manan-danja sy manan-danja tokony hatao alohan'ny hamolavola modely vinavina.
Ny tranomboky dia mifototra amin'ny SciPy (Scientific Python), izay tsy maintsy apetraka vao afaka mampiasa scikit-learn. Ity stack ity dia misy ireto singa manaraka ireto:
- NumPy: fonosana array n-dimensional standard Python
- SciPy: fonosana fototra ho an'ny informatika siantifika
- Pandas: Rafitra data sy fanadihadiana
- Matplotlib: Fitehirizam-boky 2D/3D mahery vaika izy io
- Sympy: Matematika an'ohatra
- IPython: Console interactive nohatsaraina
Fampiharana ny tranomboky fianarana Scikit
Scikit-learn dia fonosana Python open source miaraka amin'ny famakafakana angon-drakitra sy endri-pitrandrahana. Izy io dia miaraka amin'ny algorithm naorina ao anatiny mba hanampiana anao hahazo tombony betsaka amin'ny tetikasa siantifika data. Ny tranomboky Scikit-Learn dia ampiasaina amin'ireto fomba manaraka ireto.
1. Fiverenana
Ny famakafakana ny regression dia teknika statistika amin'ny famakafakana sy fahatakarana ny fifandraisana misy eo amin'ny fari-piainana roa na maromaro. Ny fomba ampiasaina amin'ny fanaovana famakafakana mihemotra dia manampy amin'ny famaritana ireo singa mifandraika amin'izany, izay mety ho tsinontsinoavina ary ny fomba ifandraisany. Ny teknikan'ny regression, ohatra, dia azo ampiasaina mba hahatakarana bebe kokoa ny fihetsiky ny vidin'ny tahiry.
Ny algorithm regression dia ahitana:
- Linear regression
- Ridge Regression
- Fiverenan'i Lasso
- Fiverenan'ny hazo fanapahan-kevitra
- Ala kisendrasendra
- Support Vector Machines (SVM)
2. Fanasokajiana
Ny fomba fanasokajiana dia fomba fianarana manara-maso izay mampiasa angona fanofanana hamantarana ny sokajin'ny fandinihana vaovao. Ny algorithm amin'ny Classification dia mianatra avy amin'ny nomena databatra na fanamarihana ary avy eo manasokajy ny fandinihana fanampiny ho iray amin'ireo kilasy na vondrona maro. Izy ireo, ohatra, dia azo ampiasaina hanasokajiana ny fifandraisana mailaka ho spam na tsia.
Ny algorithm fanasokajiana dia ahitana ireto manaraka ireto:
- Loza lojika
- K-Mpiara-monina akaiky indrindra
- Fanohanana Vector Machine
- Hazo fanapaha-kevitra
- Ala kisendrasendra
3. Mivondrona
Ny algorithm clustering ao amin'ny Scikit-learn dia ampiasaina handaminana ho azy ny angon-drakitra miaraka amin'ny fananana mitovy amin'ny andiany. Ny fivondronana dia ny dingan'ny fanakambanana singa iray mba hitovy kokoa amin'ireo ao amin'ny vondrona hafa ireo ao amin'ny vondrona iray. Ny angon'ny mpanjifa, ohatra, dia azo sarahina arakaraka ny toerana misy azy.
Ny algorithm clustering dia ahitana ireto manaraka ireto:
- DB-SCAN
- K-Means
- Mini-Batch K-Means
- Spectral Clustering
4. Fifantenana modely
Ny algorithm amin'ny fisafidianana modely dia manome fomba fampitahana, fanamarinana ary fifantenana ireo mari-pamantarana sy modely tsara indrindra ampiasaina amin'ny hetsika siantifika data. Raha jerena ny angon-drakitra, ny fisafidianana modely dia ny olana amin'ny fisafidianana modely statistika avy amin'ny vondron'ny mpifaninana. Amin'ny toe-javatra fototra indrindra, ny fanangonana angon-drakitra efa nisy teo aloha dia raisina. Na izany aza, ny asa dia mety ahitana ihany koa ny famolavolana ny andrana mba ny angon-drakitra azo dia mety tsara amin'ny olana fifantenana modely.
Ny maodely mifantina modely izay afaka manatsara ny fahitsiana amin'ny alàlan'ny fanitsiana masontsivana dia ahitana:
- Cross-validation
- Fikarohana Grid
- mari-pandrefesana
5. Fihenam-bidy
Ny famindrana angon-drakitra avy amin'ny habaka midadasika mankany amin'ny habaka ambany mba hitazonana ireo lafiny manan-danja sasany amin'ny angon-drakitra tany am-boalohany, izay akaiky indrindra amin'ny refy misy azy, dia fantatra amin'ny hoe fampihenana ny refy. Mihena ny isan'ny kisendrasendra hanaovana fanadihadiana rehefa mihena ny habeny. Ny angon-drakitra ivelany, ohatra, dia mety tsy hoheverina hanatsara ny fahombiazan'ny sary.
Algorithm Reduction Dimensionality dia ahitana ireto manaraka ireto:
- Safidy fisafidianana
- Fanadihadiana singa fototra (PCA)
Fametrahana Scikit-learn
NumPy, SciPy, Matplotlib, IPython, Sympy, ary Pandas dia tsy maintsy apetraka alohan'ny fampiasana Scikit-learn. Andao hametraka azy ireo amin'ny alàlan'ny pip avy amin'ny console (ho an'ny Windows ihany no miasa).
Andao hametraka Scikit-learn izao fa efa nametraka ny tranomboky ilaina.
Toetoetra
Scikit-learn, antsoina indraindray hoe sklearn, dia fitaovana Python amin'ny fampiharana ny maodely fianarana milina sy ny maodely statistika. Azontsika ampiasaina izy io mba hamoronana maodely fianarana milina maro ho an'ny fihemorana, fanasokajiana ary fanangonana, ary koa fitaovana statistika hanombanana ireo modely ireo. Tafiditra ao anatin'izany koa ny fampihenana ny dimensionality, ny fisafidianana ny endri-javatra, ny fitrandrahana endri-javatra, ny fomba fiasa amin'ny ensemble, ary ny angon-drakitra namboarina. Hanadihady tsirairay ireo toetra ireo isika tsirairay avy.
1. Manafatra Datasets
Ny Scikit-Learn dia ahitana angona maromaro efa vita, toy ny angon-drakitra iris, ny angon-drakitra momba ny vidin'ny trano, ny angon-drakitra titanika, sy ny sisa. Ny tombony lehibe amin'ireo angon-drakitra ireo dia ny mora azo ary azo ampiasaina hamolavolana modely ML avy hatrany. Ireo angon-drakitra ireo dia mety ho an'ny vaovao. Toy izany koa, azonao atao ny mampiasa sklearn hanafatra angona fanampiny. Toy izany koa, azonao ampiasaina hanafatra angona fanampiny.
2. Fizarana angon-drakitra ho an'ny fanofanana sy fitsapana
Sklearn dia nahitana ny fahafahana mizara ny angona ho fizarana fiofanana sy fitsapana. Ilaina ny fisarahana ny angon-drakitra mba hanaovana fanombanana tsy miangatra momba ny fahombiazan'ny faminaniana. Azontsika atao ny mamaritra hoe ohatrinona ny angonay no tokony hampidirina ao amin'ny angon-drakitra fiaran-dalamby sy fitsapana. Nozarainay ny angon-drakitra tamin'ny alàlan'ny fizarazarana fitsapana fiarandalamby ka ny fiaran-dalamby dia misy 80% amin'ny angon-drakitra ary ny andrana dia manana 20%. Ny angon-drakitra dia azo zaraina toy izao:
3. Fihemorana Linear
Linear Regression dia teknika fianarana milina mifototra amin'ny fianarana. Manatanteraka asa famerenana. Mifototra amin'ny fari-piainana tsy miankina, ny regression dia mamolavola ny sandan'ny faminaniana tanjona. Ampiasaina matetika izy io mba hamaritana ny fifandraisan'ny variables sy ny faminaniana. Ny modelim-pamerenana samihafa dia tsy mitovy amin'ny karazana fifandraisana tombaniny eo amin'ny fari-piainana miankina sy tsy miankina, ary koa ny isan'ny fari-piainana tsy miankina ampiasaina. Afaka mamorona fotsiny ny modely Linear Regression mampiasa sklearn toy izao manaraka izao:
4. Fiverenan'ny logistika
Ny fomba fanasokajiana mahazatra dia ny regression logistic. Ao amin'ny fianakaviana mitovy amin'ny polynomial sy linear regression ary an'ny fianakaviana classifier linear. Ny valin'ny regression logistic dia mora takarina ary haingana ny kajy. Toy izany koa amin'ny fihemorana amin'ny tsipika, ny regression logistic dia teknika fanaraha-maso. Ny varimbazaha mivoaka dia categorical, ka izay ihany no mahasamihafa azy. Afaka mamaritra raha marary fo ny marary iray na tsia.
Ny olan'ny fanasokajiana isan-karazany, toy ny fitadiavana spam, dia mety ho voavaha amin'ny alàlan'ny famerenan'ny logistika. Ny vinavinan'ny diabeta, ny famaritana raha hividy vokatra manokana ny mpanjifa iray na hifindra amin'ny mpifaninana iray, hamaritana raha hanindry rohy ara-barotra manokana ny mpampiasa iray, ary ohatra vitsivitsy ihany ny toe-javatra maro hafa.
5. Hazo fanapahan-kevitra
Ny teknika fanasokajiana sy faminavina mahery vaika sy be mpampiasa indrindra dia ny hazo fanapahan-kevitra. Ny hazo fanapahan-kevitra dia firafitry ny hazo mitovitovy amin'ny rindran-damina, miaraka amin'ny node anatiny tsirairay maneho fitsapana amin'ny toetra iray, ny sampana tsirairay dia maneho ny fehin-kevitry ny fitsapana, ary ny node ravina tsirairay (node terminal) mitazona marika kilasy.
Rehefa tsy misy ifandraisany amin'ny fari-piainana tsy miankina ny fari-piainana miankina, izany hoe rehefa tsy mamokatra valiny marina ny fihemorana an-tsoratra, dia mahasoa ny hazo fanapahan-kevitra. Ny zavatra DecisionTreeRegression() dia azo ampiasaina amin'ny fomba mitovy amin'ny fampiasana hazo fanapaha-kevitra ho an'ny regression.
6. Ala kisendrasendra
Ny ala kisendrasendra dia a fianarana milina fomba famahana ny olana mihemotra sy fanasokajiana. Mampiasa ny fianarana ensemble izy io, izay teknika manambatra mpanasokajy maromaro hamahana olana sarotra. Ny fomba ala kisendrasendra dia ahitana hazo fanapahan-kevitra marobe. Azo ampiasaina hanasokajiana ny fangatahana fampindramam-bola izy io, hamantarana ny fitondran-tena hosoka, ary hiantohana ny fihanaky ny aretina.
7. Confusion Matrix
Ny matrice fifangaroana dia latabatra ampiasaina hamaritana ny fahombiazan'ny modely fanasokajiana. Ireto teny efatra manaraka ireto dia ampiasaina handinihana ny matrice fifangaroana:
- True Positive: Midika izany fa nanombana vokatra tsara ilay modely ary marina izany.
- Tena ratsy: Midika izany fa nanombana vokatra ratsy ilay modely ary marina izany.
- False Positive: Midika izany fa nanantena vokatra tsara ilay modely fa tena ratsy.
- False Negative: Midika izany fa ny modely dia nanantena vokatra ratsy, fa ny vokatra dia tena tsara.
Fampiharana ny matrix fifangaroana:
matihanina
- Tsotra ny fampiasana azy.
- Ny fonosana Scikit-Learn dia tena azo ampifanarahana sy mahasoa, manolotra tanjona eran-tany toy ny faminaniana momba ny fitondran-tenan'ny mpanjifa, ny fivoaran'ny neuroimage, sy ny sisa.
- Ireo mpampiasa izay te hampifandray ny algorithm amin'ny sehatra misy azy dia hahita antontan-taratasy API amin'ny antsipiriany ao amin'ny tranokala Scikit-Learn.
- Mpanoratra, mpiara-miasa, ary vondrom-piarahamonina an-tserasera lehibe eran-tany no manohana ary mitazona ny Scikit-mianara hatrany.
maharatsy ny mifampiresaka
- Tsy safidy tsara ho an'ny fandalinana lalina izany.
Famaranana
Scikit-learn dia fonosana tena ilaina ho an'ny mpahay siansa momba ny data rehetra mba ho takatra tsara sy hanana traikefa. Ity torolàlana ity dia tokony hanampy anao amin'ny fanodinkodinana angona amin'ny fampiasana sklearn. Betsaka ny fahaiza-manaon'ny Scikit-ianarana izay ho hitanao rehefa mandroso amin'ny dianao momba ny siansa data. Zarao amin'ny fanehoan-kevitra ny hevitrao.
Leave a Reply