Tabl Cynnwys[Cuddio][Dangos]
Os ydych chi'n rhaglennydd Python neu os ydych chi'n chwilio am becyn cymorth pwerus i'w ddefnyddio i gyflwyno dysgu peirianyddol i system gynhyrchu, mae Scikit-learn yn llyfrgell y mae angen i chi edrych arni.
Mae Scikit-lean wedi'i ddogfennu'n dda ac yn syml i'w defnyddio, p'un a ydych chi'n newydd i ddysgu peirianyddol, eisiau sefydlu a rhedeg yn gyflym, neu eisiau defnyddio'r offeryn ymchwil ML mwyaf diweddar.
Mae'n caniatáu ichi adeiladu model data rhagfynegol mewn ychydig linellau o god yn unig ac yna'n defnyddio'r model hwnnw i weddu i'ch data fel llyfrgell lefel uchel. Mae'n hyblyg ac yn gweithio'n dda gydag eraill Llyfrgelloedd Python fel Matplotlib ar gyfer siartio, NumPy ar gyfer fectoreiddio arae, a phandas ar gyfer delweddu data.
Yn y canllaw hwn, byddwch yn darganfod popeth am yr hyn ydyw, sut y gallwch ei ddefnyddio, ynghyd â'i fanteision a'i anfanteision.
Beth yw Scikit-ddysgu?
Mae Scikit-learn (a elwir hefyd yn sklearn) yn cynnig set amrywiol o fodelau ystadegol a dysgu peirianyddol. Yn wahanol i'r rhan fwyaf o fodiwlau, datblygir sklearn yn Python yn hytrach na C. Er iddo gael ei ddatblygu yn Python, priodolir effeithlonrwydd sklearn i'w ddefnydd o NumPy ar gyfer gweithrediadau algebra llinol ac arae uchel eu perfformiad.
Crëwyd Scikit-Learn fel rhan o brosiect Summer of Code Google ac ers hynny mae wedi gwneud bywydau miliynau o wyddonwyr data Python-ganolog ar draws y byd yn symlach. Mae’r adran hon o’r gyfres yn canolbwyntio ar gyflwyno’r llyfrgell a chanolbwyntio ar un elfen – trawsnewid set ddata, sy’n gam allweddol a hanfodol i’w gymryd cyn datblygu model rhagfynegi.
Mae'r llyfrgell yn seiliedig ar SciPy (Scientific Python), y mae'n rhaid ei osod cyn y gallwch ddefnyddio scikit-learn. Mae'r pentwr hwn yn cynnwys yr eitemau canlynol:
- NumPy: Pecyn arae n-dimensiwn safonol Python
- SciPy: Mae'n becyn sylfaenol ar gyfer cyfrifiadura gwyddonol
- Pandas: Strwythurau data a dadansoddi
- Matplotlib: Mae'n llyfrgell plotio 2D/3D bwerus
- Sympy: Mathemateg symbolaidd
- IPython: Consol rhyngweithiol gwell
Cymwysiadau llyfrgell Scikit-lear
Pecyn Python ffynhonnell agored yw Scikit-lean gyda nodweddion dadansoddi data a mwyngloddio soffistigedig. Mae'n dod gyda llu o algorithmau adeiledig i'ch helpu chi i gael y gorau o'ch prosiectau gwyddor data. Defnyddir y llyfrgell Scikit-lean yn y ffyrdd canlynol.
1. Atchweliad
Mae dadansoddiad atchweliad yn dechneg ystadegol ar gyfer dadansoddi a deall y cysylltiad rhwng dau newidyn neu fwy. Mae'r dull a ddefnyddir i wneud dadansoddiad atchweliad yn helpu i benderfynu pa elfennau sy'n berthnasol, pa rai y gellir eu hanwybyddu, a sut maent yn rhyngweithio. Gellir defnyddio technegau atchweliad, er enghraifft, i ddeall ymddygiad prisiau stoc yn well.
Mae algorithmau atchweliad yn cynnwys:
- Llinol Atchweliad
- Atchweliad Crib
- Atchweliad Lasso
- Atchweliad Coeden Benderfynu
- Coedwig ar Hap
- Peiriannau Vector Cefnogi (SVM)
2. Dosbarthiad
Mae'r dull Dosbarthu yn ddull Dysgu dan Oruchwyliaeth sy'n defnyddio data hyfforddi i nodi'r categori o arsylwadau newydd. Mae algorithm mewn Dosbarthiad yn dysgu o un a roddir set ddata neu arsylwadau ac yna'n dosbarthu arsylwadau ychwanegol yn un o lawer o ddosbarthiadau neu grwpiau. Er enghraifft, gellir eu defnyddio i ddosbarthu cyfathrebiadau e-bost fel sbam neu beidio.
Mae algorithmau dosbarthu yn cynnwys y canlynol:
- Atchweliad Logistaidd
- K-Cymdogion Agosaf
- Cymorth peiriant fector
- Coeden Benderfyniad
- Coedwig ar Hap
3. Clystyru
Defnyddir yr algorithmau clystyru yn Scikit-learn i drefnu data â phriodweddau tebyg yn setiau yn awtomatig. Clystyru yw'r broses o grwpio set o eitemau fel bod y rhai yn yr un grŵp yn debycach i'r rhai mewn grwpiau eraill. Gallai data cwsmeriaid, er enghraifft, gael eu gwahanu ar sail eu lleoliad.
Mae algorithmau clystyru yn cynnwys y canlynol:
- DB-SCAN
- K-Medr
- Modd Mini-Swp K
- Clystyru Sbectrol
4. Dewis Model
Mae algorithmau dewis modelau yn darparu dulliau ar gyfer cymharu, dilysu a dewis y paramedrau a'r modelau gorau posibl i'w defnyddio mewn mentrau gwyddor data. O ystyried data, dewis model yw'r broblem o ddewis model ystadegol o grŵp o fodelau ymgeiswyr. Yn yr amgylchiadau mwyaf sylfaenol, mae casgliad o ddata sydd eisoes yn bodoli yn cael ei ystyried. Fodd bynnag, gall y dasg hefyd gynnwys dylunio arbrofion fel bod y data a gasglwyd yn addas iawn ar gyfer y broblem dewis model.
Mae modiwlau dewis modelau a all wella cywirdeb trwy addasu paramedrau yn cynnwys:
- Traws-ddilysu
- Chwiliad Grid
- Metrics
5. Gostyngiad Dimensiwn
Gelwir trosglwyddo data o ofod dimensiwn uchel i ofod dimensiwn isel fel bod y cynrychiolaeth dimensiwn isel yn cadw rhai agweddau arwyddocaol ar y data gwreiddiol, yn ddelfrydol yn agos at ei ddimensiwn cynhenid, yn lleihau dimensioldeb. Mae nifer yr hapnewidynnau i'w dadansoddi yn cael eu lleihau pan fydd y dimensiwnoldeb yn cael ei leihau. Efallai na fydd data allanol, er enghraifft, yn cael ei ystyried i wella effeithlonrwydd delweddu.
Mae algorithm Lleihau Dimensiwn yn cynnwys y canlynol:
- Dewis nodwedd
- Dadansoddiad Prif Gydran (PCA)
Gosod Scikit-learn
Mae'n ofynnol gosod NumPy, SciPy, Matplotlib, IPython, Sympy, a Pandas cyn defnyddio Scikit-learn. Gadewch i ni eu gosod gan ddefnyddio pip o'r consol (yn gweithio ar gyfer Windows yn unig).
Gadewch i ni osod Scikit-dysgu nawr ein bod wedi gosod y llyfrgelloedd gofynnol.
Nodweddion
Mae Scikit-learn, a elwir weithiau yn sklearn, yn becyn cymorth Python ar gyfer gweithredu modelau dysgu peirianyddol a modelu ystadegol. Efallai y byddwn yn ei ddefnyddio i greu modelau dysgu peiriant lluosog ar gyfer atchweliad, dosbarthu, a chlystyru, yn ogystal ag offer ystadegol ar gyfer asesu'r modelau hyn. Mae hefyd yn cynnwys lleihau dimensioldeb, dewis nodweddion, echdynnu nodweddion, dulliau ensemble, a setiau data adeiledig. Byddwn yn ymchwilio i bob un o'r rhinweddau hyn un ar y tro.
1. Mewnforio Setiau Data
Mae Scikit-lean yn cynnwys nifer o setiau data a adeiladwyd ymlaen llaw, megis y set ddata iris, set ddata prisiau cartref, set ddata titanic, ac ati. Manteision allweddol y setiau data hyn yw eu bod yn hawdd eu deall a gellir eu defnyddio i ddatblygu modelau ML ar unwaith. Mae'r setiau data hyn yn briodol ar gyfer dechreuwyr. Yn yr un modd, gallwch ddefnyddio sklearn i fewnforio setiau data ychwanegol. Yn yr un modd, gallwch ei ddefnyddio i fewnforio setiau data ychwanegol.
2. Hollti Set Ddata ar gyfer Hyfforddi a Phrofi
Roedd Sklearn yn cynnwys y gallu i rannu'r set ddata yn segmentau hyfforddi a phrofi. Mae angen rhannu'r set ddata ar gyfer asesiad diduedd o berfformiad rhagfynegi. Mae’n bosibl y byddwn yn nodi faint o’n data y dylid ei gynnwys yn y setiau data trenau a phrofion. Fe wnaethom rannu'r set ddata gan ddefnyddio rhaniad prawf trên fel bod y set drenau yn cynnwys 80% o'r data a bod gan y set brawf 20%. Gellir rhannu’r set ddata fel a ganlyn:
3. Atchweliad Llinol
Mae Atchweliad Llinol yn dechneg dysgu peirianyddol dan oruchwyliaeth. Mae'n cyflawni swydd atchweliad. Yn seiliedig ar newidynnau annibynnol, mae atchweliad yn modelu gwerth rhagfynegi nod. Fe'i defnyddir yn bennaf i bennu'r cysylltiad rhwng newidynnau a rhagfynegi. Mae modelau atchweliad gwahanol yn amrywio o ran y math o gysylltiad y maent yn ei werthuso rhwng newidynnau dibynnol ac annibynnol, yn ogystal â nifer y newidynnau annibynnol a ddefnyddir. Yn syml, gallwn greu’r model Atchweliad Llinol gan ddefnyddio sklearn fel a ganlyn:
4. Atchweliad Logisteg
Dull categoreiddio cyffredin yw atchweliad logistaidd. Mae yn yr un teulu ag atchweliad polynomaidd a llinol ac mae'n perthyn i deulu'r dosbarthwyr llinol. Mae canfyddiadau atchweliad logistaidd yn syml i'w deall ac yn gyflym i'w cyfrifo. Yn yr un modd ag atchweliad llinol, mae atchweliad logistaidd yn dechneg atchweliad dan oruchwyliaeth. Mae'r newidyn allbwn yn gategoraidd, felly dyna'r unig wahaniaeth. Gall benderfynu a oes gan glaf glefyd cardiaidd ai peidio.
Gellir datrys materion dosbarthu amrywiol, megis canfod sbam, gan ddefnyddio atchweliad logistaidd. Rhagfynegi diabetes, penderfynu a fydd defnyddiwr yn prynu cynnyrch penodol neu'n newid i gystadleuydd, penderfynu a fydd defnyddiwr yn clicio ar ddolen farchnata benodol, ac mae llawer mwy o senarios yn rhai enghreifftiau yn unig.
5. Coeden Benderfynu
Y dechneg ddosbarthu a rhagfynegi fwyaf pwerus a ddefnyddir fwyaf yw'r goeden benderfynu. Mae coeden benderfynu yn strwythur coeden sy'n edrych fel siart llif, gyda phob nod mewnol yn cynrychioli prawf ar briodoledd, pob cangen yn cynrychioli casgliad y prawf, a phob nod dail (nod terfynell) yn dal label dosbarth.
Pan nad oes gan y newidynnau dibynnol berthynas llinol â'r newidynnau annibynnol, hy pan nad yw atchweliad llinol yn cynhyrchu canfyddiadau cywir, mae coed penderfynu yn fuddiol. Gellir defnyddio gwrthrych y Coeden Benderfynu Atchweliad () mewn ffordd debyg i ddefnyddio coeden benderfynu ar gyfer atchweliad.
6. Coedwig ar Hap
Coedwig ar hap yw a dysgu peiriant dull o ddatrys materion atchweliad a dosbarthu. Mae'n defnyddio dysgu ensemble, sy'n dechneg sy'n cyfuno dosbarthwyr lluosog i ddatrys problemau cymhleth. Mae dull coedwig ar hap yn cynnwys nifer fawr o goed penderfynu. Gellir ei ddefnyddio i gategoreiddio ceisiadau am fenthyciadau, canfod ymddygiad twyllodrus, a rhagweld achosion o glefydau.
7. Matrics Dryswch
Mae matrics dryswch yn dabl a ddefnyddir i ddisgrifio perfformiad model dosbarthu. Defnyddir y pedwar gair canlynol i archwilio'r matrics dryswch:
- Gwir Bositif: Mae'n dynodi bod y model yn rhagamcanu canlyniad ffafriol a'i fod yn gywir.
- Cywir Negyddol: Mae'n dynodi bod y model yn rhagamcanu canlyniad gwael a'i fod yn gywir.
- Anghywir Cadarnhaol: Mae'n dynodi bod y model yn disgwyl canlyniad ffafriol ond roedd yn un negyddol mewn gwirionedd.
- Anwir Negyddol: Mae'n dynodi bod y model yn disgwyl canlyniad negyddol, tra bod y canlyniad yn wirioneddol gadarnhaol.
Gweithredu matrics dryswch:
Pros
- Mae'n syml i'w defnyddio.
- Mae'r pecyn Scikit-lean yn hynod addasadwy a defnyddiol, gan wasanaethu nodau'r byd go iawn fel rhagfynegi ymddygiad defnyddwyr, datblygu niwroddelwedd, ac ati.
- Bydd defnyddwyr sy'n dymuno cysylltu'r algorithmau â'u platfformau yn dod o hyd i ddogfennaeth API manwl ar wefan Scikit-learn.
- Mae nifer o awduron, cydweithwyr, a chymuned ar-lein fawr ledled y byd yn cefnogi ac yn diweddaru Scikit-learn.
anfanteision
- Nid dyma'r opsiwn delfrydol ar gyfer astudiaeth fanwl.
Casgliad
Mae Scikit-lean yn becyn hanfodol i bob gwyddonydd data gael gafael cryf arno a rhywfaint o brofiad ag ef. Dylai'r canllaw hwn eich helpu i drin data gan ddefnyddio sklearn. Mae yna lawer mwy o alluoedd Scikit-learn y byddwch chi'n eu darganfod wrth i chi symud ymlaen trwy'ch antur gwyddor data. Rhannwch eich meddyliau yn y sylwadau.
Gadael ymateb