స్కికిట్-లెర్న్‌కి ఒక బిగినర్స్ గైడ్

విషయ సూచిక[దాచు][చూపండి]

స్కికిట్-లెర్న్ అంటే ఏమిటి?
స్కికిట్-లెర్న్ లైబ్రరీ యొక్క అప్లికేషన్‌లు+-
స్కికిట్-లెర్న్‌ని ఇన్‌స్టాల్ చేస్తోంది
లక్షణాలు +-
ప్రోస్
కాన్స్
ముగింపు

మీరు పైథాన్ ప్రోగ్రామర్ అయితే లేదా మెషీన్ లెర్నింగ్‌ని ప్రొడక్షన్ సిస్టమ్‌లో ప్రవేశపెట్టడానికి శక్తివంతమైన టూల్‌కిట్ కోసం శోధిస్తున్నట్లయితే, Scikit-learn అనేది మీరు తనిఖీ చేయాల్సిన లైబ్రరీ.

మీరు మెషిన్ లెర్నింగ్‌కి కొత్తవారైనా, త్వరగా లేచి రన్ చేయాలనుకుంటున్నారా లేదా అత్యంత తాజా ML పరిశోధన సాధనాన్ని ఉపయోగించాలనుకున్నా Scikit-learn చక్కగా డాక్యుమెంట్ చేయబడింది మరియు ఉపయోగించడానికి సులభమైనది.

ఇది కోడ్ యొక్క కొన్ని పంక్తులలో ప్రిడిక్టివ్ డేటా మోడల్‌ను రూపొందించడానికి మిమ్మల్ని అనుమతిస్తుంది మరియు ఆ మోడల్‌ను మీ డేటాకు ఉన్నత స్థాయి లైబ్రరీగా సరిపోయేలా ఉపయోగిస్తుంది. ఇది అనువైనది మరియు ఇతరులతో బాగా పనిచేస్తుంది పైథాన్ లైబ్రరీలు చార్టింగ్ కోసం Matplotlib, అర్రే వెక్టరైజేషన్ కోసం NumPy మరియు డేటా విజువలైజేషన్ కోసం పాండాలు వంటివి.

ఈ గైడ్‌లో, మీరు దాని లాభాలు మరియు నష్టాలతో పాటు అది ఏమిటి, మీరు దానిని ఎలా ఉపయోగించగలరు అనే దాని గురించి అన్నింటినీ కనుగొంటారు.

ఏమిటి స్కికిట్-నేర్చుకోండి?

స్కికిట్-లెర్న్ (స్క్లెర్న్ అని కూడా పిలుస్తారు) విభిన్న గణాంక నమూనాలు మరియు మెషిన్ లెర్నింగ్‌ను అందిస్తుంది. చాలా మాడ్యూల్‌ల వలె కాకుండా, స్క్లెర్న్ C కంటే పైథాన్‌లో అభివృద్ధి చేయబడింది. పైథాన్‌లో అభివృద్ధి చేయబడినప్పటికీ, అధిక-పనితీరు గల లీనియర్ ఆల్జీబ్రా మరియు అర్రే ఆపరేషన్‌ల కోసం NumPyని ఉపయోగించడం వల్ల స్క్లెర్న్ యొక్క సామర్థ్యం ఆపాదించబడింది.

Scikit-Learn అనేది Google యొక్క సమ్మర్ ఆఫ్ కోడ్ ప్రాజెక్ట్‌లో భాగంగా సృష్టించబడింది మరియు అప్పటి నుండి ప్రపంచవ్యాప్తంగా మిలియన్ల కొద్దీ పైథాన్-సెంట్రిక్ డేటా శాస్త్రవేత్తల జీవితాలను సులభతరం చేసింది. సిరీస్‌లోని ఈ విభాగం లైబ్రరీని ప్రదర్శించడం మరియు ఒక మూలకంపై దృష్టి సారిస్తుంది - డేటాసెట్ పరివర్తనాలు, ఇది ప్రిడిక్షన్ మోడల్‌ను అభివృద్ధి చేయడానికి ముందు తీసుకోవలసిన కీలకమైన మరియు కీలకమైన దశ.

స్క్లెర్న్

లైబ్రరీ SciPy (సైంటిఫిక్ పైథాన్)పై ఆధారపడి ఉంటుంది, మీరు స్కికిట్-లెర్న్‌ని ఉపయోగించే ముందు దీన్ని తప్పనిసరిగా ఇన్‌స్టాల్ చేయాలి. ఈ స్టాక్ కింది అంశాలను కలిగి ఉంది:

NumPy: పైథాన్ యొక్క ప్రామాణిక n-డైమెన్షనల్ అర్రే ప్యాకేజీ
SciPy: ఇది సైంటిఫిక్ కంప్యూటింగ్ కోసం ఒక ప్రాథమిక ప్యాకేజీ
పాండాలు: డేటా నిర్మాణాలు మరియు విశ్లేషణ
Matplotlib: ఇది శక్తివంతమైన 2D/3D ప్లాటింగ్ లైబ్రరీ
సింపీ: సింబాలిక్ గణితం
IPython: మెరుగైన ఇంటరాక్టివ్ కన్సోల్

స్కికిట్-లెర్న్ లైబ్రరీ యొక్క అప్లికేషన్‌లు

Scikit-learn అనేది అధునాతన డేటా విశ్లేషణ మరియు మైనింగ్ లక్షణాలతో కూడిన ఓపెన్ సోర్స్ పైథాన్ ప్యాకేజీ. ఇది మీ డేటా సైన్స్ ప్రాజెక్ట్‌ల నుండి అత్యధిక ప్రయోజనాలను పొందడంలో మీకు సహాయపడటానికి అనేక అంతర్నిర్మిత అల్గారిథమ్‌లతో వస్తుంది. స్కికిట్-లెర్న్ లైబ్రరీ క్రింది మార్గాలలో ఉపయోగించబడుతుంది.

1. తిరోగమనం

రిగ్రెషన్ విశ్లేషణ అనేది రెండు లేదా అంతకంటే ఎక్కువ వేరియబుల్స్ మధ్య కనెక్షన్‌ని విశ్లేషించడానికి మరియు అర్థం చేసుకోవడానికి ఒక గణాంక సాంకేతికత. రిగ్రెషన్ విశ్లేషణ చేయడానికి ఉపయోగించే పద్దతి ఏ అంశాలు సంబంధితంగా ఉన్నాయో, ఏది విస్మరించబడుతుందో మరియు అవి ఎలా సంకర్షణ చెందుతాయో నిర్ణయించడంలో సహాయపడుతుంది. రిగ్రెషన్ పద్ధతులు, ఉదాహరణకు, స్టాక్ ధరల ప్రవర్తనను బాగా అర్థం చేసుకోవడానికి ఉపయోగించవచ్చు.

రిగ్రెషన్ అల్గోరిథంలలో ఇవి ఉన్నాయి:

లీనియర్ రిగ్రెషన్
రిడ్జ్ రిగ్రెషన్
లాస్సో రిగ్రెషన్
డెసిషన్ ట్రీ రిగ్రెషన్
రాండమ్ ఫారెస్ట్
సపోర్ట్ వెక్టర్ మెషీన్స్ (SVM)

2. వర్గీకరణ

వర్గీకరణ పద్ధతి అనేది తాజా పరిశీలనల వర్గాన్ని గుర్తించడానికి శిక్షణ డేటాను ఉపయోగించే పర్యవేక్షించబడే అభ్యాస విధానం. వర్గీకరణలోని ఒక అల్గారిథమ్ ఇచ్చిన దాని నుండి నేర్చుకుంటుంది డేటాసెట్ లేదా పరిశీలనలు మరియు అదనపు పరిశీలనలను అనేక తరగతులు లేదా సమూహాలలో ఒకటిగా వర్గీకరిస్తుంది. ఉదాహరణకు, ఇమెయిల్ కమ్యూనికేషన్‌లను స్పామ్‌గా లేదా వర్గీకరించడానికి వాటిని ఉపయోగించవచ్చు.

వర్గీకరణ అల్గోరిథంలు క్రింది వాటిని కలిగి ఉంటాయి:

లాజిస్టిక్ రిగ్రెషన్
K-సమీప పొరుగువారు
సపోర్ట్ వెక్టర్ మెషిన్
నిర్ణయం చెట్టు
రాండమ్ ఫారెస్ట్

3. క్లస్టరింగ్

స్కికిట్-లెర్న్‌లోని క్లస్టరింగ్ అల్గారిథమ్‌లు సారూప్య లక్షణాలతో డేటాను సెట్‌లుగా స్వయంచాలకంగా అమర్చడానికి ఉపయోగించబడతాయి. క్లస్టరింగ్ అనేది ఐటెమ్‌ల సముదాయాన్ని సమూహపరిచే ప్రక్రియ, తద్వారా అదే సమూహంలో ఉన్నవారు ఇతర సమూహాలతో సమానంగా ఉంటారు. కస్టమర్ డేటా, ఉదాహరణకు, వారి స్థానం ఆధారంగా వేరు చేయబడవచ్చు.

క్లస్టరింగ్ అల్గోరిథంలు క్రింది వాటిని కలిగి ఉంటాయి:

DB-SCAN
K-అంటే
మినీ-బ్యాచ్ K-అంటే
స్పెక్ట్రల్ క్లస్టరింగ్

4. మోడల్ ఎంపిక

మోడల్ ఎంపిక అల్గారిథమ్‌లు డేటా సైన్స్ చొరవలలో ఉపయోగించడానికి అనుకూలమైన పారామితులు మరియు నమూనాలను పోల్చడం, ధృవీకరించడం మరియు ఎంచుకోవడానికి పద్ధతులను అందిస్తాయి. ఇచ్చిన డేటా, మోడల్ ఎంపిక అనేది అభ్యర్థి నమూనాల సమూహం నుండి గణాంక నమూనాను ఎంచుకోవడంలో సమస్య. అత్యంత ప్రాథమిక పరిస్థితులలో, ముందుగా ఉన్న డేటా సేకరణ పరిగణనలోకి తీసుకోబడుతుంది. అయినప్పటికీ, టాస్క్‌లో ప్రయోగాల రూపకల్పన కూడా ఉండవచ్చు, తద్వారా పొందిన డేటా మోడల్ ఎంపిక సమస్యకు బాగా సరిపోతుంది.

పారామితులను సర్దుబాటు చేయడం ద్వారా ఖచ్చితత్వాన్ని మెరుగుపరచగల మోడల్ ఎంపిక మాడ్యూల్స్:

క్రాస్ ధ్రువీకరణ
గ్రిడ్ శోధన
కొలమానాలు

5. డైమెన్షనాలిటీ తగ్గింపు

హై-డైమెన్షనల్ స్పేస్ నుండి తక్కువ డైమెన్షనల్ స్పేస్‌కు డేటాను బదిలీ చేయడం వలన తక్కువ డైమెన్షనల్ ప్రాతినిధ్యం అసలు డేటా యొక్క కొన్ని ముఖ్యమైన అంశాలను సంరక్షిస్తుంది, ఆదర్శంగా దాని స్వాభావిక పరిమాణానికి దగ్గరగా ఉంటుంది, దీనిని డైమెన్షనల్ రిడక్షన్ అంటారు. డైమెన్షియాలిటీ తగ్గించబడినప్పుడు విశ్లేషణ కోసం యాదృచ్ఛిక వేరియబుల్స్ సంఖ్య తగ్గించబడుతుంది. బాహ్య డేటా, ఉదాహరణకు, విజువలైజేషన్ల సామర్థ్యాన్ని మెరుగుపరచడానికి పరిగణించబడకపోవచ్చు.

డైమెన్షనాలిటీ తగ్గింపు అల్గోరిథం కింది వాటిని కలిగి ఉంటుంది:

ఫీచర్ ఎంపిక
ప్రిన్సిపల్ కాంపోనెంట్ అనాలిసిస్ (పిసిఎ)

స్కికిట్-లెర్న్‌ని ఇన్‌స్టాల్ చేస్తోంది

Scikit-learnని ఉపయోగించే ముందు NumPy, SciPy, Matplotlib, IPython, Sympy మరియు Pandas ఇన్‌స్టాల్ చేయబడాలి. కన్సోల్ నుండి పిప్ ఉపయోగించి వాటిని ఇన్‌స్టాల్ చేద్దాం (Windows కోసం మాత్రమే పని చేస్తుంది).

ఇన్స్టాల్

మేము అవసరమైన లైబ్రరీలను ఇన్‌స్టాల్ చేసాము కాబట్టి ఇప్పుడు Scikit-learnని ఇన్‌స్టాల్ చేద్దాం.

Sklearnని ఇన్‌స్టాల్ చేస్తోంది

లక్షణాలు

స్కికిట్-లెర్న్, కొన్నిసార్లు స్క్లెర్న్ అని పిలుస్తారు, ఇది మెషిన్ లెర్నింగ్ మోడల్స్ మరియు స్టాటిస్టికల్ మోడలింగ్‌ను అమలు చేయడానికి పైథాన్ టూల్‌కిట్. మేము రిగ్రెషన్, వర్గీకరణ మరియు క్లస్టరింగ్ కోసం బహుళ మెషీన్ లెర్నింగ్ మోడల్‌లను అలాగే ఈ మోడల్‌లను అంచనా వేయడానికి గణాంక సాధనాలను రూపొందించడానికి దీనిని ఉపయోగించవచ్చు. ఇది డైమెన్షియాలిటీ తగ్గింపు, ఫీచర్ ఎంపిక, ఫీచర్ వెలికితీత, సమిష్టి విధానాలు మరియు అంతర్నిర్మిత డేటాసెట్‌లను కూడా కలిగి ఉంటుంది. మేము ఈ లక్షణాలను ఒక్కొక్కటిగా పరిశీలిస్తాము.

1. డేటాసెట్లను దిగుమతి చేస్తోంది

స్కికిట్-లెర్న్‌లో ఐరిస్ డేటాసెట్, హోమ్ ప్రైస్ డేటాసెట్, టైటానిక్ డేటాసెట్ మొదలైన అనేక ముందస్తు-నిర్మిత డేటాసెట్‌లు ఉన్నాయి. ఈ డేటాసెట్‌ల యొక్క ముఖ్య ప్రయోజనాలు ఏమిటంటే అవి సులభంగా గ్రహించడం మరియు వెంటనే ML మోడల్‌లను అభివృద్ధి చేయడానికి ఉపయోగించవచ్చు. ఈ డేటాసెట్‌లు కొత్తవారికి తగినవి. అదేవిధంగా, మీరు అదనపు డేటాసెట్‌లను దిగుమతి చేయడానికి sklearnని ఉపయోగించవచ్చు. అదేవిధంగా, మీరు అదనపు డేటాసెట్‌లను దిగుమతి చేయడానికి దీన్ని ఉపయోగించవచ్చు.

డేటాసెట్

2. శిక్షణ మరియు పరీక్ష కోసం డేటాసెట్‌ను విభజించడం

Sklearn డేటాసెట్‌ను శిక్షణ మరియు పరీక్ష విభాగాలుగా విభజించే సామర్థ్యాన్ని కలిగి ఉంది. అంచనా పనితీరును నిష్పాక్షికంగా అంచనా వేయడానికి డేటాసెట్‌ను విభజించడం అవసరం. రైలు మరియు పరీక్ష డేటాసెట్‌లలో మా డేటా ఎంత చేర్చబడాలో మేము పేర్కొనవచ్చు. మేము రైలు టెస్ట్ స్ప్లిట్‌ని ఉపయోగించి డేటాసెట్‌ను విభజించాము అంటే రైలు సెట్‌లో 80% డేటా ఉంటుంది మరియు టెస్ట్ సెట్‌లో 20% ఉంటుంది. డేటాసెట్‌ను ఈ క్రింది విధంగా విభజించవచ్చు:

విభజన

3. లీనియర్ రిగ్రెషన్

లీనియర్ రిగ్రెషన్ అనేది పర్యవేక్షించబడే అభ్యాస-ఆధారిత మెషీన్ లెర్నింగ్ టెక్నిక్. ఇది రిగ్రెషన్ పనిని నిర్వహిస్తుంది. స్వతంత్ర వేరియబుల్స్ ఆధారంగా, రిగ్రెషన్ గోల్ ప్రిడిక్షన్ విలువను మోడల్ చేస్తుంది. వేరియబుల్స్ మరియు ప్రిడిక్టింగ్ మధ్య లింక్‌ను గుర్తించడానికి ఇది ఎక్కువగా ఉపయోగించబడుతుంది. డిపెండెంట్ మరియు ఇండిపెండెంట్ వేరియబుల్స్ మధ్య మూల్యాంకనం చేసే కనెక్షన్ రకం, అలాగే ఉపయోగించిన ఇండిపెండెంట్ వేరియబుల్స్ సంఖ్య ఆధారంగా వేర్వేరు రిగ్రెషన్ మోడల్‌లు విభిన్నంగా ఉంటాయి. మేము ఈ క్రింది విధంగా sklearn ఉపయోగించి సరళ రిగ్రెషన్ మోడల్‌ని సృష్టించవచ్చు:

లీనియర్ రిగ్రెషన్

4. లాజిస్టిక్ రిగ్రెషన్

ఒక సాధారణ వర్గీకరణ విధానం లాజిస్టిక్ రిగ్రెషన్. ఇది బహుపది మరియు లీనియర్ రిగ్రెషన్ ఉన్న ఒకే కుటుంబంలో ఉంది మరియు లీనియర్ వర్గీకరణ కుటుంబానికి చెందినది. లాజిస్టిక్ రిగ్రెషన్ యొక్క అన్వేషణలు అర్థం చేసుకోవడం సులభం మరియు త్వరగా గణించబడతాయి. లీనియర్ రిగ్రెషన్ మాదిరిగానే, లాజిస్టిక్ రిగ్రెషన్ అనేది పర్యవేక్షించబడే రిగ్రెషన్ టెక్నిక్. అవుట్‌పుట్ వేరియబుల్ వర్గీకరించబడింది, కాబట్టి అది మాత్రమే తేడా. ఇది రోగికి గుండె జబ్బు ఉందో లేదో నిర్ధారిస్తుంది.

లాజిస్టిక్ రిగ్రెషన్ ఉపయోగించి స్పామ్ డిటెక్షన్ వంటి వివిధ వర్గీకరణ సమస్యలు పరిష్కరించబడతాయి. మధుమేహాన్ని అంచనా వేయడం, వినియోగదారు నిర్దిష్ట ఉత్పత్తిని కొనుగోలు చేస్తారా లేదా ప్రత్యర్థికి మారతారా అని నిర్ణయించడం, వినియోగదారు నిర్దిష్ట మార్కెటింగ్ లింక్‌పై క్లిక్ చేస్తారో లేదో నిర్ణయించడం మరియు మరెన్నో దృశ్యాలు కేవలం కొన్ని ఉదాహరణలు.

లాజిస్టిక్ రిగ్రెషన్

5. డెసిషన్ ట్రీ

అత్యంత శక్తివంతమైన మరియు విస్తృతంగా ఉపయోగించే వర్గీకరణ మరియు అంచనా సాంకేతికత నిర్ణయం చెట్టు. డెసిషన్ ట్రీ అనేది ఫ్లోచార్ట్ లాగా కనిపించే చెట్టు నిర్మాణం, ప్రతి అంతర్గత నోడ్ ఒక లక్షణంపై పరీక్షను సూచిస్తుంది, ప్రతి శాఖ పరీక్ష ముగింపును సూచిస్తుంది మరియు ప్రతి లీఫ్ నోడ్ (టెర్మినల్ నోడ్) క్లాస్ లేబుల్‌ను కలిగి ఉంటుంది.

డిపెండెంట్ వేరియబుల్స్ స్వతంత్ర వేరియబుల్స్‌తో లీనియర్ సంబంధాన్ని కలిగి లేనప్పుడు, అంటే లీనియర్ రిగ్రెషన్ సరైన ఫలితాలను ఉత్పత్తి చేయనప్పుడు, నిర్ణయ వృక్షాలు ప్రయోజనకరంగా ఉంటాయి. రిగ్రెషన్ కోసం డెసిషన్ ట్రీని ఉపయోగించుకోవడానికి DecisionTreeRegression() ఆబ్జెక్ట్‌ను ఇదే విధంగా ఉపయోగించవచ్చు.

నిర్ణయం చెట్టు

6. రాండమ్ ఫారెస్ట్

యాదృచ్ఛిక అడవి అనేది a యంత్ర అభ్యాసం రిగ్రెషన్ మరియు వర్గీకరణ సమస్యలను పరిష్కరించే విధానం. ఇది సమిష్టి అభ్యాసాన్ని ఉపయోగించుకుంటుంది, ఇది సంక్లిష్టమైన సమస్యలను పరిష్కరించడానికి బహుళ వర్గీకరణలను మిళితం చేసే సాంకేతికత. యాదృచ్ఛిక అటవీ పద్ధతి పెద్ద సంఖ్యలో నిర్ణయం చెట్లతో రూపొందించబడింది. ఇది రుణ దరఖాస్తులను వర్గీకరించడానికి, మోసపూరిత ప్రవర్తనను గుర్తించడానికి మరియు వ్యాధి వ్యాప్తిని అంచనా వేయడానికి ఉపయోగించవచ్చు.

రాండమ్ ఫారెస్ట్

7. గందరగోళ మాతృక

గందరగోళ మాతృక అనేది వర్గీకరణ నమూనా పనితీరును వివరించడానికి ఉపయోగించే పట్టిక. గందరగోళ మాతృకను పరిశీలించడానికి క్రింది నాలుగు పదాలు ఉపయోగించబడతాయి:

నిజమైన సానుకూలం: మోడల్ అనుకూలమైన ఫలితాన్ని అంచనా వేసిందని మరియు అది సరైనదని ఇది సూచిస్తుంది.
నిజమైన ప్రతికూలత: మోడల్ చెడు ఫలితాన్ని అంచనా వేసిందని మరియు అది సరైనదని ఇది సూచిస్తుంది.
ఫాల్స్ పాజిటివ్: మోడల్ అనుకూలమైన ఫలితాన్ని ఆశించిందని, అయితే ఇది నిజంగా ప్రతికూలంగా ఉందని ఇది సూచిస్తుంది.
తప్పుడు ప్రతికూలం: మోడల్ ప్రతికూల ఫలితాన్ని ఆశించిందని, అయితే ఫలితం నిజంగా సానుకూలంగా ఉందని ఇది సూచిస్తుంది.

గందరగోళం మ్యాట్రిక్స్ ఫోటో

గందరగోళ మాతృక అమలు:

గందరగోళ గణాంకాలు

ప్రోస్

ఇది ఉపయోగించడానికి సులభం.
స్కికిట్-లెర్న్ ప్యాకేజీ చాలా అనుకూలమైనది మరియు ఉపయోగకరమైనది, వినియోగదారుల ప్రవర్తన అంచనా, న్యూరోఇమేజ్ అభివృద్ధి మొదలైన వాస్తవ-ప్రపంచ లక్ష్యాలను అందిస్తోంది.
వారి ప్లాట్‌ఫారమ్‌లతో అల్గారిథమ్‌లను కనెక్ట్ చేయాలనుకునే వినియోగదారులు Scikit-learn వెబ్‌సైట్‌లో వివరణాత్మక API డాక్యుమెంటేషన్‌ను కనుగొంటారు.
అనేక మంది రచయితలు, సహకారులు మరియు ప్రపంచవ్యాప్త ఆన్‌లైన్ కమ్యూనిటీకి పెద్ద సంఖ్యలో మద్దతు ఉంది మరియు Scikit-లెర్న్‌ను తాజాగా ఉంచుతుంది.

కాన్స్

లోతైన అధ్యయనం కోసం ఇది సరైన ఎంపిక కాదు.

ముగింపు

స్కికిట్-లెర్న్ అనేది ప్రతి డేటా సైంటిస్ట్‌కు బలమైన అవగాహన మరియు కొంత అనుభవం కలిగి ఉండే కీలకమైన ప్యాకేజీ. sklearn ఉపయోగించి డేటా మానిప్యులేషన్‌లో ఈ గైడ్ మీకు సహాయం చేస్తుంది. మీరు మీ డేటా సైన్స్ అడ్వెంచర్ ద్వారా అభివృద్ధి చెందుతున్నప్పుడు మీరు కనుగొనగలిగే స్కికిట్-లెర్న్‌లో ఇంకా అనేక సామర్థ్యాలు ఉన్నాయి. వ్యాఖ్యలలో మీ ఆలోచనలను పంచుకోండి.

స్కికిట్-లెర్న్‌కు బిగినర్స్ గైడ్

ఏమిటి స్కికిట్-నేర్చుకోండి?