अनुक्रमणिका[लपवा][दाखवा]
जर तुम्ही पायथन प्रोग्रामर असाल किंवा उत्पादन प्रणालीमध्ये मशीन लर्निंगचा वापर करण्यासाठी तुम्ही शक्तिशाली टूलकिट शोधत असाल तर, स्किट-लर्न ही एक लायब्ररी आहे जी तुम्हाला तपासण्याची आवश्यकता आहे.
तुम्ही मशीन लर्निंगमध्ये नवीन असाल, त्वरीत उठून धावू इच्छित असाल किंवा सर्वात अद्ययावत ML संशोधन साधन वापरू इच्छित असाल, तरीही Scikit-learn हे चांगले-दस्तऐवजीकरण केलेले आणि वापरण्यास सोपे आहे.
हे तुम्हाला कोडच्या फक्त काही ओळींमध्ये एक पूर्वानुमानित डेटा मॉडेल तयार करण्यास अनुमती देते आणि नंतर उच्च-स्तरीय लायब्ररी म्हणून तुमच्या डेटाला अनुकूल करण्यासाठी ते मॉडेल वापरते. हे लवचिक आहे आणि इतरांसह चांगले कार्य करते पायथन लायब्ररी चार्टिंगसाठी मॅटप्लॉटलिब, अॅरे वेक्टरायझेशनसाठी NumPy आणि डेटा व्हिज्युअलायझेशनसाठी पांडा.
या मार्गदर्शकामध्ये, आपण ते काय आहे, आपण ते कसे वापरू शकता, त्याचे फायदे आणि तोटे याविषयी सर्व काही शोधू शकाल.
काय आहे विज्ञान-शिकणे?
स्किट-लर्न (स्क्लेर्न म्हणूनही ओळखले जाते) सांख्यिकीय मॉडेल आणि मशीन लर्निंगचा विविध संच देते. बहुतेक मॉड्यूल्सच्या विपरीत, sklearn C ऐवजी Python मध्ये विकसित केले जाते. Python मध्ये विकसित असूनही, sklearn ची कार्यक्षमता उच्च-कार्यक्षमता असलेल्या रेखीय बीजगणित आणि अॅरे ऑपरेशन्ससाठी NumPy च्या वापरास कारणीभूत आहे.
Scikit-Learn Google च्या समर ऑफ कोड प्रोजेक्टचा एक भाग म्हणून तयार केले गेले आणि तेव्हापासून जगभरातील लाखो पायथन-केंद्रित डेटा वैज्ञानिकांचे जीवन सोपे केले आहे. मालिकेचा हा विभाग लायब्ररी सादर करण्यावर आणि एका घटकावर लक्ष केंद्रित करतो - डेटासेट परिवर्तन, जे एक भविष्यवाणी मॉडेल विकसित करण्यापूर्वी उचलणे महत्त्वाचे आणि महत्त्वपूर्ण पाऊल आहे.
लायब्ररी SciPy (Scientific Python) वर आधारित आहे, जी तुम्ही scikit-learn वापरण्यापूर्वी इंस्टॉल केलेली असणे आवश्यक आहे. या स्टॅकमध्ये खालील आयटम आहेत:
- NumPy: पायथनचे मानक एन-डायमेंशनल अॅरे पॅकेज
- SciPy: हे वैज्ञानिक संगणनासाठी एक मूलभूत पॅकेज आहे
- पांडा: डेटा संरचना आणि विश्लेषण
- मॅटप्लॉटलिब: ही एक शक्तिशाली 2D/3D प्लॉटिंग लायब्ररी आहे
- Sympy: लाक्षणिक गणित
- IPython: सुधारित परस्परसंवादी कन्सोल
स्किट-लर्न लायब्ररीचे अनुप्रयोग
स्किट-लर्न हे अत्याधुनिक डेटा विश्लेषण आणि खाण वैशिष्ट्यांसह मुक्त-स्रोत पायथन पॅकेज आहे. तुमच्या डेटा सायन्स प्रोजेक्ट्समधून तुम्हाला जास्तीत जास्त फायदा मिळवण्यात मदत करण्यासाठी हे अंगभूत अल्गोरिदमच्या भरपूर प्रमाणात येते. स्किट-लर्न लायब्ररी खालील प्रकारे वापरली जाते.
1. प्रतिगमन
प्रतिगमन विश्लेषण हे दोन किंवा अधिक चलांमधील कनेक्शनचे विश्लेषण आणि आकलन करण्यासाठी एक सांख्यिकीय तंत्र आहे. प्रतिगमन विश्लेषण करण्यासाठी वापरलेली पद्धत कोणते घटक संबंधित आहेत, ज्याकडे दुर्लक्ष केले जाऊ शकते आणि ते कसे परस्परसंवाद करतात हे निर्धारित करण्यात मदत करते. प्रतिगमन तंत्र, उदाहरणार्थ, स्टॉकच्या किमतींचे वर्तन अधिक चांगल्या प्रकारे समजून घेण्यासाठी वापरले जाऊ शकते.
प्रतिगमन अल्गोरिदममध्ये हे समाविष्ट आहे:
- लिनीयर प्रतिगमन
- रिज रिग्रेशन
- लास्को रिग्रेशन
- निर्णय वृक्ष प्रतिगमन
- यादृच्छिक जंगल
- सपोर्ट वेक्टर मशीन्स (SVM)
2. वर्गीकरण
वर्गीकरण पद्धत ही एक पर्यवेक्षित शिक्षण पद्धत आहे जी ताज्या निरीक्षणांची श्रेणी ओळखण्यासाठी प्रशिक्षण डेटा वापरते. वर्गीकरणातील अल्गोरिदम दिलेल्या गोष्टींवरून शिकतो डेटासेट किंवा निरीक्षणे आणि नंतर अतिरिक्त निरीक्षणांचे वर्गीकरण अनेक वर्गांपैकी एकामध्ये किंवा गटांमध्ये करते. ते, उदाहरणार्थ, स्पॅम म्हणून किंवा नाही म्हणून ईमेल संप्रेषणांचे वर्गीकरण करण्यासाठी वापरले जाऊ शकतात.
वर्गीकरण अल्गोरिदममध्ये खालील गोष्टींचा समावेश आहे:
- लॉजिस्टिक रीग्रेशन
- के-जवळचे शेजारी
- सपोर्ट वेक्टर मशीन
- निर्णय वृक्ष
- यादृच्छिक जंगल
3. क्लस्टरिंग
Scikit-learn मधील क्लस्टरिंग अल्गोरिदम समान गुणधर्मांसह डेटा आपोआप सेटमध्ये व्यवस्थित करण्यासाठी वापरतात. क्लस्टरिंग ही वस्तूंच्या संचाचे गटबद्ध करण्याची प्रक्रिया आहे जेणेकरून समान गटातील इतर गटांसारखे अधिक समान असतील. उदाहरणार्थ, ग्राहक डेटा त्यांच्या स्थानाच्या आधारावर विभक्त केला जाऊ शकतो.
क्लस्टरिंग अल्गोरिदममध्ये पुढील गोष्टींचा समावेश आहे:
- डीबी-स्कॅन
- के-म्हणजे
- मिनी-बॅच के-मीन्स
- स्पेक्ट्रल क्लस्टरिंग
4. मॉडेल निवड
मॉडेल निवड अल्गोरिदम डेटा विज्ञान उपक्रमांमध्ये वापरण्यासाठी इष्टतम पॅरामीटर्स आणि मॉडेल्सची तुलना, प्रमाणीकरण आणि निवड करण्याच्या पद्धती प्रदान करतात. डेटा दिल्यास, मॉडेल निवड ही उमेदवार मॉडेलच्या गटातून सांख्यिकीय मॉडेल निवडण्याची समस्या आहे. सर्वात मूलभूत परिस्थितींमध्ये, डेटाचा पूर्व-विद्यमान संग्रह विचारात घेतला जातो. तथापि, कार्यामध्ये प्रयोगांची रचना देखील समाविष्ट असू शकते जेणेकरून प्राप्त केलेला डेटा मॉडेल निवड समस्येसाठी योग्य असेल.
मॉडेल निवड मॉड्यूल जे पॅरामीटर्स समायोजित करून अचूकता सुधारू शकतात:
- क्रॉस-प्रमाणीकरण
- ग्रिड शोध
- मेट्रिक्स
5. आयाम कमी करणे
उच्च-आयामी जागेपासून निम्न-आयामी जागेत डेटाचे हस्तांतरण जेणेकरून कमी-आयामी प्रतिनिधित्व मूळ डेटाच्या काही महत्त्वपूर्ण पैलूंचे संरक्षण करते, आदर्शपणे त्याच्या अंतर्भूत परिमाणाच्या जवळ, याला आयामीपणा कमी म्हणून ओळखले जाते. परिमाण कमी केल्यावर विश्लेषणासाठी यादृच्छिक चलांची संख्या कमी होते. बाह्य डेटा, उदाहरणार्थ, व्हिज्युअलायझेशनची कार्यक्षमता सुधारण्यासाठी विचारात घेतले जाऊ शकत नाही.
आयाम कमी करण्याच्या अल्गोरिदममध्ये खालील गोष्टींचा समावेश आहे:
- वैशिष्ट्य निवड
- प्रधान घटक विश्लेषण (पीसीए)
स्किट-लर्न स्थापित करत आहे
Scikit-learn वापरण्यापूर्वी NumPy, SciPy, Matplotlib, IPython, Sympy आणि Pandas स्थापित करणे आवश्यक आहे. कन्सोलमधून pip वापरून ते इन्स्टॉल करूया (फक्त Windows साठी काम करते).
आवश्यक लायब्ररी इन्स्टॉल केल्यावर आता स्किट-लर्न इन्स्टॉल करू.
वैशिष्ट्ये
स्किट-लर्न, ज्याला काहीवेळा sklearn म्हणून ओळखले जाते, हे मशीन लर्निंग मॉडेल आणि सांख्यिकीय मॉडेलिंगची अंमलबजावणी करण्यासाठी पायथन टूलकिट आहे. आम्ही याचा वापर प्रतिगमन, वर्गीकरण आणि क्लस्टरिंगसाठी एकाधिक मशीन लर्निंग मॉडेल्स तसेच या मॉडेल्सचे मूल्यांकन करण्यासाठी सांख्यिकीय साधने तयार करण्यासाठी करू शकतो. यात आयाम कमी करणे, वैशिष्ट्य निवडणे, वैशिष्ट्य काढणे, जोडलेले दृष्टिकोन आणि अंगभूत डेटासेट समाविष्ट आहेत. आम्ही या प्रत्येक गुणांची एकावेळी तपासणी करू.
1. डेटासेट आयात करणे
स्किट-लर्नमध्ये अनेक पूर्व-निर्मित डेटासेट समाविष्ट आहेत, जसे की आयरिस डेटासेट, घराच्या किमतीचा डेटासेट, टायटॅनिक डेटासेट इ. या डेटासेटचे मुख्य फायदे म्हणजे ते समजण्यास सोपे आहेत आणि ML मॉडेल्स त्वरित विकसित करण्यासाठी वापरता येतात. हे डेटासेट नवशिक्यांसाठी योग्य आहेत. त्याचप्रमाणे, तुम्ही अतिरिक्त डेटासेट आयात करण्यासाठी sklearn वापरू शकता. त्याचप्रमाणे, तुम्ही ते अतिरिक्त डेटासेट आयात करण्यासाठी वापरू शकता.
2. प्रशिक्षण आणि चाचणीसाठी डेटासेट विभाजित करणे
Sklearn मध्ये डेटासेटला प्रशिक्षण आणि चाचणी विभागांमध्ये विभाजित करण्याची क्षमता समाविष्ट आहे. अंदाज कार्यप्रदर्शनाच्या निष्पक्ष मूल्यांकनासाठी डेटासेट विभाजित करणे आवश्यक आहे. ट्रेन आणि चाचणी डेटासेटमध्ये आमचा किती डेटा समाविष्ट करावा हे आम्ही निर्दिष्ट करू शकतो. आम्ही ट्रेन टेस्ट स्प्लिट वापरून डेटासेट विभाजित केला आहे की ट्रेन सेटमध्ये 80% डेटा असतो आणि टेस्ट सेटमध्ये 20% असतो. डेटासेट खालीलप्रमाणे विभागला जाऊ शकतो:
3. रेखीय प्रतिगमन
लीनियर रिग्रेशन हे पर्यवेक्षी शिक्षण-आधारित मशीन लर्निंग तंत्र आहे. हे प्रतिगमन कार्य करते. स्वतंत्र व्हेरिएबल्सवर आधारित, रिग्रेशन मॉडेल ध्येय अंदाज मूल्य. हे मुख्यतः व्हेरिएबल्स आणि अंदाज यांच्यातील दुवा निश्चित करण्यासाठी वापरले जाते. भिन्न प्रतिगमन मॉडेल ते अवलंबून आणि स्वतंत्र व्हेरिएबल्स, तसेच वापरलेल्या स्वतंत्र व्हेरिएबल्सच्या संख्येच्या कनेक्शनच्या प्रकारानुसार भिन्न असतात. आपण खालीलप्रमाणे sklearn वापरून लिनियर रीग्रेशन मॉडेल तयार करू शकतो:
4. लॉजिस्टिक रिग्रेशन
एक सामान्य वर्गीकरण दृष्टीकोन लॉजिस्टिक प्रतिगमन आहे. हे बहुपदी आणि रेखीय प्रतिगमन सारख्या कुटुंबात आहे आणि रेखीय वर्गीकरण कुटुंबातील आहे. लॉजिस्टिक रीग्रेशनचे निष्कर्ष समजण्यास सोपे आहेत आणि ते मोजण्यासाठी जलद आहेत. रेखीय प्रतिगमन प्रमाणेच, लॉजिस्टिक रीग्रेशन हे पर्यवेक्षित प्रतिगमन तंत्र आहे. आउटपुट व्हेरिएबल स्पष्ट आहे, त्यामुळे फक्त फरक आहे. यावरून रुग्णाला हृदयविकार आहे की नाही हे ठरवता येते.
विविध वर्गीकरण समस्या, जसे की स्पॅम शोध, लॉजिस्टिक रीग्रेशन वापरून सोडवल्या जाऊ शकतात. मधुमेहाचा अंदाज लावणे, एखादा ग्राहक विशिष्ट उत्पादन विकत घेईल किंवा प्रतिस्पर्ध्याकडे जाईल की नाही हे ठरवणे, वापरकर्ता विशिष्ट मार्केटिंग लिंकवर क्लिक करेल की नाही हे ठरवणे आणि इतर अनेक परिस्थिती ही काही उदाहरणे आहेत.
5. निर्णय वृक्ष
सर्वात शक्तिशाली आणि व्यापकपणे वापरले जाणारे वर्गीकरण आणि अंदाज तंत्र म्हणजे निर्णय वृक्ष. निर्णयाचे झाड ही एक झाडाची रचना असते जी फ्लोचार्टसारखी दिसते, प्रत्येक अंतर्गत नोड एका गुणावरील चाचणीचे प्रतिनिधित्व करते, प्रत्येक शाखा चाचणीच्या निष्कर्षाचे प्रतिनिधित्व करते आणि प्रत्येक लीफ नोड (टर्मिनल नोड) एक वर्ग लेबल धारण करते.
जेव्हा अवलंबून व्हेरिएबल्सचा स्वतंत्र व्हेरिएबल्सशी रेखीय संबंध नसतो, म्हणजे जेव्हा रेखीय प्रतिगमन योग्य निष्कर्ष काढत नाही, तेव्हा निर्णय वृक्ष फायदेशीर असतात. DecisionTreeRegression() ऑब्जेक्ट रिग्रेशनसाठी निर्णय ट्री वापरण्यासाठी अशाच प्रकारे वापरला जाऊ शकतो.
6. यादृच्छिक जंगल
यादृच्छिक जंगल म्हणजे अ मशीन शिक्षण प्रतिगमन आणि वर्गीकरण समस्यांचे निराकरण करण्यासाठी दृष्टीकोन. हे एकत्रित शिक्षणाचा वापर करते, जे एक तंत्र आहे जे क्लिष्ट समस्यांचे निराकरण करण्यासाठी एकाधिक वर्गीकरणांना एकत्र करते. एक यादृच्छिक वन पद्धत मोठ्या संख्येने निर्णय झाडे बनलेली आहे. कर्जाच्या अर्जांचे वर्गीकरण करण्यासाठी, फसव्या वर्तनाचा शोध घेण्यासाठी आणि रोगाचा उद्रेक होण्याची अपेक्षा करण्यासाठी याचा वापर केला जाऊ शकतो.
7. गोंधळ मॅट्रिक्स
गोंधळ मॅट्रिक्स हे वर्गीकरण मॉडेल कामगिरीचे वर्णन करण्यासाठी वापरले जाणारे सारणी आहे. गोंधळ मॅट्रिक्सचे परीक्षण करण्यासाठी खालील चार शब्द वापरले जातात:
- खरे सकारात्मक: हे सूचित करते की मॉडेलने अनुकूल परिणाम प्रक्षेपित केले आणि ते बरोबर होते.
- खरे नकारात्मक: हे सूचित करते की मॉडेलने एक वाईट परिणाम प्रक्षेपित केला आणि तो बरोबर होता.
- असत्य सकारात्मक: हे सूचित करते की मॉडेलला अनुकूल परिणाम अपेक्षित होता परंतु तो खरोखर नकारात्मक होता.
- खोटे नकारात्मक: हे सूचित करते की मॉडेलला नकारात्मक परिणाम अपेक्षित होता, तर परिणाम खरोखर सकारात्मक होता.
गोंधळ मॅट्रिक्स अंमलबजावणी:
साधक
- हे वापरण्यास सोपे आहे.
- स्किट-लर्न पॅकेज अत्यंत अनुकूल आणि उपयुक्त आहे, जे ग्राहक वर्तन अंदाज, न्यूरोइमेज डेव्हलपमेंट इत्यादीसारख्या वास्तविक-जगातील उद्दिष्टे पूर्ण करते.
- जे वापरकर्ते अल्गोरिदम त्यांच्या प्लॅटफॉर्मशी जोडू इच्छितात त्यांना स्किट-लर्न वेबसाइटवर तपशीलवार API दस्तऐवजीकरण मिळेल.
- असंख्य लेखक, सहयोगी आणि मोठ्या प्रमाणावर जगभरातील ऑनलाइन समुदाय समर्थन करतात आणि Scikit-लर्न अद्ययावत ठेवतात.
बाधक
- सखोल अभ्यासासाठी हा आदर्श पर्याय नाही.
निष्कर्ष
स्किट-लर्न हे प्रत्येक डेटा सायंटिस्टसाठी एक महत्त्वपूर्ण पॅकेज आहे ज्याचे मजबूत आकलन आणि काही अनुभव आहे. या मार्गदर्शकाने तुम्हाला sklearn वापरून डेटा हाताळण्यात मदत करावी. स्किट-लर्नच्या आणखी अनेक क्षमता आहेत ज्या तुम्ही तुमच्या डेटा सायन्स अॅडव्हेंचरमधून प्रगती करत असताना तुम्हाला सापडतील. टिप्पण्यांमध्ये आपले विचार सामायिक करा.
प्रत्युत्तर द्या