स्किकिट-लर्न के लिए एक शुरुआती मार्गदर्शिका

विषय - सूची[छिपाना][प्रदर्शन]

स्किकिट-लर्न क्या है?
स्किकिट-लर्न लाइब्रेरी के अनुप्रयोग+-
स्किकिट-लर्न स्थापित करना
विशेषताएं +-
फ़ायदे
नुकसान
निष्कर्ष

यदि आप एक पायथन प्रोग्रामर हैं या यदि आप उत्पादन प्रणाली में मशीन लर्निंग को पेश करने के लिए उपयोग करने के लिए एक शक्तिशाली टूलकिट खोज रहे हैं, तो स्किकिट-लर्न एक लाइब्रेरी है जिसे आपको जांचना होगा।

स्किकिट-लर्न अच्छी तरह से प्रलेखित है और उपयोग में आसान है, चाहे आप मशीन लर्निंग में नए हैं, जल्दी से उठना और चलाना चाहते हैं, या सबसे अद्यतित एमएल अनुसंधान टूल का उपयोग करना चाहते हैं।

यह आपको कोड की केवल कुछ पंक्तियों में एक पूर्वानुमानित डेटा मॉडल बनाने की अनुमति देता है और फिर उस मॉडल का उपयोग उच्च-स्तरीय लाइब्रेरी के रूप में आपके डेटा के अनुरूप करता है। यह लचीला है और दूसरे के साथ अच्छा काम करता है अजगर पुस्तकालय जैसे चार्टिंग के लिए मैटप्लोटलिब, ऐरे वैश्वीकरण के लिए न्यूमपी, और डेटा विज़ुअलाइज़ेशन के लिए पांडा।

इस गाइड में, आपको यह सब पता चलेगा कि यह क्या है, आप इसका उपयोग कैसे कर सकते हैं, साथ ही इसके फायदे और नुकसान भी।

एचएमबी क्या है? Scikit सीखने?

स्किकिट-लर्न (स्केलर्न के रूप में भी जाना जाता है) सांख्यिकीय मॉडल और मशीन लर्निंग का एक विविध सेट प्रदान करता है। अधिकांश मॉड्यूल के विपरीत, स्केलेर को सी के बजाय पायथन में विकसित किया गया है। पायथन में विकसित होने के बावजूद, स्केलेर की दक्षता उच्च-प्रदर्शन रैखिक बीजगणित और सरणी संचालन के लिए NumPy के उपयोग के कारण बताई गई है।

स्किकिट-लर्न को Google के समर ऑफ कोड प्रोजेक्ट के हिस्से के रूप में बनाया गया था और तब से इसने दुनिया भर में लाखों पायथन-केंद्रित डेटा वैज्ञानिकों के जीवन को सरल बना दिया है। श्रृंखला का यह खंड लाइब्रेरी को प्रस्तुत करने और एक तत्व - डेटासेट परिवर्तनों पर ध्यान केंद्रित करने पर केंद्रित है, जो एक भविष्यवाणी मॉडल विकसित करने से पहले उठाया जाने वाला एक महत्वपूर्ण और महत्वपूर्ण कदम है।

स्केलेर्न

लाइब्रेरी SciPy (वैज्ञानिक पायथन) पर आधारित है, जिसे आपको scikit-learn का उपयोग करने से पहले स्थापित किया जाना चाहिए। इस स्टैक में निम्नलिखित आइटम हैं:

NumPy: पायथन का मानक एन-आयामी सरणी पैकेज
SciPy: यह वैज्ञानिक कंप्यूटिंग के लिए एक मौलिक पैकेज है
पांडा: डेटा संरचनाएं और विश्लेषण
Matplotlib: यह एक शक्तिशाली 2D/3D प्लॉटिंग लाइब्रेरी है
सिम्पी: प्रतीकात्मक गणित
आईपीथॉन: बेहतर इंटरैक्टिव कंसोल

स्किकिट-लर्न लाइब्रेरी के अनुप्रयोग

स्किकिट-लर्न परिष्कृत डेटा विश्लेषण और खनन सुविधाओं के साथ एक ओपन-सोर्स पायथन पैकेज है। यह आपके डेटा विज्ञान परियोजनाओं से अधिकतम लाभ प्राप्त करने में आपकी सहायता के लिए ढेर सारे अंतर्निहित एल्गोरिदम के साथ आता है। स्किकिट-लर्न लाइब्रेरी का उपयोग निम्नलिखित तरीकों से किया जाता है।

1. रिग्रेशन

प्रतिगमन विश्लेषण दो या दो से अधिक चरों के बीच संबंध का विश्लेषण और समझने के लिए एक सांख्यिकीय तकनीक है। प्रतिगमन विश्लेषण करने के लिए उपयोग की जाने वाली विधि यह निर्धारित करने में सहायता करती है कि कौन से तत्व प्रासंगिक हैं, जिन्हें अनदेखा किया जा सकता है, और वे कैसे बातचीत करते हैं। उदाहरण के लिए, प्रतिगमन तकनीकों का उपयोग स्टॉक कीमतों के व्यवहार को बेहतर ढंग से समझने के लिए किया जा सकता है।

प्रतिगमन एल्गोरिदम में शामिल हैं:

Linear Regression Slope
रिज रिग्रेशन
लासो रिग्रेशन
निर्णय वृक्ष प्रतिगमन
बेतरतीब जंगल
वेक्टर मशीनों का समर्थन (SVM)

2. वर्गीकरण

वर्गीकरण पद्धति एक पर्यवेक्षित शिक्षण दृष्टिकोण है जो ताज़ा अवलोकनों की श्रेणी की पहचान करने के लिए प्रशिक्षण डेटा का उपयोग करती है। वर्गीकरण में एक एल्गोरिदम किसी दिए गए से सीखता है डाटासेट या अवलोकन करता है और फिर अतिरिक्त अवलोकनों को कई वर्गों या समूहों में से एक में वर्गीकृत करता है। उदाहरण के लिए, उनका उपयोग ईमेल संचार को स्पैम के रूप में वर्गीकृत करने के लिए किया जा सकता है या नहीं।

वर्गीकरण एल्गोरिदम में निम्नलिखित शामिल हैं:

रसद प्रतिगमन
K-निकटतम पड़ोसी
समर्थन वेक्टर यंत्र
निर्णय वृक्ष
बेतरतीब जंगल

3. क्लस्टरिंग

स्किकिट-लर्न में क्लस्टरिंग एल्गोरिदम का उपयोग स्वचालित रूप से सेट में समान गुणों वाले डेटा को व्यवस्थित करने के लिए किया जाता है। क्लस्टरिंग वस्तुओं के एक समूह को समूहीकृत करने की प्रक्रिया है ताकि एक ही समूह में मौजूद वस्तुएं अन्य समूहों के समान हों। उदाहरण के लिए, ग्राहक डेटा को उनके स्थान के आधार पर अलग किया जा सकता है।

क्लस्टरिंग एल्गोरिदम में निम्नलिखित शामिल हैं:

डीबी-स्कैन
कश्मीर साधन
मिनी-बैच के-मीन्स
स्पेक्ट्रल क्लस्टरिंग

4. मॉडल चयन

मॉडल चयन एल्गोरिदम डेटा विज्ञान पहल में उपयोग के लिए इष्टतम मापदंडों और मॉडलों की तुलना, सत्यापन और चयन के लिए तरीके प्रदान करते हैं। दिए गए डेटा में, मॉडल चयन उम्मीदवार मॉडल के समूह से एक सांख्यिकीय मॉडल चुनने की समस्या है। सबसे बुनियादी परिस्थितियों में, डेटा के पहले से मौजूद संग्रह को ध्यान में रखा जाता है। हालाँकि, कार्य में प्रयोगों का डिज़ाइन भी शामिल हो सकता है ताकि प्राप्त किया गया डेटा मॉडल चयन समस्या के लिए उपयुक्त हो।

मॉडल चयन मॉड्यूल जो मापदंडों को समायोजित करके सटीकता में सुधार कर सकते हैं उनमें शामिल हैं:

परिणाम का सत्यापन करना
ग्रिड खोज
मेट्रिक्स

5. आयामी कमी

उच्च-आयामी स्थान से डेटा को निम्न-आयामी स्थान में स्थानांतरित करना ताकि निम्न-आयामी प्रतिनिधित्व मूल डेटा के कुछ महत्वपूर्ण पहलुओं को संरक्षित कर सके, आदर्श रूप से इसके अंतर्निहित आयाम के करीब, आयामीता में कमी के रूप में जाना जाता है। आयामीता कम होने पर विश्लेषण के लिए यादृच्छिक चर की संख्या कम हो जाती है। उदाहरण के लिए, बाहरी डेटा को विज़ुअलाइज़ेशन की दक्षता में सुधार करने वाला नहीं माना जा सकता है।

आयाम न्यूनीकरण एल्गोरिदम में निम्नलिखित शामिल हैं:

फीचर चयन
प्रधान घटक विश्लेषण (पीसीए)

स्किकिट-लर्न स्थापित करना

स्किकिट-लर्न का उपयोग करने से पहले NumPy, SciPy, Matplotlib, IPython, Sympy और Pandas को इंस्टॉल करना आवश्यक है। आइए उन्हें कंसोल से पाइप का उपयोग करके इंस्टॉल करें (केवल विंडोज़ के लिए काम करता है)।

स्थापित करें

आइए अब स्किकिट-लर्न इंस्टॉल करें क्योंकि हमने आवश्यक लाइब्रेरीज़ इंस्टॉल कर ली हैं।

स्केलेरन स्थापित करना

विशेषताएं

स्किकिट-लर्न, जिसे कभी-कभी स्केलेरन के नाम से जाना जाता है, मशीन लर्निंग मॉडल और सांख्यिकीय मॉडलिंग को लागू करने के लिए एक पायथन टूलकिट है। हम इसका उपयोग प्रतिगमन, वर्गीकरण और क्लस्टरिंग के लिए कई मशीन लर्निंग मॉडल बनाने के साथ-साथ इन मॉडलों के आकलन के लिए सांख्यिकीय उपकरण बनाने के लिए कर सकते हैं। इसमें आयामीता में कमी, फीचर चयन, फीचर निष्कर्षण, संयोजन दृष्टिकोण और अंतर्निहित डेटासेट भी शामिल हैं। हम इनमें से प्रत्येक गुण की एक-एक करके जांच करेंगे।

1. डेटासेट आयात करना

स्किकिट-लर्न में कई पूर्व-निर्मित डेटासेट शामिल हैं, जैसे कि आईरिस डेटासेट, होम प्राइस डेटासेट, टाइटैनिक डेटासेट, इत्यादि। इन डेटासेट का मुख्य लाभ यह है कि इन्हें समझना आसान है और इनका उपयोग तुरंत एमएल मॉडल विकसित करने के लिए किया जा सकता है। ये डेटासेट नौसिखियों के लिए उपयुक्त हैं। इसी तरह, आप अतिरिक्त डेटासेट आयात करने के लिए स्केलेरन का उपयोग कर सकते हैं। इसी तरह, आप इसका उपयोग अतिरिक्त डेटासेट आयात करने के लिए कर सकते हैं।

डेटासेट

2. प्रशिक्षण और परीक्षण के लिए डेटासेट का विभाजन

स्केलेरन में डेटासेट को प्रशिक्षण और परीक्षण खंडों में विभाजित करने की क्षमता शामिल थी। भविष्यवाणी प्रदर्शन के निष्पक्ष मूल्यांकन के लिए डेटासेट को विभाजित करना आवश्यक है। हम निर्दिष्ट कर सकते हैं कि हमारा कितना डेटा ट्रेन और परीक्षण डेटासेट में शामिल किया जाना चाहिए। हमने ट्रेन टेस्ट स्प्लिट का उपयोग करके डेटासेट को इस तरह विभाजित किया कि ट्रेन सेट में 80% डेटा शामिल है और परीक्षण सेट में 20% है। डेटासेट को इस प्रकार विभाजित किया जा सकता है:

विभाजन

3. रैखिक प्रतिगमन

लीनियर रिग्रेशन एक पर्यवेक्षित शिक्षण-आधारित मशीन लर्निंग तकनीक है। यह एक प्रतिगमन कार्य करता है। स्वतंत्र चर के आधार पर, प्रतिगमन एक लक्ष्य भविष्यवाणी मूल्य मॉडल करता है। इसका उपयोग अधिकतर चर और पूर्वानुमान के बीच संबंध निर्धारित करने के लिए किया जाता है। विभिन्न प्रतिगमन मॉडल आश्रित और स्वतंत्र चर के बीच संबंध के प्रकार के साथ-साथ उपयोग किए गए स्वतंत्र चर की संख्या के संदर्भ में भिन्न होते हैं। हम निम्नानुसार स्केलेर का उपयोग करके रैखिक प्रतिगमन मॉडल बना सकते हैं:

Linear Regression Slope

4. लॉजिस्टिक रिग्रेशन

एक सामान्य वर्गीकरण दृष्टिकोण लॉजिस्टिक रिग्रेशन है। यह बहुपद और रैखिक प्रतिगमन के समान परिवार में है और रैखिक वर्गीकरण परिवार से संबंधित है। लॉजिस्टिक रिग्रेशन के निष्कर्ष समझने में सरल हैं और गणना करने में त्वरित हैं। लीनियर रिग्रेशन की तरह ही, लॉजिस्टिक रिग्रेशन एक पर्यवेक्षित रिग्रेशन तकनीक है। आउटपुट वैरिएबल श्रेणीबद्ध है, इसलिए यही एकमात्र अंतर है। यह निर्धारित कर सकता है कि मरीज को हृदय रोग है या नहीं।

विभिन्न वर्गीकरण मुद्दों, जैसे स्पैम का पता लगाना, को लॉजिस्टिक रिग्रेशन का उपयोग करके हल किया जा सकता है। मधुमेह का पूर्वानुमान लगाना, यह निर्धारित करना कि क्या कोई उपभोक्ता एक विशिष्ट उत्पाद खरीदेगा या किसी प्रतिद्वंद्वी पर स्विच करेगा, यह निर्धारित करना कि क्या कोई उपयोगकर्ता किसी विशिष्ट मार्केटिंग लिंक पर क्लिक करेगा, और कई अन्य परिदृश्य तो बस कुछ उदाहरण हैं।

रसद प्रतिगमन

5. निर्णय वृक्ष

सबसे शक्तिशाली और व्यापक रूप से उपयोग की जाने वाली वर्गीकरण और भविष्यवाणी तकनीक निर्णय वृक्ष है। निर्णय वृक्ष एक वृक्ष संरचना है जो एक फ़्लोचार्ट की तरह दिखती है, जिसमें प्रत्येक आंतरिक नोड एक विशेषता पर परीक्षण का प्रतिनिधित्व करता है, प्रत्येक शाखा परीक्षण के निष्कर्ष का प्रतिनिधित्व करती है, और प्रत्येक लीफ नोड (टर्मिनल नोड) एक क्लास लेबल रखता है।

जब आश्रित चर का स्वतंत्र चर के साथ रैखिक संबंध नहीं होता है, यानी जब रैखिक प्रतिगमन सही निष्कर्ष नहीं देता है, तो निर्णय वृक्ष फायदेमंद होते हैं। DecisionTreeRegression() ऑब्जेक्ट का उपयोग प्रतिगमन के लिए निर्णय वृक्ष का उपयोग करने के समान तरीके से किया जा सकता है।

निर्णय वृक्ष

6. यादृच्छिक वन

एक यादृच्छिक जंगल है यंत्र अधिगम प्रतिगमन और वर्गीकरण मुद्दों को हल करने के लिए दृष्टिकोण। यह सामूहिक शिक्षण का उपयोग करता है, जो एक ऐसी तकनीक है जो जटिल समस्याओं को हल करने के लिए कई क्लासिफायर को जोड़ती है। एक यादृच्छिक वन विधि बड़ी संख्या में निर्णय वृक्षों से बनी होती है। इसका उपयोग ऋण आवेदनों को वर्गीकृत करने, धोखाधड़ी वाले व्यवहार का पता लगाने और बीमारी के प्रकोप का अनुमान लगाने के लिए किया जा सकता है।

बेतरतीब जंगल

7. कन्फ्यूजन मैट्रिक्स

कन्फ्यूजन मैट्रिक्स एक तालिका है जिसका उपयोग वर्गीकरण मॉडल के प्रदर्शन का वर्णन करने के लिए किया जाता है। भ्रम मैट्रिक्स की जांच के लिए निम्नलिखित चार शब्दों का उपयोग किया जाता है:

सच्चा सकारात्मक: यह दर्शाता है कि मॉडल ने अनुकूल परिणाम का अनुमान लगाया था और यह सही था।
सच्चा नकारात्मक: यह दर्शाता है कि मॉडल ने खराब परिणाम का अनुमान लगाया था और यह सही था।
गलत सकारात्मक: यह दर्शाता है कि मॉडल को अनुकूल परिणाम की उम्मीद थी लेकिन यह वास्तव में नकारात्मक था।
गलत नकारात्मक: यह दर्शाता है कि मॉडल को नकारात्मक परिणाम की उम्मीद थी, जबकि परिणाम वास्तव में सकारात्मक था।

कन्फ्यूजन मैट्रिक्स फोटो

भ्रम मैट्रिक्स कार्यान्वयन:

कन्फ्यूजन मेट्रिक्स

फ़ायदे

इसका उपयोग करना आसान है।
स्किकिट-लर्न पैकेज बेहद अनुकूलनीय और उपयोगी है, जो उपभोक्ता व्यवहार भविष्यवाणी, न्यूरोइमेज विकास आदि जैसे वास्तविक दुनिया के लक्ष्यों को पूरा करता है।
जो उपयोगकर्ता एल्गोरिदम को अपने प्लेटफ़ॉर्म से जोड़ना चाहते हैं, उन्हें स्किकिट-लर्न वेबसाइट पर विस्तृत एपीआई दस्तावेज़ मिलेंगे।
अनेक लेखक, सहयोगी और एक बड़ा विश्वव्यापी ऑनलाइन समुदाय स्किकिट-लर्न को समर्थन देता है और उसे अद्यतन रखता है।

नुकसान

गहन अध्ययन के लिए यह आदर्श विकल्प नहीं है।

निष्कर्ष

स्किकिट-लर्न प्रत्येक डेटा वैज्ञानिक के लिए एक महत्वपूर्ण पैकेज है जिसकी मजबूत समझ और कुछ अनुभव होना चाहिए। यह मार्गदर्शिका आपको स्केलेरन का उपयोग करके डेटा हेरफेर में मदद करेगी। स्किकिट-लर्न की कई और क्षमताएं हैं जिन्हें आप अपने डेटा विज्ञान साहसिक कार्य के माध्यम से आगे बढ़ने पर खोजेंगे। टिप्पणियों में अपने विचारों का साझा करें।

स्किकिट-लर्न के लिए एक शुरुआती गाइड

एचएमबी क्या है? Scikit सीखने?