स्किट-लर्नको लागि एक शुरुआती गाइड

विषयसूची[लुकाउनुहोस्][देखाउनु]

स्किट-लर्न भनेको के हो?
स्किट-लर्न लाइब्रेरीका अनुप्रयोगहरू+-
स्किट-लर्न स्थापना गर्दै
विशेषताहरु +-
विशेषज्ञहरूले
विपक्ष
निष्कर्ष

यदि तपाइँ पाइथन प्रोग्रामर हुनुहुन्छ वा यदि तपाइँ मेसिन लर्निङलाई उत्पादन प्रणालीमा परिचय गराउन प्रयोग गर्नको लागि शक्तिशाली टुलकिट खोज्दै हुनुहुन्छ भने, Scikit-learn एउटा पुस्तकालय हो जुन तपाइँले जाँच गर्न आवश्यक छ।

Scikit-learn राम्रोसँग दस्तावेज गरिएको र प्रयोग गर्न सजिलो छ, चाहे तपाईं मेसिन लर्निङमा नयाँ हुनुहुन्छ, छिटो उठ्न र दौडन चाहनुहुन्छ, वा सबैभन्दा नवीनतम ML अनुसन्धान उपकरण प्रयोग गर्न चाहनुहुन्छ।

यसले तपाइँलाई कोडको केहि लाइनहरूमा भविष्यवाणी गर्ने डेटा मोडेल निर्माण गर्न अनुमति दिन्छ र त्यसपछि तपाइँको डेटालाई उच्च-स्तरको पुस्तकालयको रूपमा उपयुक्त बनाउन त्यो मोडेल प्रयोग गर्दछ। यो लचिलो छ र अन्य संग राम्रो काम गर्दछ पाइथन पुस्तकालयहरू जस्तै चार्टिङका लागि Matplotlib, array vectorization को लागि NumPy, र डेटा भिजुअलाइजेशनका लागि पाण्डा।

यस गाइडमा, तपाईंले यो के हो, तपाईं यसलाई कसरी प्रयोग गर्न सक्नुहुन्छ, यसको फाइदा र बेफाइदाहरू सहित सबै कुरा पत्ता लगाउनुहुनेछ।

के हो Scikit- सिक्नुहोस्?

Scikit-learn (sklearn को रूपमा पनि चिनिन्छ) ले सांख्यिकीय मोडेल र मेसिन लर्निङको विविध सेट प्रदान गर्दछ। धेरै मोड्युलहरूको विपरीत, sklearn C को सट्टा पाइथनमा विकसित गरिएको छ। Python मा विकसित भए तापनि, sklearn को दक्षता उच्च-कार्यक्षमता रेखीय बीजगणित र array कार्यहरूका लागि NumPy को प्रयोगमा आधारित छ।

Scikit-Learn को Google को समर अफ कोड प्रोजेक्टको एक भागको रूपमा सिर्जना गरिएको थियो र त्यसले विश्वभरका लाखौं पाइथन-केन्द्रित डेटा वैज्ञानिकहरूको जीवनलाई सरल बनाएको छ। शृङ्खलाको यो खण्डले पुस्तकालय प्रस्तुत गर्न र एउटा तत्वमा फोकस गर्छ - डेटासेट रूपान्तरण, जुन भविष्यवाणी मोडेलको विकास गर्नु अघि लिनु पर्ने एक प्रमुख र महत्त्वपूर्ण कदम हो।

Sklearn

पुस्तकालय SciPy (वैज्ञानिक पाइथन) मा आधारित छ, जुन तपाईंले scikit-learn प्रयोग गर्नु अघि स्थापना गरिनुपर्छ। यो स्ट्याकले निम्न वस्तुहरू समावेश गर्दछ:

NumPy: Python को मानक n-dimensional array प्याकेज
SciPy: यो वैज्ञानिक कम्प्युटिङको लागि आधारभूत प्याकेज हो
पाण्डा: डाटा संरचना र विश्लेषण
Matplotlib: यो एक शक्तिशाली 2D/3D प्लटिङ पुस्तकालय हो
Sympy: प्रतीकात्मक गणित
IPython: सुधारिएको अन्तरक्रियात्मक कन्सोल

स्किट-लर्न लाइब्रेरीका अनुप्रयोगहरू

Scikit-learn परिष्कृत डाटा विश्लेषण र खनन सुविधाहरू भएको खुला स्रोत पाइथन प्याकेज हो। यो तपाईंको डाटा विज्ञान परियोजनाहरूबाट धेरै भन्दा धेरै प्राप्त गर्न मद्दत गर्नको लागि निर्मित एल्गोरिदमहरूको प्रशस्तताको साथ आउँदछ। Scikit-lern पुस्तकालय निम्न तरिकामा प्रयोग गरिन्छ।

४. प्रतिगमन

रिग्रेसन विश्लेषण दुई वा बढी चरहरू बीचको सम्बन्धलाई विश्लेषण र बुझ्नको लागि एक सांख्यिकीय प्रविधि हो। रिग्रेसन विश्लेषण गर्न प्रयोग गरिने विधिले कुन तत्वहरू सान्दर्भिक छन्, कुनलाई बेवास्ता गर्न सकिन्छ, र तिनीहरूले कसरी अन्तरक्रिया गर्छन् भनेर निर्धारण गर्न मद्दत गर्छ। प्रतिगमन प्रविधिहरू, उदाहरणका लागि, स्टक मूल्यहरूको व्यवहार राम्रोसँग बुझ्न प्रयोग गर्न सकिन्छ।

प्रतिगमन एल्गोरिदमहरू समावेश छन्:

रेखीय रेग्रेस
रिज रिग्रेसन
Lasso प्रतिगमन
निर्णय ट्री प्रतिगमन
अनियमित वन
समर्थन भेक्टर मेसिन (SVM)

२ वर्गीकरण

वर्गीकरण विधि एक पर्यवेक्षित सिकाइ दृष्टिकोण हो जसले ताजा अवलोकनहरूको वर्ग पहिचान गर्न प्रशिक्षण डेटा प्रयोग गर्दछ। वर्गीकरण मा एक एल्गोरिथ्म दिइएको बाट सिक्छ डाटासेट वा अवलोकनहरू र त्यसपछि अतिरिक्त अवलोकनहरूलाई धेरै वर्गहरू वा समूहहरूमा वर्गीकृत गर्दछ। तिनीहरू, उदाहरणका लागि, स्प्याम वा होइन भनेर इमेल संचार वर्गीकृत गर्न प्रयोग गर्न सकिन्छ।

वर्गीकरण एल्गोरिदमले निम्न समावेश गर्दछ:

लजिस्टिक प्रतिगमन
K- निकटतम छिमेकीहरू
समर्थन भेक्टर मेसिन
निर्णय रूख
अनियमित वन

3. क्लस्टरिङ

Scikit-learn मा क्लस्टरिङ एल्गोरिदमहरू सेटहरूमा समान गुणहरू भएका डाटालाई स्वचालित रूपमा व्यवस्थित गर्न प्रयोग गरिन्छ। क्लस्टरिङ भनेको वस्तुहरूको सेटलाई समूहबद्ध गर्ने प्रक्रिया हो जसले गर्दा एउटै समूहमा भएकाहरू अन्य समूहहरूमा भएकाहरूसँग मिल्दोजुल्दो हुन्छन्। ग्राहक डेटा, उदाहरणका लागि, तिनीहरूको स्थानको आधारमा अलग हुन सक्छ।

क्लस्टरिङ एल्गोरिदमहरू निम्न समावेश छन्:

DB-SCAN
K- मतलब
मिनी-ब्याच K- मतलब
स्पेक्ट्रल क्लस्टरिङ

4. मोडेल चयन

मोडेल चयन एल्गोरिदमहरूले डेटा विज्ञान पहलहरूमा प्रयोगको लागि इष्टतम प्यारामिटरहरू र मोडेलहरू तुलना, प्रमाणीकरण, र चयन गर्न विधिहरू प्रदान गर्दछ। डेटा दिएर, मोडेल चयन भनेको उम्मेदवार मोडेलहरूको समूहबाट तथ्याङ्कीय मोडेल छनोट गर्ने समस्या हो। सबैभन्दा आधारभूत परिस्थितिहरूमा, डेटाको पूर्व-अवस्थित संग्रहलाई खातामा लिइन्छ। यद्यपि, कार्यमा प्रयोगहरूको डिजाइन पनि समावेश हुन सक्छ ताकि प्राप्त डाटा मोडेल चयन समस्याको लागि उपयुक्त छ।

मापदण्डहरू समायोजन गरेर सटीकता सुधार गर्न सक्ने मोडेल चयन मोड्युलहरू समावेश छन्:

क्रस-प्रमाणीकरण
ग्रिड खोज
मेट्रिक्स

5. आयाम घटाउने

उच्च-आयामी स्पेसबाट निम्न-आयामी ठाउँमा डेटाको स्थानान्तरण ताकि निम्न-आयामी प्रतिनिधित्वले मूल डेटाका केही महत्त्वपूर्ण पक्षहरूलाई सुरक्षित राख्छ, आदर्श रूपमा यसको अन्तर्निहित आयामको नजिक, आयाम घटाउने भनिन्छ। विश्लेषणको लागि अनियमित चरहरूको संख्या घटाइन्छ जब आयाम घटाइन्छ। बाह्य डेटा, उदाहरणका लागि, दृश्यहरूको दक्षता सुधार गर्न विचार नगर्न सक्छ।

आयाम घटाउने एल्गोरिथ्मले निम्न समावेश गर्दछ:

सुविधा चयन
प्रमुख घटक विश्लेषण (पीसीए)

स्किट-लर्न स्थापना गर्दै

NumPy, SciPy, Matplotlib, IPython, Sympy, र Pandas Scikit-learn प्रयोग गर्नु अघि स्थापना गर्न आवश्यक छ। कन्सोलबाट पाइप प्रयोग गरेर तिनीहरूलाई स्थापना गरौं (विन्डोजका लागि मात्र काम गर्दछ)।

स्थापना

हामीले आवश्यक पुस्तकालयहरू स्थापना गरिसकेकाले अब स्किट-लर्न स्थापना गरौं।

Sklearn स्थापना गर्दै

विशेषताहरु

Scikit-learn, कहिलेकाहीं sklearn को रूपमा चिनिन्छ, मेसिन लर्निङ मोडेलहरू र तथ्याङ्कीय मोडलिङ लागू गर्नको लागि पाइथन टुलकिट हो। हामी यसलाई रिग्रेसन, वर्गीकरण, र क्लस्टरिङका लागि धेरै मेसिन लर्निङ मोडेलहरू सिर्जना गर्न प्रयोग गर्न सक्छौं, साथै यी मोडेलहरूको मूल्याङ्कन गर्नका लागि सांख्यिकीय उपकरणहरू। यसमा आयाम घटाउने, सुविधा चयन, सुविधा निकासी, ensemble दृष्टिकोण, र निर्मित डेटासेटहरू पनि समावेश छन्। हामी यी प्रत्येक गुणहरू एक-एक गरी जाँच गर्नेछौं।

1. डाटासेटहरू आयात गर्दै

स्किट-लर्नले धेरै पूर्व-निर्मित डेटासेटहरू समावेश गर्दछ, जस्तै आइरिस डेटासेट, घर मूल्य डेटासेट, टाइटानिक डेटासेट, र यस्तै। यी डेटासेटहरूको मुख्य फाइदाहरू यो हो कि तिनीहरू बुझ्न सरल छन् र तुरुन्तै एमएल मोडेलहरू विकास गर्न प्रयोग गर्न सकिन्छ। यी डेटासेटहरू नौसिखियाहरूका लागि उपयुक्त छन्। त्यसै गरी, तपाईले अतिरिक्त डेटासेटहरू आयात गर्न sklearn प्रयोग गर्न सक्नुहुन्छ। त्यसै गरी, तपाइँ यसलाई थप डेटासेटहरू आयात गर्न प्रयोग गर्न सक्नुहुन्छ।

डेटासेट

2. प्रशिक्षण र परीक्षणको लागि डाटासेट विभाजन

Sklearn ले डेटासेटलाई प्रशिक्षण र परीक्षण खण्डहरूमा विभाजन गर्ने क्षमता समावेश गर्यो। भविष्यवाणी कार्यसम्पादनको निष्पक्ष मूल्याङ्कनका लागि डाटासेट विभाजन गर्न आवश्यक छ। हामीले रेल र परीक्षण डेटासेटहरूमा हाम्रो कति डेटा समावेश गर्नुपर्छ भनेर निर्दिष्ट गर्न सक्छौं। हामीले डेटासेटलाई ट्रेन टेस्ट स्प्लिट प्रयोग गरेर विभाजन गर्यौं कि ट्रेन सेटमा 80% डाटा र परीक्षण सेटमा 20% हुन्छ। डाटासेट निम्नानुसार विभाजित गर्न सकिन्छ:

विभाजन

3. रैखिक प्रतिगमन

रैखिक प्रतिगमन एक पर्यवेक्षित शिक्षामा आधारित मेसिन लर्निङ प्रविधि हो। यसले रिग्रेसन कार्य गर्दछ। स्वतन्त्र चरहरूमा आधारित, प्रतिगमन मोडेल लक्ष्य भविष्यवाणी मान। यो प्राय: चर र भविष्यवाणी बीचको लिङ्क निर्धारण गर्न प्रयोग गरिन्छ। विभिन्न रिग्रेसन मोडेलहरू तिनीहरूले निर्भर र स्वतन्त्र चरहरू बीचको मूल्याङ्कन गर्ने जडानको प्रकारका साथसाथै प्रयोग गरिएका स्वतन्त्र चरहरूको संख्यामा भिन्न हुन्छन्। हामी केवल निम्नानुसार sklearn प्रयोग गरेर रैखिक प्रतिगमन मोडेल सिर्जना गर्न सक्छौं:

रेखीय रेग्रेस

4. लजिस्टिक रिग्रेसन

एक साझा वर्गीकरण दृष्टिकोण लजिस्टिक प्रतिगमन हो। यो बहुपद र रैखिक प्रतिगमनको रूपमा एउटै परिवारमा छ र रैखिक वर्गीकरणकर्ता परिवारसँग सम्बन्धित छ। लजिस्टिक रिग्रेसनका निष्कर्षहरू बुझ्नको लागि सरल छन् र गणना गर्न द्रुत छन्। रैखिक प्रतिगमन जस्तै, लजिस्टिक रिग्रेसन एक पर्यवेक्षित प्रतिगमन प्रविधि हो। आउटपुट चर वर्गीय छ, त्यसैले यो मात्र फरक हो। यसले बिरामीलाई मुटुको रोग छ वा छैन भनेर निर्धारण गर्न सक्छ।

विभिन्न वर्गीकरण मुद्दाहरू, जस्तै स्प्याम पत्ता लगाउने, लजिस्टिक रिग्रेसन प्रयोग गरेर हल गर्न सकिन्छ। मधुमेह पूर्वानुमान, उपभोक्ताले कुनै खास उत्पादन किन्ने वा प्रतिद्वन्द्वीमा स्विच गर्ने, प्रयोगकर्ताले कुनै खास मार्केटिङ लिङ्कमा क्लिक गर्ने कि नगर्ने भनेर निर्धारण गर्ने, र अन्य धेरै परिदृश्यहरू केही उदाहरणहरू हुन्।

लजिस्टिक प्रतिगमन

5. निर्णय रूख

सबैभन्दा शक्तिशाली र व्यापक रूपमा प्रयोग गरिएको वर्गीकरण र भविष्यवाणी प्रविधि निर्णय रूख हो। निर्णय रूख एउटा रूख संरचना हो जुन फ्लोचार्ट जस्तो देखिन्छ, प्रत्येक आन्तरिक नोडले विशेषतामा परीक्षणको प्रतिनिधित्व गर्दछ, प्रत्येक शाखाले परीक्षणको निष्कर्षलाई प्रतिनिधित्व गर्दछ, र प्रत्येक पात नोड (टर्मिनल नोड) ले वर्ग लेबल राख्छ।

जब निर्भर चरहरूको स्वतन्त्र चरहरूसँग रेखीय सम्बन्ध हुँदैन, अर्थात् जब रैखिक प्रतिगमनले सही निष्कर्षहरू उत्पादन गर्दैन, निर्णय रूखहरू लाभदायक हुन्छन्। DecisionTreeRegression() वस्तु रिग्रेसनको लागि निर्णय रूख प्रयोग गर्न समान तरिकामा प्रयोग गर्न सकिन्छ।

निर्णय रूख

6. अनियमित वन

अनियमित वन भनेको ए मेशिन सिकाइ प्रतिगमन र वर्गीकरण समस्याहरू समाधान गर्न दृष्टिकोण। यसले इन्सेम्बल सिकाइको प्रयोग गर्छ, जुन एउटा प्रविधि हो जसले जटिल समस्याहरू समाधान गर्न धेरै वर्गीकरणहरूलाई संयोजन गर्छ। एक अनियमित वन विधि निर्णय रूखहरूको ठूलो संख्याबाट बनेको छ। यो ऋण आवेदन वर्गीकरण गर्न, धोखाधडी व्यवहार पत्ता लगाउन, र रोग प्रकोप पूर्वानुमान गर्न प्रयोग गर्न सकिन्छ।

अनियमित वन

७. कन्फ्युजन म्याट्रिक्स

एक भ्रम म्याट्रिक्स वर्गीकरण मोडेल प्रदर्शन वर्णन गर्न प्रयोग गरिएको तालिका हो। निम्न चार शब्दहरू भ्रम म्याट्रिक्स जाँच गर्न प्रयोग गरिन्छ:

साँचो सकारात्मक: यसले संकेत गर्दछ कि मोडेलले अनुकूल परिणाम प्रक्षेपण गर्यो र यो सही थियो।
साँचो नकारात्मक: यसले संकेत गर्दछ कि मोडेलले खराब नतिजा प्रक्षेपण गर्यो र यो सही थियो।
गलत सकारात्मक: यसले संकेत गर्दछ कि मोडेलले अनुकूल परिणामको अपेक्षा गरेको थियो तर यो वास्तवमै नकारात्मक थियो।
गलत नकारात्मक: यसले संकेत गर्छ कि मोडेलले नकारात्मक नतिजाको अपेक्षा गरेको थियो, जबकि परिणाम वास्तवमै सकारात्मक थियो।

भ्रम मैट्रिक्स फोटो

भ्रम म्याट्रिक्स कार्यान्वयन:

भ्रम मेट्रिक्स

विशेषज्ञहरूले

यो प्रयोग गर्न को लागी सरल छ।
स्किट-लर्न प्याकेज अत्यन्त अनुकूलनीय र उपयोगी छ, जसले उपभोक्ता व्यवहार भविष्यवाणी, न्यूरोइमेज विकास, र अन्य जस्ता वास्तविक-विश्व लक्ष्यहरू प्रदान गर्दछ।
आफ्ना प्लेटफर्महरूसँग एल्गोरिदम जडान गर्न चाहने प्रयोगकर्ताहरूले Scikit-learn वेबसाइटमा विस्तृत API कागजातहरू फेला पार्नेछन्।
असंख्य लेखकहरू, सहयोगीहरू, र एक ठूलो विश्वव्यापी अनलाइन समुदाय समर्थन र Scikit-Learn अद्यावधिक राख्नुहोस्।

विपक्ष

यो गहिरो अध्ययनको लागि आदर्श विकल्प होइन।

निष्कर्ष

स्किट-लर्न प्रत्येक डाटा वैज्ञानिकको लागि बलियो पकड र केहि अनुभवको लागि एक महत्वपूर्ण प्याकेज हो। यो गाइडले तपाइँलाई sklearn प्रयोग गरेर डाटा हेरफेर गर्न मद्दत गर्नुपर्छ। स्किट-लर्नका धेरै क्षमताहरू छन् जुन तपाईंले आफ्नो डेटा विज्ञान साहसिक कार्यको माध्यमबाट प्रगति गर्दा पत्ता लगाउनुहुनेछ। टिप्पणीहरूमा आफ्नो विचार साझा गर्नुहोस्।

स्किट-लर्नको लागि एक शुरुआती गाइड

के हो Scikit- सिक्नुहोस्?