اسڪِٽ-لرن لاءِ هڪ شروعاتي گائيڊ

مواد جي جدول[لڪ][ڏسو]

Scikit-learn ڇا آهي؟
Scikit-learn Library جون ايپليڪيشنون+-
انسٽال ڪرڻ Scikit-learn
مضمونن جي +-
گڻ
اوگڻ
ٿڪل

جيڪڏهن توهان پائٿون پروگرامر آهيو يا جيڪڏهن توهان هڪ طاقتور ٽول ڪٽ ڳولي رهيا آهيو ته جيئن مشين لرننگ کي پروڊڪشن سسٽم ۾ متعارف ڪرائڻ لاءِ استعمال ڪيو وڃي، Scikit-learn هڪ لائبريري آهي جنهن کي توهان چيڪ ڪرڻ جي ضرورت آهي.

Scikit-learn چڱي طرح دستاويز ٿيل ۽ استعمال ڪرڻ ۾ سادو آھي، ڇا توھان مشين جي سکيا لاءِ نوان آھيو، جلدي اٿڻ چاھيو ٿا ۽ ھلڻ چاھيو ٿا، يا ML ريسرچ جو سڀ کان جديد اوزار استعمال ڪرڻ چاھيو ٿا.

اهو توهان کي اجازت ڏئي ٿو هڪ اڳڪٿي ڪندڙ ڊيٽا ماڊل ٺاهڻ جي ڪوڊ جي صرف چند لائينن ۾ ۽ پوءِ انهي ماڊل کي استعمال ڪري توهان جي ڊيٽا کي هڪ اعليٰ سطحي لائبريري جي طور تي مناسب ڪرڻ لاءِ. اهو لچڪدار آهي ۽ ٻين سان سٺو ڪم ڪري ٿو Python لائبريريون جهڙوڪ Matplotlib چارٽنگ لاءِ، NumPy سرن جي ویکٹرائيزيشن لاءِ، ۽ پنڊاس ڊيٽا ويزولائيزيشن لاءِ.

هن رهنمائي ۾، توهان سڀ ڪجهه ڳوليندا سين ته اهو ڇا آهي، توهان ان کي ڪيئن استعمال ڪري سگهو ٿا، ان سان گڏ ان جا فائدا ۽ نقصان.

ڇا آھي اسڪائيڪو-سکو?

Scikit-learn (جنهن کي sklearn پڻ چيو ويندو آهي) پيش ڪري ٿو مختلف شمارياتي ماڊلز ۽ مشين لرننگ. اڪثر ماڊلز جي برعڪس، sklearn Python ۾ ترقي ڪئي وئي آهي بجاءِ C. Python ۾ ترقي ڪرڻ جي باوجود، sklearn جي ڪارڪردگي NumPy جي ان جي استعمال سان منسوب ڪئي وئي آهي اعلي ڪارڪردگي واري لڪير الجبرا ۽ آري آپريشنز لاءِ.

Scikit-Learn کي گوگل جي سمر آف ڪوڊ پروجيڪٽ جي حصي طور ٺاهيو ويو ۽ ان کان پوءِ سڄي دنيا ۾ لکين پٿون سينٽرڪ ڊيٽا سائنسدانن جي زندگين کي آسان بڻائي ڇڏيو آهي. سيريز جو هي حصو لائبريري کي پيش ڪرڻ ۽ هڪ عنصر تي ڌيان ڏيڻ تي ڌيان ڏئي ٿو - ڊيٽا سيٽ جي تبديليون، جيڪي اڳڪٿي واري ماڊل کي ترقي ڪرڻ کان اڳ کڻڻ لاء هڪ اهم ۽ اهم قدم آهن.

اسڪلرن

لائبريري SciPy (Scientific Python) تي ٻڌل آهي، جنهن کي انسٽال ٿيڻ گهرجي ان کان اڳ جو توهان scikit-learn استعمال ڪري سگھو. ھن اسٽيڪ ۾ ھيٺيون شيون شامل آھن:

NumPy: پٿون جو معياري n-dimensional array پيڪيج
SciPy: اهو سائنسي ڪمپيوٽنگ لاءِ هڪ بنيادي پيڪيج آهي
پانڊاس: ڊيٽا جي جوڙجڪ ۽ تجزيو
Matplotlib: اهو هڪ طاقتور 2D/3D پلاٽنگ لائبريري آهي
Sympy: علامتي رياضي
IPython: بهتر انٽرايڪٽو ڪنسول

Scikit-learn Library جون ايپليڪيشنون

Scikit-learn هڪ اوپن سورس پٿون پيڪيج آهي جنهن ۾ نفيس ڊيٽا جي تجزيي ۽ مائننگ فيچرز شامل آهن. اهو توهان جي ڊيٽا سائنس جي منصوبن مان تمام گهڻو فائدو حاصل ڪرڻ ۾ مدد ڏيڻ لاءِ بلٽ ان الگورٿمز سان گڏ اچي ٿو. Scikit-learn لائبريري هيٺين طريقن سان استعمال ٿئي ٿي.

1. رجعت

ريگريشن تجزيو ٻن يا وڌيڪ متغيرن جي وچ ۾ ڪنيڪشن جو تجزيو ۽ سمجھڻ لاءِ شمارياتي ٽيڪنڪ آھي. رجعت جي تجزيي لاءِ استعمال ٿيل طريقو اهو طئي ڪرڻ ۾ مدد ڪري ٿو ته ڪهڙا عنصر لاڳاپيل آهن، جن کي نظرانداز ڪري سگهجي ٿو، ۽ اهي ڪيئن لهه وچڙ ۾ اچن ٿا. ريگريشن ٽيڪنڪ، مثال طور، اسٽاڪ جي قيمتن جي رويي کي بهتر سمجهڻ لاء استعمال ٿي سگهي ٿي.

ريگريشن الگورتھم شامل آھن:

ليڪري رجسٽريشن
ريج ريگريشن
لاسسو ريگريشن
فيصلي جي وڻ ريگريشن
بي ترتيب ٻيلو
سپورٽ ویکٹر مشين (SVM)

2. درجي بندي

درجي بندي جو طريقو هڪ نگراني ڪيل سکيا وارو طريقو آهي جيڪو تربيتي ڊيٽا استعمال ڪري ٿو تازن مشاهدن جي درجي کي سڃاڻڻ لاءِ. درجه بندي ۾ هڪ الگورتھم هڪ ڏنل مان سکي ٿو ڊيٽا سيٽ يا مشاهدو ۽ پوءِ اضافي مشاهدن کي ڪيترن ئي طبقن يا گروهن ۾ ورهائي ٿو. اهي، مثال طور، استعمال ڪري سگھجن ٿيون اي ميل ڪميونيڪيشن کي اسپام طور درجه بندي ڪرڻ لاءِ يا نه.

درجه بندي الگورتھم ۾ ھيٺيون شامل آھن:

منطقي ريگريشن
K- ويجھا پاڙيسري
سپورٽ ویکٹر مشين
فيصلي جو وڻ
بي ترتيب ٻيلو

3. ڪلستر ڪرڻ

Scikit-learn ۾ ڪلسٽرنگ الگورتھم استعمال ڪيا ويندا آھن خودڪار طريقي سان ڊيٽا کي ساڳي ملڪيت سان سيٽن ۾ ترتيب ڏيڻ لاءِ. Clustering شين جي هڪ سيٽ کي گروپ ڪرڻ جو عمل آهي ته جيئن ساڳئي گروپ ۾ اهي ٻين گروپن ۾ وڌيڪ هڪجهڙائي رکن. ڪسٽمر ڊيٽا، مثال طور، الڳ ٿي سگھي ٿو انھن جي جڳھ جي بنياد تي.

ڪلسٽرنگ الگورتھم ۾ ھيٺيون شامل آھن:

ڊي بي-اسڪين
K- مطلب
ميني بيچ K- مطلب
اسپيڪٽرل ڪلسترنگ

4. ماڊل چونڊ

ماڊل چونڊ الورورٿمز ڊيٽا سائنس جي شروعاتن ۾ استعمال لاءِ موازن، صحيح ڪرڻ، ۽ بهترين پيٽرول ۽ ماڊلز کي چونڊڻ جا طريقا مهيا ڪن ٿا. ڏنل ڊيٽا، ماڊل جي چونڊ اميدوار ماڊل جي هڪ گروپ مان شمارياتي ماڊل چونڊڻ جو مسئلو آهي. سڀ کان وڌيڪ بنيادي حالتن ۾، ڊيٽا جو اڳ ۾ موجود مجموعو حساب ۾ ورتو وڃي ٿو. بهرحال، ڪم ۾ تجربن جي ڊيزائن پڻ شامل ٿي سگھي ٿي ته جيئن حاصل ڪيل ڊيٽا ماڊل جي چونڊ جي مسئلي لاء مناسب آهي.

ماڊل چونڊ جا ماڊل جيڪي پيٽرول کي ترتيب ڏيڻ سان درستگي کي بهتر ڪري سگھن ٿا:

ڪراس-تصديق
گرڊ ڳولا
ميٽرڪ

5. Dimensionality گھٽتائي

ڊيٽا جي منتقلي هڪ اعلي-طولياتي اسپيس کان گهٽ-ڊائيميشنل اسپيس ڏانهن، انهي ڪري ته گهٽ-طولياتي نمائندگي اصل ڊيٽا جي ڪجهه اهم پهلوئن کي محفوظ ڪري، مثالي طور تي ان جي موروثي طول و عرض جي ويجهو، جنهن کي dimensionality reduction طور سڃاتو وڃي ٿو. تجزيي لاءِ بي ترتيب متغيرن جو تعداد گھٽجي ويندو آھي جڏھن طول و عرض گھٽجي ويندو آھي. ٻاهرين ڊيٽا، مثال طور، تصور جي ڪارڪردگي کي بهتر ڪرڻ لاء سمجهي نه ٿو سگهجي.

Dimensionality Reduction algorithm ۾ ھيٺيون شامل آھن:

خصوصيت منتخب ڪريو
پرنسپل جزو جو تجزيو (PCA)

انسٽال ڪرڻ Scikit-learn

NumPy، SciPy، Matplotlib، IPython، Sympy، ۽ Pandas گھربل آھن انسٽال ڪرڻ کان پھريائين Scikit-learn. اچو ته ان کي انسٽال ڪريون ڪنسول مان پائپ استعمال ڪندي (ڪم رڳو ونڊوز لاءِ).

انسٽال ڪريو

اچو ته انسٽال ڪريون Scikit-learn هاڻي ته اسان گهربل لائبرريون انسٽال ڪيون آهن.

Sklearn انسٽال ڪرڻ

مضمونن جي

Scikit-learn، ڪڏهن ڪڏهن sklearn طور سڃاتو وڃي ٿو، مشين لرننگ ماڊل ۽ شمارياتي ماڊلنگ کي لاڳو ڪرڻ لاءِ هڪ پائٿون ٽول ڪٽ آهي. اسان ان کي استعمال ڪري سگھون ٿا ڪيترن ئي مشين لرننگ ماڊل ٺاهڻ لاءِ رجعت، درجه بندي، ۽ ڪلسٽرنگ، ۽ گڏوگڏ شمارياتي اوزار انهن ماڊلز جي تشخيص لاءِ. ان ۾ پڻ طول و عرض جي گھٽتائي، خصوصيت جي چونڊ، خصوصيت ڪڍڻ، ensemble طريقن، ۽ بلٽ ان ڊيٽا سيٽ شامل آهن. اسان انهن مان هر هڪ خاصيتن جي تحقيق ڪنداسين هڪ وقت ۾.

1. ڊيٽا سيٽ درآمد ڪرڻ

Scikit-learn ۾ ڪيترائي اڳ ۾ ٺهيل ڊيٽا سيٽ شامل آهن، جهڙوڪ iris dataset، home price dataset، titanic dataset، وغيره. انهن ڊيٽا سيٽن جا اھم فائدا آھن ته اھي سمجھڻ ۾ آسان آھن ۽ فوري طور تي ايم ايل ماڊلز کي ترقي ڪرڻ لاءِ استعمال ڪري سگھجن ٿا. اهي datasets novices لاء مناسب آهن. ساڳي طرح، توھان استعمال ڪري سگھو ٿا sklearn اضافي ڊيٽا سيٽ درآمد ڪرڻ لاءِ. ساڳي طرح، توھان ان کي استعمال ڪري سگھوٿا اضافي ڊيٽا سيٽ درآمد ڪرڻ لاءِ.

Dataset

2. ٽريننگ ۽ ٽيسٽنگ لاءِ ڊيٽا سيٽ کي ورهائڻ

Sklearn ۾ ڊيٽا سيٽ کي ورهائڻ جي صلاحيت شامل آهي تربيت ۽ جانچ جي حصن ۾. ڊيٽا سيٽ کي ورهائڻ جي ضرورت آهي اڳڪٿي جي ڪارڪردگي جي غيرجانبدارانه تشخيص لاءِ. اسان وضاحت ڪري سگھون ٿا ته اسان جي ڊيٽا جو ڪيترو حصو ٽرين ۽ ٽيسٽ ڊيٽا سيٽن ۾ شامل ڪيو وڃي. اسان ٽرين ٽيسٽ اسپلٽ استعمال ڪندي ڊيٽا سيٽ کي ورهايو جيئن ٽرين سيٽ ڊيٽا جو 80٪ ۽ ٽيسٽ سيٽ 20٪ تي مشتمل آهي. ڊيٽا سيٽ کي هن ريت ورهائي سگهجي ٿو:

ورهائڻ

3. لينر ريگريشن

لينر ريگريشن هڪ نگراني ڪيل سکيا تي ٻڌل مشين لرننگ ٽيڪنڪ آهي. اهو هڪ رجعت جي نوڪري ڪندو آهي. آزاد متغيرن جي بنياد تي، ريگريشن ماڊل هڪ مقصد جي اڳڪٿي جي قيمت. اهو اڪثر ڪري استعمال ڪيو ويندو آهي متغير ۽ اڳڪٿي جي وچ ۾ لنڪ جو تعين ڪرڻ لاءِ. مختلف رجعت جا ماڊل ڪنيڪشن جي قسم جي لحاظ کان مختلف آھن جيڪي اھي انحصار ۽ آزاد متغيرن جي وچ ۾ جائزو وٺندا آھن، ۽ گڏوگڏ استعمال ٿيل آزاد متغيرن جو تعداد. اسان صرف sklearn استعمال ڪندي لينيئر ريگريشن ماڊل ٺاهي سگھون ٿا:

ليڪري رجسٽريشن

4. لاجسٽڪ ريگريشن

هڪ عام درجه بندي جو طريقو منطقي رجعت آهي. اهو هڪ ئي خاندان ۾ آهي جيئن پولينوميل ۽ لڪير ريگريشن ۽ لڪير طبقي جي خاندان سان تعلق رکي ٿو. لاجسٽڪ ريگريشن جا نتيجا سمجھڻ لاءِ سادا آھن ۽ حساب ڪرڻ ۾ تڪڙو آھن. ساڳيء طرح لڪير ريگريشن جي طور تي، لوجسٽڪ ريگريشن هڪ نگراني ٿيل ريگريشن ٽيڪنڪ آهي. ٻاھر نڪرندڙ متغير درجه بندي آھي، تنھنڪري اھو ئي فرق آھي. اهو طئي ڪري سگهي ٿو ته مريض کي دل جي بيماري آهي يا نه.

مختلف درجه بندي جا مسئلا، جهڙوڪ اسپام جي ڳولا، حل ٿي سگھن ٿيون لوجسٽڪ ريگريشن استعمال ڪندي. ذیابيطس جي اڳڪٿي ڪرڻ، اهو طئي ڪرڻ ته ڇا هڪ صارف هڪ مخصوص پراڊڪٽ خريد ڪندو يا هڪ رقيب ڏانهن رخ ڪندو، اهو طئي ڪرڻ ته ڇا صارف هڪ مخصوص مارڪيٽنگ لنڪ تي ڪلڪ ڪندو، ۽ ٻيا ڪيترائي منظرنامي صرف چند مثال آهن.

منطقي ريگريشن

5. فيصلي جو وڻ

سڀ کان وڌيڪ طاقتور ۽ وڏي پيماني تي استعمال ٿيل درجه بندي ۽ پيش گوئي جي ٽيڪنڪ فيصلي جو وڻ آهي. هڪ فيصلي جو وڻ هڪ وڻ جي جوڙجڪ آهي جيڪو هڪ فلو چارٽ وانگر ڏسڻ ۾ اچي ٿو، هر اندروني نوڊ هڪ خاصيت تي ٽيسٽ جي نمائندگي ڪري ٿو، هر شاخ ٽيسٽ جي نتيجي جي نمائندگي ڪري ٿي، ۽ هر ليف نوڊ (ٽرمينل نوڊ) هڪ ڪلاس ليبل رکي ٿو.

جڏهن انحصار متغيرن جو آزاد متغيرن سان لڪير وارو تعلق نه هوندو آهي، يعني جڏهن لڪير رجعت صحيح نتيجا پيدا نه ڪندو آهي، فيصلي جا وڻ فائديمند هوندا آهن. DecisionTreeRegression() اعتراض ساڳئي طريقي سان استعمال ٿي سگھي ٿو فيصلي واري وڻ کي استعمال ڪرڻ لاءِ رجعت لاءِ.

فيصلي جو وڻ

6. بي ترتيب ٻيلو

هڪ بي ترتيب ٻيلو آهي a مشين جي سکيا رجعت ۽ درجه بندي جي مسئلن کي حل ڪرڻ لاء طريقا. اهو ensemble سکيا جو استعمال ڪري ٿو، جيڪو هڪ ٽيڪنڪ آهي جيڪو پيچيده مسئلن کي حل ڪرڻ لاء ڪيترن ئي طبقي کي گڏ ڪري ٿو. هڪ بي ترتيب ٻيلو طريقو فيصلو وڻن جي وڏي تعداد مان ٺهيل آهي. اهو استعمال ٿي سگھي ٿو قرض جي درخواستن کي درجه بندي ڪرڻ، دوکي جي رويي کي ڳولڻ، ۽ بيماري جي ڀڃڪڙي جي توقع ڪرڻ.

بي ترتيب ٻيلو

7. مونجهارو ميٽرڪس

هڪ مونجهارو ميٽرڪس هڪ ٽيبل آهي جيڪو درجه بندي ماڊل ڪارڪردگي کي بيان ڪرڻ لاء استعمال ڪيو ويندو آهي. هيٺيون چار لفظ استعمال ڪيا ويا آهن مونجهاري جي ميٽرڪس کي جانچڻ لاءِ:

صحيح مثبت: اهو ظاهر ڪري ٿو ته ماڊل هڪ سازگار نتيجو پيش ڪيو ۽ اهو صحيح هو.
صحيح منفي: اهو ظاهر ڪري ٿو ته ماڊل هڪ خراب نتيجو پيش ڪيو ۽ اهو صحيح هو.
غلط مثبت: اهو ظاهر ڪري ٿو ته ماڊل هڪ سازگار نتيجو جي توقع ڪئي پر اهو واقعي هڪ منفي هو.
غلط منفي: اهو ظاهر ڪري ٿو ته ماڊل هڪ منفي نتيجو جي توقع ڪئي، جڏهن ته نتيجو واقعي مثبت هو.

مونجهارو ميٽرڪس فوٽو

مونجهارو ميٽرڪس تي عملدرآمد:

مونجهارو ميٽرڪس

گڻ

اهو استعمال ڪرڻ آسان آهي.
Scikit-learn پيڪيج انتهائي موافق ۽ ڪارائتو آهي، حقيقي دنيا جي مقصدن کي پورو ڪري ٿو جهڙوڪ صارف جي رويي جي اڳڪٿي، نيورويميج ڊولپمينٽ، وغيره.
صارف جيڪي الورورٿمس کي پنھنجي پليٽ فارم سان ڳنڍڻ چاھيندا آھن اھي تفصيلي API دستاويز ڳوليندا Scikit-learn ويب سائيٽ تي.
لاتعداد ليکڪ، سهڪاريندڙ، ۽ هڪ وڏي عالمي آن لائين ڪميونٽي جي مدد ۽ اسڪِٽ-لرن کي تازه ترين رکو.

اوگڻ

اهو نه آهي مثالي اختيار ۾ گہرائي مطالعي لاء.

ٿڪل

Scikit-learn هر ڊيٽا سائنسدان لاءِ هڪ نازڪ پيڪيج آهي جنهن تي مضبوط گرفت ۽ ڪجهه تجربو آهي. ھي ھدايت ڪرڻ گھرجي توھان جي مدد ڪرڻ سان ڊيٽا جي استعمال سان sklearn. Scikit-learn جون ڪيتريون ئي ٻيون صلاحيتون آهن جيڪي توهان دريافت ڪندا جيئن توهان پنهنجي ڊيٽا سائنس ايڊونچر ذريعي ترقي ڪندا. تبصرن ۾ پنهنجا خيال حصيداري ڪريو.

اسڪِٽ-لرن لاءِ شروعاتي گائيڊ

ڇا آھي اسڪائيڪو-سکو?