دليل المبتدئين إلى Scikit-Learn

جدول المحتويات[يخفي][يعرض]

ما هو سكيكيت ليرن؟
تطبيقات مكتبة Scikit-Learn+-
تثبيت Scikit-Learn
المميزات +-
الايجابيات
سلبيات
وفي الختام

إذا كنت مبرمجًا بلغة Python أو إذا كنت تبحث عن مجموعة أدوات قوية لاستخدامها في إدخال التعلم الآلي في نظام الإنتاج ، فإن Scikit-Learn هي مكتبة تحتاج إلى التحقق منها.

إن Scikit-Learn موثق جيدًا وسهل الاستخدام ، سواء كنت جديدًا في التعلم الآلي ، أو ترغب في النهوض والتشغيل بسرعة ، أو ترغب في استخدام أحدث أداة بحث ML.

يتيح لك إنشاء نموذج بيانات تنبئي في بضعة أسطر فقط من التعليمات البرمجية ثم يستخدم هذا النموذج ليناسب بياناتك كمكتبة عالية المستوى. إنه مرن ويعمل بشكل جيد مع الآخرين مكتبات بايثون مثل Matplotlib للرسم البياني ، و NumPy لاتجاه الصفيف ، والباندا لتصور البيانات.

في هذا الدليل ، ستتعرف على كل ما هو عليه ، وكيف يمكنك استخدامه ، إلى جانب إيجابياته وسلبياته.

ما هي تفاصيل Scikit تعلم?

تقدم Scikit-Learn (المعروفة أيضًا باسم sklearn) مجموعة متنوعة من النماذج الإحصائية والتعلم الآلي. على عكس معظم الوحدات ، تم تطوير sklearn في Python بدلاً من C. على الرغم من تطويره في Python ، فإن كفاءة sklearn تُعزى إلى استخدامه لـ NumPy لعمليات الجبر الخطي عالية الأداء وعمليات الصفيف.

تم إنشاء Scikit-Learn كجزء من مشروع Summer of Code من Google ومنذ ذلك الحين جعلت حياة الملايين من علماء البيانات المتمركزين حول Python في جميع أنحاء العالم أكثر بساطة. يركز هذا القسم من السلسلة على تقديم المكتبة والتركيز على عنصر واحد - تحويلات مجموعة البيانات ، وهي خطوة أساسية وحيوية يجب اتخاذها قبل تطوير نموذج التنبؤ.

سكليرن

تعتمد المكتبة على SciPy (Scientific Python) ، والتي يجب تثبيتها قبل أن تتمكن من استخدام scikit-Learn. يحتوي هذا المكدس على العناصر التالية:

NumPy: حزمة مصفوفة ذات أبعاد n القياسية في Python
SciPy: إنها حزمة أساسية للحوسبة العلمية
الباندا: هياكل البيانات وتحليلها
Matplotlib: إنها مكتبة قوية للتخطيط ثنائي الأبعاد / ثلاثي الأبعاد
Sympy: الرياضيات الرمزية
IPython: وحدة تحكم تفاعلية محسّنة

تطبيقات مكتبة Scikit-Learn

Scikit-Learn عبارة عن حزمة Python مفتوحة المصدر مع تحليل البيانات المعقدة وميزات التعدين. يأتي مع عدد كبير من الخوارزميات المدمجة لمساعدتك في تحقيق أقصى استفادة من مشاريع علوم البيانات الخاصة بك. تُستخدم مكتبة Scikit-Learn بالطرق التالية.

1. انحسار

تحليل الانحدار هو أسلوب إحصائي لتحليل وفهم العلاقة بين متغيرين أو أكثر. تساعد الطريقة المستخدمة لإجراء تحليل الانحدار في تحديد العناصر ذات الصلة ، والتي يمكن تجاهلها ، وكيفية تفاعلها. يمكن استخدام تقنيات الانحدار ، على سبيل المثال ، لفهم سلوك أسعار الأسهم بشكل أفضل.

تشمل خوارزميات الانحدار ما يلي:

الانحدار الخطي
انحدار ريدج
انحدار لاسو
انحدار شجرة القرار
غابة عشوائية
دعم آلات المتجهات (SVM)

2. تصنيف

طريقة التصنيف هي نهج التعلم الخاضع للإشراف الذي يستخدم بيانات التدريب لتحديد فئة الملاحظات الجديدة. تتعلم خوارزمية في التصنيف من المعطى بيانات أو الملاحظات ثم تصنف الملاحظات الإضافية في فئة واحدة من عدة فئات أو مجموعات. يمكن استخدامها ، على سبيل المثال ، لتصنيف اتصالات البريد الإلكتروني على أنها بريد عشوائي أم لا.

تشمل خوارزميات التصنيف ما يلي:

الانحدار اللوجستي
K- أقرب الجيران
دعم شاحنات النقل
شجرة القرار
غابة عشوائية

3. التجميع

تُستخدم خوارزميات التجميع في Scikit-Learn لترتيب البيانات ذات الخصائص المتشابهة تلقائيًا في مجموعات. التجميع هو عملية تجميع مجموعة من العناصر بحيث تكون تلك الموجودة في نفس المجموعة أكثر تشابهًا مع تلك الموجودة في المجموعات الأخرى. قد يتم فصل بيانات العملاء ، على سبيل المثال ، بناءً على موقعهم.

تتضمن خوارزميات التجميع ما يلي:

DB-SCAN
K- الوسائل
وسائل K-Batch المصغرة
التجميع الطيفي

4. اختيار النموذج

توفر خوارزميات اختيار النموذج طرقًا للمقارنة والتحقق من صحة واختيار المعلمات والنماذج المثلى لاستخدامها في مبادرات علوم البيانات. بالنظر إلى البيانات ، فإن اختيار النموذج هو مشكلة اختيار نموذج إحصائي من مجموعة من النماذج المرشحة. في معظم الظروف الأساسية ، يتم أخذ مجموعة موجودة مسبقًا من البيانات في الاعتبار. ومع ذلك ، قد تتضمن المهمة أيضًا تصميم التجارب بحيث تكون البيانات المكتسبة مناسبة تمامًا لمشكلة اختيار النموذج.

تشمل وحدات اختيار النموذج التي يمكنها تحسين الدقة عن طريق ضبط المعلمات ما يلي:

عبر المصادقة
شبكة البحث
المقاييس

5. تخفيض الأبعاد

يُعرف نقل البيانات من مساحة عالية الأبعاد إلى مساحة منخفضة الأبعاد بحيث يحافظ التمثيل المنخفض الأبعاد على بعض الجوانب المهمة للبيانات الأصلية ، بالقرب من بُعدها المتأصل بشكل مثالي ، باسم تقليل الأبعاد. يتم تقليل عدد المتغيرات العشوائية للتحليل عند تقليل الأبعاد. البيانات البعيدة ، على سبيل المثال ، لا يمكن اعتبارها لتحسين كفاءة التصورات.

تتضمن خوارزمية تقليل الأبعاد ما يلي:

اختيار ميزة
تحليل المكونات الرئيسية (PCA)

تثبيت Scikit-Learn

يلزم تثبيت NumPy و SciPy و Matplotlib و IPython و Sympy و Pandas قبل استخدام Scikit-Learn. دعنا نثبتها باستخدام نقطة من وحدة التحكم (تعمل فقط لنظام التشغيل Windows).

تثبيت

لنقم بتثبيت Scikit-Learn الآن بعد أن قمنا بتثبيت المكتبات المطلوبة.

تثبيت Sklearn

المميزات

Scikit-Learn ، المعروف أحيانًا باسم sklearn ، هو مجموعة أدوات Python لتنفيذ نماذج التعلم الآلي والنمذجة الإحصائية. قد نستخدمها لإنشاء نماذج متعددة للتعلم الآلي للانحدار والتصنيف والتكتل ، بالإضافة إلى الأدوات الإحصائية لتقييم هذه النماذج. ويشمل أيضًا تقليل الأبعاد ، واختيار الميزة ، واستخراج الميزات ، وأساليب التجميع ، ومجموعات البيانات المضمنة. سنقوم بالتحقيق في كل من هذه الصفات واحدة تلو الأخرى.

1. استيراد مجموعات البيانات

يتضمن Scikit-Learn عددًا من مجموعات البيانات المعدة مسبقًا ، مثل مجموعة بيانات القزحية ومجموعة بيانات أسعار المنازل ومجموعة البيانات العملاقة وما إلى ذلك. تتمثل المزايا الرئيسية لمجموعات البيانات هذه في سهولة فهمها ويمكن استخدامها لتطوير نماذج ML على الفور. مجموعات البيانات هذه مناسبة للمبتدئين. وبالمثل ، يمكنك استخدام sklearn لاستيراد مجموعات بيانات إضافية. وبالمثل ، يمكنك استخدامه لاستيراد مجموعات بيانات إضافية.

بيانات

2. تقسيم مجموعة البيانات للتدريب والاختبار

تضمن Sklearn القدرة على تقسيم مجموعة البيانات إلى أقسام تدريب واختبار. مطلوب تقسيم مجموعة البيانات لتقييم غير متحيز لأداء التنبؤ. قد نحدد مقدار البيانات التي يجب تضمينها في مجموعات بيانات القطار والاختبار. قمنا بتقسيم مجموعة البيانات باستخدام تقسيم اختبار القطار بحيث تضم مجموعة القطار 80٪ من البيانات ومجموعة الاختبار 20٪. يمكن تقسيم مجموعة البيانات على النحو التالي:

انشقاق

3. الانحدار الخطي

الانحدار الخطي هو أسلوب تعلم آلي خاضع للإشراف يعتمد على التعلم. ينفذ وظيفة الانحدار. استنادًا إلى المتغيرات المستقلة ، يقوم الانحدار بنمذجة قيمة توقع الهدف. يستخدم في الغالب لتحديد الارتباط بين المتغيرات والتنبؤ. تختلف نماذج الانحدار المختلفة من حيث نوع الاتصال الذي تقيمه بين المتغيرات التابعة والمستقلة ، بالإضافة إلى عدد المتغيرات المستقلة المستخدمة. يمكننا ببساطة إنشاء نموذج الانحدار الخطي باستخدام sklearn على النحو التالي:

الانحدار الخطي

4. الانحدار اللوجستي

نهج التصنيف المشترك هو الانحدار اللوجستي. إنه ينتمي إلى نفس عائلة الانحدار متعدد الحدود والخطي وينتمي إلى عائلة المصنف الخطي. نتائج الانحدار اللوجستي سهلة الفهم وسريعة الحساب. كما هو الحال مع الانحدار الخطي ، فإن الانحدار اللوجستي هو أسلوب انحدار خاضع للإشراف. متغير الإخراج قاطع ، لذلك هذا هو الاختلاف الوحيد. يمكنه تحديد ما إذا كان المريض مصابًا بمرض في القلب أم لا.

يمكن حل مشكلات التصنيف المختلفة ، مثل اكتشاف البريد العشوائي ، باستخدام الانحدار اللوجستي. التنبؤ بمرض السكري ، وتحديد ما إذا كان المستهلك سيشتري منتجًا معينًا أو يتحول إلى منافس ، وتحديد ما إذا كان المستخدم سينقر على رابط تسويقي معين ، والعديد من السيناريوهات هي مجرد أمثلة قليلة.

الانحدار اللوجستي

5. شجرة القرار

أقوى تقنيات التصنيف والتنبؤ وأكثرها استخدامًا هي شجرة القرار. شجرة القرار عبارة عن هيكل شجرة يشبه مخطط انسيابي ، حيث تمثل كل عقدة داخلية اختبارًا على سمة ، ويمثل كل فرع نتيجة الاختبار ، وكل عقدة طرفية (عقدة طرفية) تحمل تسمية فئة.

عندما لا يكون للمتغيرات التابعة علاقة خطية مع المتغيرات المستقلة ، أي عندما لا ينتج الانحدار الخطي نتائج صحيحة ، تكون أشجار القرار مفيدة. يمكن استخدام كائن DecisionTreeRegression () بطريقة مماثلة لاستخدام شجرة قرار للانحدار.

شجرة القرار

6. الغابة العشوائية

الغابة العشوائية هي ملف آلة التعلم نهج لحل قضايا الانحدار والتصنيف. يستفيد من التعلم الجماعي ، وهو أسلوب يجمع بين العديد من المصنفات لحل المشكلات المعقدة. تتكون طريقة الغابة العشوائية من عدد كبير من أشجار القرار. يمكن استخدامه لتصنيف طلبات القروض ، واكتشاف السلوك الاحتيالي ، وتوقع تفشي الأمراض.

غابة عشوائية

7. مصفوفة الارتباك

مصفوفة الارتباك هي جدول يستخدم لوصف أداء نموذج التصنيف. يتم استخدام الكلمات الأربع التالية لفحص مصفوفة الارتباك:

إيجابي حقيقي: يدل على أن النموذج توقع نتيجة إيجابية وكان صحيحًا.
سلبي حقيقي: يدل على أن النموذج توقع نتيجة سيئة وكانت صحيحة.
إيجابية كاذبة: تشير إلى أن النموذج توقع نتيجة إيجابية لكنها كانت سلبية حقًا.
سلبي كاذب: يدل على أن النموذج توقع نتيجة سلبية ، بينما كانت النتيجة إيجابية حقًا.

مصفوفة الارتباك صور

تنفيذ مصفوفة الارتباك:

مقاييس الارتباك

الايجابيات

إنه سهل الاستخدام.
حزمة Scikit-Learn قابلة للتكيف ومفيدة للغاية ، وتخدم أهدافًا واقعية مثل التنبؤ بسلوك المستهلك ، وتطوير الصورة العصبية ، وما إلى ذلك.
سيجد المستخدمون الذين يرغبون في ربط الخوارزميات بمنصاتهم وثائق مفصلة لواجهة برمجة التطبيقات على موقع Scikit-Learn.
يدعم العديد من المؤلفين والمتعاونين ومجتمع عالمي كبير عبر الإنترنت ويبقي Scikit-Learn محدثًا.

سلبيات

إنه ليس الخيار المثالي للدراسة المتعمقة.

وفي الختام

Scikit-Learn عبارة عن حزمة مهمة لكل عالم بيانات يتمتع بفهم قوي وبعض الخبرة. يجب أن يساعدك هذا الدليل في معالجة البيانات باستخدام sklearn. هناك العديد من إمكانيات Scikit-Learn التي ستكتشفها مع تقدمك في مغامرة علوم البيانات. مشاركة أفكارك في التعليقات.

دليل المبتدئين إلى Scikit-Learn

ما هي تفاصيل Scikit تعلم?