أهم 40+ أسئلة مقابلة حول تعلم الآلة (2024)

جدول المحتويات[يخفي][يعرض]

1. اشرح الاختلافات بين التعلم الآلي والذكاء الاصطناعي والتعلم العميق.
2. يرجى وصف الأنواع المختلفة للتعلم الآلي.
3. ما هي مقايضة التحيز مقابل التباين؟
4. تطورت خوارزميات التعلم الآلي بشكل ملحوظ بمرور الوقت. كيف يختار المرء الخوارزمية الصحيحة لاستخدام مجموعة بيانات معينة؟
5. كيف يختلف التغاير والارتباط؟
6. في التعلم الآلي ، ماذا يعني التجميع؟
7. ما هي خوارزمية التعلم الآلي المفضلة لديك؟
8. الانحدار الخطي في التعلم الآلي: ما هو؟
9. وصف الاختلافات بين KNN و k-mean clustering.
10. ماذا يعني "تحيز الاختيار" بالنسبة لك؟
11. ما هي بالضبط نظرية بايز؟
12. في نموذج التعلم الآلي ، ما المقصود بـ "مجموعة التدريب" و "مجموعة الاختبار"؟
13. ما هي الفرضية في التعلم الآلي؟
14. ماذا يعني فرط التعلم الآلي ، وكيف يمكن منعه؟
15. ما هي بالضبط مصنفات Naive Bayes؟
16. ماذا تعني وظائف التكلفة ووظائف الخسارة؟
17. ما الذي يميز النموذج التوليدي عن النموذج التمييزي؟
18. وصف الاختلافات بين أخطاء النوع الأول والنوع الثاني.
19. في التعلم الآلي ، ما هي تقنية تعلم المجموعة؟
20. ما هي بالضبط النماذج البارامترية؟ أعط مثالا.
21. وصف التصفية التعاونية. وكذلك التصفية على أساس المحتوى؟
22. ماذا تقصد بالضبط بالسلسلة الزمنية؟
23. وصف الاختلافات بين تعزيز التدرج وخوارزميات الغابة العشوائية.
24. لماذا تحتاج مصفوفة الارتباك؟ ما هذا؟
25. ما هو بالضبط تحليل المكون الأساسي؟
26. لماذا يعتبر دوران المكونات بالغ الأهمية في PCA (تحليل المكون الرئيسي)؟
27. كيف يختلف التنظيم والتطبيع عن بعضهما البعض؟
28. كيف يختلف التطبيع والتوحيد عن بعضهما البعض؟
29. ماذا يعني بالضبط "عامل تضخم التباين"؟
30. بناءً على حجم مجموعة التدريب ، كيف تختار المصنف؟
31. ما هي الخوارزمية في التعلم الآلي التي يشار إليها باسم "المتعلم الكسول" ولماذا؟
32. ما هو منحنى ROC و AUC؟
33. ما هي hyperparameters؟ ما الذي يجعلها فريدة من نوعها من معلمات النموذج؟
34. ماذا تعني F1 Score ، الاسترجاع ، والدقة؟
35. ما هو بالضبط التحقق المتبادل؟
36. لنفترض أنك اكتشفت أن نموذجك به تباين كبير. ما هي الخوارزمية ، برأيك ، الأنسب للتعامل مع هذا الموقف؟
37. ما الذي يميز انحدار ريدج عن انحدار اللاسو؟
38. أيهما أكثر أهمية: أداء النموذج أم دقة النموذج؟ أي واحد ولماذا تفضله؟
39. كيف يمكنك إدارة مجموعة البيانات مع عدم المساواة؟
40. كيف تميز بين التعزيز والتعبئة؟
41. شرح الفروق بين التعلم الاستقرائي والاستنتاجي.
وفي الختام

تستخدم الشركات أحدث التقنيات ، مثل الذكاء الاصطناعي (AI) والتعلم الآلي ، لزيادة إمكانية الوصول إلى المعلومات والخدمات للأفراد.

يتم اعتماد هذه التقنيات من قبل مجموعة متنوعة من الصناعات ، بما في ذلك البنوك والتمويل وتجارة التجزئة والتصنيع والرعاية الصحية.

يعد علماء البيانات ومهندسو الذكاء الاصطناعي ومهندسو التعلم الآلي ومحللو البيانات من أكثر الأدوار التنظيمية المطلوبة في استخدام الذكاء الاصطناعي.

سيقودك هذا المنشور من خلال مجموعة متنوعة من آلة التعلم أسئلة المقابلة ، من الأساسية إلى المعقدة ، لمساعدتك على الاستعداد لأي أسئلة يمكن أن تطرح عليك عند البحث عن وظيفتك المثالية.

1. اشرح الاختلافات بين التعلم الآلي والذكاء الاصطناعي والتعلم العميق.

يستخدم الذكاء الاصطناعي مجموعة متنوعة من أساليب التعلم الآلي والتعلم العميق التي تسمح لأنظمة الكمبيوتر بتنفيذ المهام باستخدام ذكاء يشبه الإنسان بمنطق وقواعد.

يستخدم التعلم الآلي مجموعة متنوعة من الإحصائيات وأساليب التعلم العميق لتمكين الآلات من التعلم من أدائها السابق وتصبح أكثر مهارة في أداء مهام معينة بمفردها دون إشراف بشري.

التعلم العميق عبارة عن مجموعة من الخوارزميات التي تسمح للبرنامج بالتعلم من نفسه وتنفيذ مجموعة متنوعة من الوظائف التجارية ، مثل التعرف على الصوت والصورة.

الأنظمة التي تكشف عن طبقاتها المتعددة الشبكات العصبية بكميات هائلة من البيانات للتعلم قادرة على القيام بالتعلم العميق.

2. يرجى وصف الأنواع المختلفة للتعلم الآلي.

يوجد التعلم الآلي في ثلاثة أنواع مختلفة على نطاق واسع:

التعلم الخاضع للإشراف: يُنشئ النموذج تنبؤات أو أحكامًا باستخدام البيانات المصنفة أو التاريخية في التعلم الآلي الخاضع للإشراف. يُشار إلى مجموعات البيانات التي تم تمييزها أو تصنيفها من أجل زيادة معناها بالبيانات المصنفة.
التعلم غير الخاضع للإشراف: ليس لدينا بيانات مصنفة للتعلم غير الخاضع للإشراف. في البيانات الواردة ، يمكن للنموذج العثور على الأنماط والشذوذ والارتباطات.
التعلم المعزز: يمكن للنموذج تعلم باستخدام التعزيز التعلم والمكافآت التي حصلت عليها مقابل سلوكها السابق.

3. ما هي مقايضة التحيز مقابل التباين؟

يحدث فرط التخصيص نتيجة للتحيز ، وهو الدرجة التي يلائمها النموذج البيانات. التحيز ناتج عن افتراضات غير صحيحة أو بسيطة للغاية في ملف خوارزمية التعلم الآلي.

يشير التباين إلى الأخطاء الناتجة عن التعقيد في خوارزمية تعلم الآلة ، والتي تنتج حساسية لدرجات كبيرة من التباين في بيانات التدريب والتجهيز الزائد.

التباين هو مدى اختلاف النموذج اعتمادًا على المدخلات.

بمعنى آخر ، النماذج الأساسية متحيزة للغاية ولكنها مستقرة (تباين منخفض). يعد التجهيز الزائد مشكلة في النماذج المعقدة ، على الرغم من أنها مع ذلك تلتقط واقع النموذج (انحياز منخفض).

من أجل منع كل من التباين العالي والتحيز العالي ، فإن المفاضلة بين التحيز والتباين ضرورية لتقليل الخطأ على أفضل وجه.

4. تطورت خوارزميات التعلم الآلي بشكل ملحوظ بمرور الوقت. كيف يختار المرء الخوارزمية الصحيحة لاستخدام مجموعة بيانات معينة؟

تعتمد تقنية التعلم الآلي التي يجب استخدامها فقط على نوع البيانات في مجموعة بيانات معينة.

عندما تكون البيانات خطية ، يتم استخدام الانحدار الخطي. ستعمل طريقة التعبئة بشكل أفضل إذا أشارت البيانات إلى عدم الخطية. يمكننا استخدام أشجار القرار أو SVM إذا كان لابد من تقييم البيانات أو تفسيرها لأغراض تجارية.

قد تكون الشبكات العصبية مفيدة للحصول على إجابة دقيقة إذا كانت مجموعة البيانات تتضمن صورًا ومقاطع فيديو وصوتًا.

لا يمكن أن يتم اختيار الخوارزمية لظروف معينة أو جمع البيانات على مقياس واحد فقط.

بهدف تطوير أفضل طريقة ملائمة ، يجب علينا أولاً فحص البيانات باستخدام تحليل البيانات الاستكشافية (EDA) وفهم الهدف المتمثل في استخدام مجموعة البيانات.

5. كيف يختلف التغاير والارتباط؟

يقوم التباين بتقييم كيفية ارتباط متغيرين ببعضهما البعض وكيف يمكن أن يتغير أحدهما استجابة للتغيرات في الآخر.

إذا كانت النتيجة موجبة ، فإنها تشير إلى وجود ارتباط مباشر بين المتغيرات وأن المرء سيرتفع أو ينقص بزيادة أو نقصان المتغير الأساسي ، على افتراض أن جميع الشروط الأخرى تظل ثابتة.

يقيس الارتباط الارتباط بين متغيرين عشوائيين وله ثلاث قيم مميزة فقط: 1 و 0 و -1.

6. في التعلم الآلي ، ماذا يعني التجميع؟

تسمى طرق التعلم غير الخاضعة للإشراف التي تجمع نقاط البيانات معًا التجميع. من خلال مجموعة من نقاط البيانات ، يمكن تطبيق تقنية التجميع.

يمكنك تجميع جميع نقاط البيانات وفقًا لوظائفها باستخدام هذه الإستراتيجية.

تتشابه ميزات وخصائص نقاط البيانات التي تقع في نفس الفئة ، بينما تختلف ميزات وخصائص نقاط البيانات التي تقع في مجموعات منفصلة.

يمكن استخدام هذا النهج لتحليل البيانات الإحصائية.

7. ما هي خوارزمية التعلم الآلي المفضلة لديك؟

لديك فرصة لإظهار تفضيلاتك ومواهبك الفريدة في هذا السؤال ، بالإضافة إلى معرفتك الشاملة بالعديد من تقنيات التعلم الآلي.

فيما يلي بعض خوارزميات التعلم الآلي النموذجية التي يجب التفكير فيها:

الانحدارالخطي
الانحدار اللوجستي
ساذجة بايز
أشجار القرار
ك يعني
خوارزمية الغابة العشوائية
K- الجار الأقرب (KNN)

8. الانحدار الخطي في التعلم الآلي: ما هو؟

خوارزمية التعلم الآلي الخاضعة للإشراف هي الانحدار الخطي.

يتم استخدامه في التحليل التنبئي لتحديد الارتباط الخطي بين المتغيرات التابعة والمستقلة.

تكون معادلة الانحدار الخطي كما يلي:

ص = أ + بكس

حيث:

يُطلق على المُدخل أو المتغير المستقل اسم X.
المتغير التابع أو الناتج هو Y.
معامل س هو ب ، وتقاطعها أ.

9. وصف الاختلافات بين KNN و k-mean clustering.

التمييز الأساسي هو أن KNN (طريقة تصنيف ، التعلم الخاضع للإشراف) تحتاج إلى نقاط محددة بينما لا تحتاج k-mean (خوارزمية التجميع ، التعلم غير الخاضع للإشراف).

يمكنك تصنيف البيانات المصنفة إلى نقطة غير مسماة باستخدام K-Nearest Neighbours. K- يعني التجميع يستخدم متوسط المسافة بين النقاط لمعرفة كيفية تجميع النقاط غير المسماة.

10. ماذا يعني "تحيز الاختيار" بالنسبة لك؟

يرجع التحيز في مرحلة أخذ العينات للتجربة إلى عدم الدقة الإحصائية.

يتم اختيار مجموعة عينة واحدة بشكل متكرر أكثر من المجموعات الأخرى في التجربة نتيجة لعدم الدقة.

إذا لم يتم الاعتراف بتحيز الاختيار ، فقد يؤدي ذلك إلى استنتاج غير صحيح.

11. ما هي بالضبط نظرية بايز؟

عندما ندرك الاحتمالات الأخرى ، يمكننا تحديد احتمال باستخدام نظرية بايز. إنه يوفر الاحتمال اللاحق لحدوث بناءً على معلومات سابقة ، بمعنى آخر.

يتم توفير طريقة سليمة لتقدير الاحتمالات الشرطية من خلال هذه النظرية.

عند تطوير مشاكل النمذجة التنبؤية للتصنيف وملاءمة نموذج للتدريب مجموعة البيانات في التعلم الآلي، يتم تطبيق نظرية بايز (مثل Naive Bayes ، Bayes Optimal Classifier).

12. في نموذج التعلم الآلي ، ما المقصود بـ "مجموعة التدريب" و "مجموعة الاختبار"؟

عدة التدريبات:

تتكون مجموعة التدريب من مثيلات يتم إرسالها إلى النموذج للتحليل والتعلم.
هذه هي البيانات المصنفة التي سيتم استخدامها لتدريب النموذج.
عادةً ما يتم استخدام 70٪ من إجمالي البيانات كمجموعة بيانات تدريبية.

مجموعة الاختبار:

تُستخدم مجموعة الاختبار لتقييم دقة إنشاء فرضية النموذج.
نحن نختبر بدون بيانات مصنفة ثم نستخدم الملصقات لتأكيد النتائج.
يتم استخدام نسبة 30٪ المتبقية كمجموعة بيانات اختبار.

13. ما هي الفرضية في التعلم الآلي؟

يتيح التعلم الآلي استخدام مجموعات البيانات الموجودة لفهم وظيفة معينة بشكل أفضل تربط الإدخال بالمخرجات. يُعرف هذا بتقريب الوظيفة.

في هذه الحالة ، يجب استخدام التقريب لوظيفة الهدف غير المعروفة لنقل جميع الملاحظات التي يمكن تصورها بناءً على الموقف المحدد بأفضل طريقة ممكنة.

في التعلم الآلي ، الفرضية هي نموذج يساعد في تقدير الوظيفة المستهدفة واستكمال تعيينات المدخلات والمخرجات المناسبة.

يسمح اختيار وتصميم الخوارزميات بتحديد مساحة الفرضيات المحتملة التي يمكن تمثيلها بواسطة نموذج.

بالنسبة لفرضية واحدة ، يتم استخدام الأحرف الصغيرة h (h) ، ولكن يتم استخدام حرف h (H) الكبير لكامل مساحة الفرضية التي يتم البحث عنها. سنراجع بإيجاز هذه الرموز:

الفرضية (ح) هي نموذج خاص يسهل تعيين المدخلات إلى المخرجات ، والتي يمكن استخدامها لاحقًا للتقييم والتنبؤ.
مجموعة الفرضيات (H) هي مساحة قابلة للبحث من الفرضيات التي يمكن استخدامها لتعيين المدخلات إلى المخرجات. تأطير القضية ، والنموذج ، وتكوين النموذج هي أمثلة قليلة للقيود العامة.

14. ماذا يعني فرط التعلم الآلي ، وكيف يمكن منعه؟

عندما تحاول الآلة التعلم من مجموعة بيانات غير كافية ، يحدث التجهيز الزائد.

نتيجة لذلك ، يرتبط overfitting عكسيًا بحجم البيانات. يسمح نهج التحقق المتبادل بتجنب الإفراط في التجهيز لمجموعات البيانات الصغيرة. يتم تقسيم مجموعة البيانات إلى جزأين في هذه الطريقة.

ستتألف مجموعة البيانات الخاصة بالاختبار والتدريب من هذين الجزأين. تُستخدم مجموعة بيانات التدريب لإنشاء نموذج ، بينما تُستخدم مجموعة بيانات الاختبار لتقييم النموذج باستخدام مدخلات مختلفة.

هذه هي الطريقة التي تمنع فرط التجهيز.

15. ما هي بالضبط مصنفات Naive Bayes؟

طرق التصنيف المختلفة تشكل مصنفات Naive Bayes. تعمل مجموعة من الخوارزميات المعروفة باسم هذه المصنفات على نفس الفكرة الأساسية.

الافتراض الذي قدمته مصنفات Bayes الساذجة هو أن وجود أو عدم وجود ميزة ما ليس له تأثير على وجود أو عدم وجود ميزة أخرى.

بعبارة أخرى ، هذا ما نشير إليه على أنه "ساذج" لأنه يفترض أن كل سمة من سمات مجموعة البيانات متساوية في الأهمية ومستقلة.

يتم التصنيف باستخدام مصنفات بايز الساذجة. إنها سهلة الاستخدام وتنتج نتائج أفضل من المتنبئين الأكثر تعقيدًا عندما تكون فرضية الاستقلال صحيحة.

يتم استخدامهم في تحليل النص وتصفية البريد العشوائي وأنظمة التوصية.

16. ماذا تعني وظائف التكلفة ووظائف الخسارة؟

تشير عبارة "وظيفة الخسارة" إلى عملية فقدان الحوسبة عندما يتم أخذ جزء واحد فقط من البيانات في الاعتبار.

على العكس من ذلك ، فإننا نستخدم دالة التكلفة لتحديد المبلغ الإجمالي للأخطاء للعديد من البيانات. لا يوجد تمييز كبير.

بمعنى آخر ، بينما تقوم وظائف التكلفة بتجميع الفرق لمجموعة بيانات التدريب بأكملها ، فإن وظائف الخسارة مصممة لالتقاط الفرق بين القيم الفعلية والمتوقعة لسجل واحد.

17. ما الذي يميز النموذج التوليدي عن النموذج التمييزي؟

يتعرف النموذج التمييزي على الاختلافات بين فئات البيانات المتعددة. يلتقط النموذج التوليدي أنواع البيانات المختلفة.

في مشاكل التصنيف ، غالبًا ما تتفوق النماذج التمييزية على النماذج الأخرى.

18. وصف الاختلافات بين أخطاء النوع الأول والنوع الثاني.

تندرج الإيجابيات الكاذبة ضمن فئة أخطاء النوع الأول ، بينما تندرج الإيجابيات الكاذبة ضمن أخطاء النوع الثاني (تدعي عدم حدوث أي شيء بينما حدث بالفعل).

19. في التعلم الآلي ، ما هي تقنية تعلم المجموعة؟

تمزج تقنية تسمى التعلم الجماعي العديد من نماذج التعلم الآلي لإنتاج نماذج أكثر فاعلية.

يمكن أن يتنوع النموذج لعدة أسباب. عدة أسباب هي:

مجموعات سكانية مختلفة
فرضيات مختلفة
طرق النمذجة المختلفة

سنواجه مشكلة أثناء استخدام بيانات التدريب والاختبار الخاصة بالنموذج. يعد التحيز والتباين والخطأ غير القابل للاختزال أنواعًا محتملة من هذا الخطأ.

الآن ، نسمي هذا التوازن بين التحيز والتباين في النموذج مقايضة تباين التحيز ، ويجب أن يكون موجودًا دائمًا. يتم تحقيق هذه المقايضة من خلال استخدام التعلم الجماعي.

على الرغم من وجود العديد من أساليب التجميع المتاحة ، إلا أن هناك استراتيجيتان شائعتان للجمع بين العديد من النماذج:

يستخدم نهج أصلي يسمى التعبئة مجموعة التدريب لإنتاج مجموعات تدريب إضافية.
التعزيز ، تقنية أكثر تعقيدًا: مثلها مثل التعبئة ، يتم استخدام التعزيز للعثور على صيغة الوزن المثالية لمجموعة التدريب.

20. ما هي بالضبط النماذج البارامترية؟ أعط مثالا.

هناك كمية محدودة من المعلمات في النماذج البارامترية. للتنبؤ بالبيانات ، كل ما تحتاج إلى معرفته هو معلمات النموذج.

فيما يلي أمثلة نموذجية: الانحدار اللوجستي والانحدار الخطي و SVMs الخطية. النماذج غير المعلمية مرنة لأنها يمكن أن تحتوي على عدد غير محدود من المعلمات.

معلمات النموذج وحالة البيانات المرصودة مطلوبة لتنبؤات البيانات. فيما يلي بعض الأمثلة النموذجية: نماذج الموضوعوأشجار القرار و k- الجيران الأقرب.

21. وصف التصفية التعاونية. وكذلك التصفية على أساس المحتوى؟

طريقة مجربة وصحيحة لإنشاء اقتراحات محتوى مخصصة هي التصفية التعاونية.

يتنبأ شكل من أشكال نظام التوصية يسمى التصفية التعاونية بمواد جديدة من خلال موازنة تفضيلات المستخدم مع الاهتمامات المشتركة.

تفضيلات المستخدم هي الشيء الوحيد الذي تعتبره أنظمة التوصية القائمة على المحتوى. في ضوء التحديدات السابقة للمستخدم ، يتم تقديم توصيات جديدة من المواد ذات الصلة.

22. ماذا تقصد بالضبط بالسلسلة الزمنية؟

السلسلة الزمنية هي مجموعة من الأرقام بترتيب تصاعدي. خلال فترة زمنية محددة مسبقًا ، يراقب حركة نقاط البيانات المحددة ويلتقط نقاط البيانات بشكل دوري.

لا يوجد حد أدنى أو أقصى لإدخال الوقت للسلسلة الزمنية.

كثيرًا ما يستخدم المحللون السلاسل الزمنية لتحليل البيانات وفقًا لمتطلباتهم الفريدة.

23. وصف الاختلافات بين تعزيز التدرج وخوارزميات الغابة العشوائية.

غابة عشوائية:

يتم تجميع عدد كبير من أشجار القرار معًا في النهاية وتُعرف باسم غابات عشوائية.
بينما ينتج عن التعزيز المتدرج كل شجرة بشكل مستقل عن الأخريات ، تبني الغابة العشوائية كل شجرة واحدة تلو الأخرى.
متعدد الطبقات كشف الكائن يعمل بشكل جيد مع الغابات العشوائية.

تعزيز التدرج:

بينما تنضم الغابات العشوائية إلى أشجار القرار في نهاية العملية ، تقوم ماكينات تعزيز التدرج بدمجها من البداية.
إذا تم تعديل المعلمات بشكل مناسب ، فإن تعزيز التدرج يتفوق على الغابات العشوائية من حيث النتائج ، ولكنه ليس اختيارًا ذكيًا إذا كانت مجموعة البيانات تحتوي على الكثير من القيم المتطرفة ، أو الحالات الشاذة ، أو الضجيج حيث قد يتسبب ذلك في زيادة النموذج.
عندما تكون هناك بيانات غير متوازنة ، كما هو الحال في تقييم المخاطر في الوقت الفعلي ، فإن تعزيز التدرج يؤدي بشكل جيد.

24. لماذا تحتاج مصفوفة الارتباك؟ ما هذا؟

يستخدم الجدول المعروف باسم مصفوفة الارتباك ، والذي يُعرف أحيانًا بمصفوفة الخطأ ، على نطاق واسع لإظهار مدى جودة أداء نموذج التصنيف أو المصنف على مجموعة من بيانات الاختبار التي تُعرف القيم الحقيقية لها.

إنها تمكننا من رؤية كيفية أداء النموذج أو الخوارزمية. إنه يجعل من السهل علينا اكتشاف سوء الفهم بين الدورات المختلفة.

إنه بمثابة طريقة لتقييم مدى جودة أداء النموذج أو الخوارزمية.

يتم تجميع تنبؤات نموذج التصنيف في مصفوفة الارتباك. تم استخدام قيم عدد تصنيف كل فئة لتقسيم العدد الإجمالي للتنبؤات الصحيحة وغير الصحيحة.

يوفر تفاصيل حول الأخطاء التي قام بها المصنف بالإضافة إلى أنواع الأخطاء المختلفة التي تسببها المصنفات.

25. ما هو بالضبط تحليل المكون الأساسي؟

من خلال تقليل عدد المتغيرات المرتبطة ببعضها البعض ، فإن الهدف هو تقليل أبعاد جمع البيانات. لكن من المهم الحفاظ على التنوع قدر الإمكان.

يتم تغيير المتغيرات إلى مجموعة جديدة تمامًا من المتغيرات تسمى المكونات الأساسية.

أجهزة الكمبيوتر هذه متعامدة لأنها متجهات ذاتية لمصفوفة التغاير.

26. لماذا يعتبر دوران المكونات بالغ الأهمية في PCA (تحليل المكون الرئيسي)؟

يعد التناوب أمرًا بالغ الأهمية في PCA لأنه يحسن الفصل بين التباينات التي تم الحصول عليها بواسطة كل مكون ، مما يجعل تفسير المكون أبسط.

نحن نطلب مكونات ممتدة للتعبير عن اختلاف المكون إذا لم يتم تدوير المكونات.

27. كيف يختلف التنظيم والتطبيع عن بعضهما البعض؟

تطبيع:

يتم تغيير البيانات أثناء التطبيع. يجب تسوية البيانات إذا كانت تحتوي على مقاييس مختلفة اختلافًا جذريًا ، خاصة من الأقل إلى الأعلى. اضبط كل عمود بحيث تتوافق جميع الإحصائيات الأساسية.

قد يكون هذا مفيدًا لضمان عدم فقدان الدقة. يعد اكتشاف الإشارة أثناء تجاهل الضوضاء أحد أهداف تدريب النموذج.

هناك فرصة للتركيب الزائد إذا تم منح النموذج تحكمًا كاملاً لتقليل الخطأ.

التنظيم:

في التنظيم ، يتم تعديل وظيفة التنبؤ. يخضع هذا لبعض التحكم من خلال التنظيم ، والذي يفضل وظائف تركيب أبسط على الوظائف المعقدة.

28. كيف يختلف التطبيع والتوحيد عن بعضهما البعض؟

يعتبر التطبيع والتوحيد من أكثر التقنيات استخدامًا على نطاق واسع لمقياس الميزات.

تطبيع:

تُعرف إعادة قياس البيانات لتلائم نطاقًا [0,1،XNUMX] بالتطبيع.
عندما يجب أن يكون لجميع المعلمات نفس المقياس الإيجابي ، يكون التسوية مفيدًا ، ولكن يتم فقد القيم المتطرفة لمجموعة البيانات.

التنظيم:

يتم إعادة قياس البيانات ليكون لها متوسط 0 وانحراف معياري 1 كجزء من عملية التقييس (تباين الوحدة)

29. ماذا يعني بالضبط "عامل تضخم التباين"؟

تُعرف نسبة تباين النموذج إلى تباين النموذج مع متغير مستقل واحد فقط باسم عامل تضخم التباين (VIF).

تقدر VIF مقدار العلاقات الخطية المتعددة الموجودة في مجموعة من متغيرات الانحدار المتعددة.

تباين النموذج (VIF) مع متغير واحد مستقل

30. بناءً على حجم مجموعة التدريب ، كيف تختار المصنف؟

يعمل نموذج التحيز العالي والتباين المنخفض بشكل أفضل لمجموعة تدريب قصيرة نظرًا لأن التجهيز الزائد أقل احتمالًا. ساذج بايز مثال واحد.

من أجل تمثيل تفاعلات أكثر تعقيدًا لمجموعة تدريب كبيرة ، يفضل استخدام نموذج منخفض التحيز والتباين العالي. الانحدار اللوجستي مثال جيد.

31. ما هي الخوارزمية في التعلم الآلي التي يشار إليها باسم "المتعلم الكسول" ولماذا؟

المتعلم البطيء ، KNN هي خوارزمية التعلم الآلي. نظرًا لأن K-NN تحسب المسافة ديناميكيًا في كل مرة ترغب في تصنيفها بدلاً من تعلم أي قيم أو متغيرات تعلمت آليًا من بيانات التدريب ، فإنها تحفظ مجموعة بيانات التدريب.

هذا يجعل K-NN متعلمًا كسولًا.

32. ما هو منحنى ROC و AUC؟

يتم تمثيل أداء نموذج التصنيف في جميع العتبات بيانياً بواسطة منحنى ROC. لديها معدل إيجابي حقيقي ومعايير معدل إيجابية كاذبة.

ببساطة ، تُعرف المنطقة الواقعة أسفل منحنى ROC باسم AUC (المنطقة الواقعة تحت منحنى ROC). يتم قياس المنطقة ثنائية الأبعاد لمنحنى ROC من (0,0،1,1) إلى AUC (XNUMX،XNUMX). لتقييم نماذج التصنيف الثنائي ، يتم استخدامه كإحصاء للأداء.

33. ما هي hyperparameters؟ ما الذي يجعلها فريدة من نوعها من معلمات النموذج؟

يُعرف المتغير الداخلي للنموذج باسم معلمة النموذج. باستخدام بيانات التدريب ، يتم تقريب قيمة المعلمة.

غير معروف للنموذج ، المعلمة الفائقة هو متغير. لا يمكن تحديد القيمة من البيانات ، وبالتالي يتم استخدامها بشكل متكرر لحساب معلمات النموذج.

34. ماذا تعني F1 Score ، الاسترجاع ، والدقة؟

مقياس الارتباك هو المقياس المستخدم لقياس فعالية نموذج التصنيف. يمكن استخدام العبارات التالية لشرح مقياس الارتباك بشكل أفضل:

TP: الإيجابيات الحقيقية - هذه هي القيم الإيجابية التي تم توقعها بشكل صحيح. يقترح أن قيم الفئة المسقطة والفئة الفعلية كلاهما موجبة.

TN: سلبيات حقيقية- هذه هي القيم المعاكسة التي تم توقعها بدقة. يقترح أن كلا من قيمة الفئة الفعلية والفئة المتوقعة سلبية.

تحدث هذه القيم - الإيجابيات الكاذبة والسلبيات الخاطئة - عندما يختلف صنفك الفعلي عن الفئة المتوقعة.

الآن،

تسمى نسبة المعدل الإيجابي الحقيقي (TP) إلى جميع الملاحظات التي تم إجراؤها في الفئة الفعلية بالاستدعاء ، والمعروف أيضًا باسم الحساسية.

الاستدعاء هو TP / (TP + FN).

الدقة هي مقياس للقيمة التنبؤية الإيجابية ، والتي تقارن عدد الإيجابيات التي يتنبأ بها النموذج حقًا بعدد الإيجابيات الصحيحة التي يتنبأ بها بدقة.

الدقة هي TP / (TP + FP)

إن أسهل مقياس أداء يمكن فهمه هو الدقة ، وهي مجرد نسبة الملاحظات المتوقعة بشكل صحيح إلى جميع الملاحظات.

الدقة تساوي (TP + TN) / (TP + FP + FN + TN).

يتم ترجيح الدقة والاستدعاء ومتوسطهما لتوفير درجة F1. نتيجة لذلك ، تأخذ هذه النتيجة في الاعتبار كل من الإيجابيات الزائفة والسلبية الكاذبة.

غالبًا ما تكون F1 أكثر قيمة من الدقة ، خاصةً إذا كان لديك توزيع غير متكافئ للفئة ، حتى لو لم يكن فهمها بديهيًا مثل الدقة.

يتم تحقيق أفضل دقة عندما تكون تكلفة الإيجابيات الكاذبة والسلبيات الكاذبة قابلة للمقارنة. يفضل تضمين كل من Precision و Recall إذا كانت التكاليف المرتبطة بالإيجابيات الكاذبة والسلبيات الكاذبة تختلف اختلافًا كبيرًا.

35. ما هو بالضبط التحقق المتبادل؟

يستخدم نهج إعادة التشكيل الإحصائي المسمى التحقق المتبادل في التعلم الآلي العديد من مجموعات البيانات الفرعية لتدريب وتقييم خوارزمية التعلم الآلي عبر عدد من الجولات.

يتم اختبار مجموعة جديدة من البيانات التي لم يتم استخدامها لتدريب النموذج باستخدام التحقق المتبادل لمعرفة مدى جودة توقع النموذج له. يتم منع فرط تجهيز البيانات من خلال التحقق المتبادل من الصحة.

K-Fold تقوم طريقة إعادة التشكيل الأكثر استخدامًا بتقسيم مجموعة البيانات بأكملها إلى مجموعات K ذات الأحجام المتساوية. يطلق عليه التحقق المتبادل.

36. لنفترض أنك اكتشفت أن نموذجك به تباين كبير. ما هي الخوارزمية ، برأيك ، الأنسب للتعامل مع هذا الموقف؟

إدارة التباين العالي

يجب أن نستخدم أسلوب التعبئة في المشاكل ذات الاختلافات الكبيرة.

سيتم استخدام أخذ العينات المتكرر من البيانات العشوائية بواسطة خوارزمية التعبئة لتقسيم البيانات إلى مجموعات فرعية. بمجرد تقسيم البيانات ، يمكننا استخدام بيانات عشوائية وإجراء تدريب محدد لإنشاء القواعد.

بعد ذلك ، يمكن استخدام الاقتراع للجمع بين تنبؤات النموذج.

37. ما الذي يميز انحدار ريدج عن انحدار اللاسو؟

طريقتان للتنظيم مستخدمة على نطاق واسع هما Lasso (وتسمى أيضًا L1) و Ridge (تسمى أحيانًا L2) الانحدار. يتم استخدامها لمنع فرط تجهيز البيانات.

من أجل اكتشاف أفضل الحلول وتقليل التعقيد ، يتم استخدام هذه التقنيات لمعاقبة المعاملات. من خلال معاقبة إجمالي القيم المطلقة للمعاملات ، يعمل انحدار اللاسو.

تُشتق وظيفة الجزاء في انحدار Ridge أو L2 من مجموع مربعات المعاملات.

38. أيهما أكثر أهمية: أداء النموذج أم دقة النموذج؟ أي واحد ولماذا تفضله؟

هذا سؤال خادع ، وبالتالي يجب على المرء أولاً أن يفهم ماهية أداء النموذج. إذا تم تعريف الأداء على أنه السرعة ، فإنه يعتمد على نوع التطبيق ؛ سيتطلب أي تطبيق يتضمن موقفًا في الوقت الفعلي سرعة عالية كمكون أساسي.

على سبيل المثال ، ستصبح أفضل نتائج البحث أقل قيمة إذا استغرقت نتائج الاستعلام وقتًا طويلاً للوصول.

إذا تم استخدام الأداء كمبرر لضرورة إعطاء الأولوية للدقة والاستدعاء فوق الدقة ، فستكون درجة F1 أكثر فائدة من الدقة في إظهار حالة العمل لأي مجموعة بيانات غير متوازنة.

39. كيف يمكنك إدارة مجموعة البيانات مع عدم المساواة؟

يمكن أن تستفيد مجموعة البيانات غير المتوازنة من تقنيات أخذ العينات. يمكن أن يتم أخذ العينات إما بطريقة أقل أو مفرطة في العينة.

يسمح لنا ضمن أخذ العينات بتقليص حجم فئة الأغلبية لمطابقة فئة الأقلية ، مما يساعد في زيادة السرعة فيما يتعلق بالتخزين وتنفيذ وقت التشغيل ولكن يمكن أن يؤدي أيضًا إلى فقدان البيانات القيمة.

من أجل معالجة مشكلة فقدان المعلومات الناتجة عن الإفراط في أخذ العينات ، نقوم بتجميع فئة الأقليات ؛ ومع ذلك ، فإن هذا يتسبب في وقوعنا في مشاكل فرط التجهيز.

تشمل الاستراتيجيات الإضافية ما يلي:

أخذ العينات المستندة إلى الكتلة- تخضع حالات فئة الأقلية والأغلبية بشكل فردي لتقنية التجميع K-mean في هذه الحالة. يتم إجراء ذلك للعثور على مجموعات مجموعات البيانات. بعد ذلك ، يتم أخذ عينات من كل مجموعة بشكل مفرط بحيث يكون لجميع الفئات نفس الحجم وجميع المجموعات داخل الفصل لديها عدد متساوٍ من المثيلات.
SMOTE: تقنية الإفراط في أخذ العينات للأقليات الاصطناعية - يتم استخدام شريحة من البيانات من فئة الأقلية كمثال ، وبعد ذلك يتم إنتاج مثيلات اصطناعية إضافية يمكن مقارنتها بها وإضافتها إلى مجموعة البيانات الأصلية. تعمل هذه الطريقة بشكل جيد مع نقاط البيانات الرقمية.

40. كيف تميز بين التعزيز والتعبئة؟

تقنيات المجموعات لها إصدارات تُعرف باسم التعبئة والتعزيز.

تكييس-

بالنسبة للخوارزميات ذات التباين العالي ، فإن التعبئة هي تقنية مستخدمة لخفض التباين. إحدى هذه المجموعات من المصنفات المعرضة للانحياز هي عائلة شجرة القرار.

نوع البيانات التي يتم تدريب أشجار القرار عليها له تأثير كبير على أدائها. لهذا السبب ، حتى مع الضبط الدقيق للغاية ، يصعب أحيانًا الحصول على تعميم النتائج فيها.

إذا تم تغيير بيانات تدريب أشجار القرار ، فإن النتائج تختلف بشكل كبير.

نتيجة لذلك ، يتم استخدام التعبئة ، حيث يتم إنشاء العديد من أشجار القرار ، يتم تدريب كل منها باستخدام عينة من البيانات الأصلية ، والنتيجة النهائية هي متوسط كل هذه النماذج المختلفة.

التعزيز:

التعزيز هو أسلوب عمل التنبؤات باستخدام نظام مصنف ضعيف n حيث يقوم كل مصنف ضعيف بالتعويض عن أوجه القصور في المصنفات الأقوى. نشير إلى المصنف الذي يعمل بشكل سيئ على مجموعة بيانات معينة على أنه "مصنف ضعيف".

من الواضح أن التعزيز عملية وليست خوارزمية. يعد الانحدار اللوجستي وأشجار القرار الضحلة أمثلة شائعة للمصنفات الضعيفة.

Adaboost و Gradient Boosting و XGBoost هما أكثر خوارزميات التعزيز شيوعًا ، ومع ذلك ، هناك العديد من الخوارزميات الأخرى.

41. شرح الفروق بين التعلم الاستقرائي والاستنتاجي.

عند التعلم عن طريق المثال من مجموعة من الأمثلة المرصودة ، يستخدم النموذج التعلم الاستقرائي للوصول إلى استنتاج عام. من ناحية أخرى ، مع التعلم الاستنتاجي ، يستخدم النموذج النتيجة قبل تكوين النتيجة الخاصة به.

التعلم الاستقرائي هو عملية استخلاص النتائج من الملاحظات.

التعلم الاستنتاجي هو عملية إنشاء الملاحظات بناءً على الاستدلالات.

وفي الختام

تهاني! هذه هي أهم 40 سؤالاً وأكثر من الأسئلة المقابلة للتعلم الآلي والتي تعرف الآن إجاباتها. علم البيانات و الذكاء الاصطناعي سيستمر الطلب على المهن مع تقدم التكنولوجيا.

يمكن للمرشحين الذين يقومون بتحديث معرفتهم بهذه التقنيات المتطورة وتحسين مجموعة مهاراتهم العثور على مجموعة متنوعة من فرص العمل بأجر تنافسي.

يمكنك المضي قدمًا في الإجابة على المقابلات الآن بعد أن أصبح لديك فهم قوي لكيفية الرد على بعض أسئلة مقابلة التعلم الآلي المتداولة على نطاق واسع.

بناءً على أهدافك ، اتخذ الخطوة التالية. استعد للمقابلات من خلال زيارة Hashdork's سلسلة المقابلة.

أهم 40+ أسئلة مقابلة حول تعلم الآلة