תוכן העניינים[להתחבא][הופעה]
- 1. הסבירו את ההבדלים בין למידת מכונה, בינה מלאכותית ולמידה עמוקה.
- 2. נא לתאר את הסוגים השונים של למידת מכונה.
- 3. מהי ההטיה לעומת השונות?
- 4. אלגוריתמי למידת מכונה התפתחו באופן משמעותי עם הזמן. כיצד בוחרים את האלגוריתם הנכון לניצול מערך נתונים נתון?
- 5. במה נבדלים שיתופיות ומתאם?
- 6. בלמידת מכונה, מה המשמעות של clustering?
- 7. מהו אלגוריתם למידת המכונה המועדף עליך?
- 8. רגרסיה לינארית בלמידת מכונה: מה זה?
- 9. תאר את ההבדלים בין KNN ל-k-means clustering.
- 10. מה המשמעות של "הטיית בחירה" עבורך?
- 11. מהו בעצם משפט בייס?
- 12. במודל למידת מכונה, מה הם 'סט אימון' ו'סט מבחן'?
- 13. מהי השערה בלמידת מכונה?
- 14. מה המשמעות של התאמת יתר של למידת מכונה, וכיצד ניתן למנוע זאת?
- 15. מהם בעצם מסווגים נאיב בייס?
- 16. מה המשמעות של פונקציות עלות ופונקציות הפסד?
- 17. מה מבדיל מודל מחולל ממודל מפלה?
- 18. תאר את השונות בין שגיאות מסוג I ו-Type II.
- 19. בלמידת מכונה, מהי טכניקת למידת אנסמבל?
- 20. מהם בעצם מודלים פרמטריים? תן דוגמה.
- 21. תאר סינון שיתופי. כמו גם סינון מבוסס תוכן?
- 22. למה בדיוק אתה מתכוון בסדרת Time?
- 23. תאר את הווריאציות בין האלגוריתמים של Gradient Boosting ו-Random Forest.
- 24. למה צריך מטריצת בלבול? מה זה?
- 25. מהו בעצם ניתוח רכיבים עקרוניים?
- 26. מדוע סיבוב רכיבים כה קריטי ל-PCA (ניתוח רכיבים עיקריים)?
- 27. כיצד משתנים רגוליזציה ונורמליזציה זה מזה?
- 28. במה שונים נורמליזציה וסטנדרטיזציה זה מזה?
- 29. מה בדיוק המשמעות של "גורם אינפלציית שונות"?
- 30. בהתבסס על גודל מערך האימונים, איך בוחרים מסווג?
- 31. איזה אלגוריתם בלמידת מכונה מכונה "הלומד העצלן" ומדוע?
- 32. מהן עקומת ROC ו-AUC?
- 33. מהם היפרפרמטרים? מה מייחד אותם מפרמטרי הדגם?
- 34. מה המשמעות של ציון F1, ריקול ודיוק?
- 35. מהו בעצם אימות צולב?
- 36. נניח שגילית שלדגם שלך יש שונות משמעותית. איזה אלגוריתם, לדעתך, הכי מתאים להתמודד עם המצב הזה?
- 37. מה מבדיל בין רגרסיית רידג' לבין רגרסיית לאסו?
- 38. מה יותר חשוב: ביצועי הדגם או דיוק המודל? איזה מהם ולמה תעדיפו אותו?
- 39. איך הייתם מנהלים מערך נתונים עם אי-שוויון?
- 40. איך אתה יכול להבחין בין בוסט ל-bagging?
- 41. הסבר את ההבדלים בין למידה אינדוקטיבית לדדוקטיבית.
- סיכום
עסקים משתמשים בטכנולוגיה מתקדמת, כמו בינה מלאכותית (AI) ולמידת מכונה, כדי להגביר את הנגישות של מידע ושירותים לאנשים פרטיים.
טכנולוגיות אלו מאומצות על ידי מגוון תעשיות, כולל בנקאות, פיננסים, קמעונאות, ייצור ושירותי בריאות.
אחד התפקידים הארגוניים המבוקשים ביותר המשתמשים ב-AI הוא עבור מדעני נתונים, מהנדסי בינה מלאכותית, מהנדסי למידת מכונה ומנתחי נתונים.
פוסט זה יוביל אותך דרך מגוון של למידת מכונה שאלות ראיון, מבסיס ועד מורכב, כדי לעזור לך להתכונן לכל שאלה שאתה יכול להישאל כשאתה מחפש את העבודה האידיאלית שלך.
1. הסבירו את ההבדלים בין למידת מכונה, בינה מלאכותית ולמידה עמוקה.
בינה מלאכותית משתמשת במגוון גישות למידת מכונה ולמידה עמוקה המאפשרות למערכות מחשב לבצע משימות תוך שימוש בינה דמוית אדם עם הגיון וחוקים.
למידת מכונה משתמשת במגוון סטטיסטיקות וגישות למידה עמוקה כדי לאפשר למכונות ללמוד מהביצועים הקודמים שלהן ולהיות מיומנים יותר בביצוע משימות מסוימות בעצמן ללא פיקוח אנושי.
Deep Learning הוא אוסף אלגוריתמים המאפשר לתוכנה ללמוד מעצמה ולבצע מגוון פונקציות מסחריות, כמו זיהוי קול ותמונה.
מערכות החושפות את רב השכבות שלהן רשתות עצביות לכמויות אדירות של נתונים ללמידה מסוגלים לעשות למידה עמוקה.
2. נא לתאר את הסוגים השונים של למידת מכונה.
למידת מכונה קיימת בשלושה סוגים שונים באופן כללי:
- למידה מפוקחת: מודל יוצר תחזיות או שיפוטים תוך שימוש בנתונים מסומנים או היסטוריים בלמידת מכונה מפוקחת. מערכי נתונים שתויגו או תויגו כדי להגביר את משמעותם מכונים נתונים מסומנים.
- למידה ללא פיקוח: אין לנו נתונים מסומנים ללמידה ללא פיקוח. בנתונים הנכנסים, מודל יכול למצוא דפוסים, מוזרויות ומתאמים.
- למידת חיזוק: המודל יכול ללמוד באמצעות חיזוק הלמידה והתגמולים שקיבלה על התנהגותה הקודמת.
3. מהי ההטיה לעומת השונות?
התאמה יתר היא תוצאה של הטיה, שהיא המידה שבה מודל מתאים לנתונים. הטיה נגרמת מהנחות שגויות או פשוטות מדי אצלך אלגוריתם למידה של מכונה.
שונות מתייחסת לטעויות שנגרמות ממורכבות באלגוריתם ה-ML שלך, אשר מייצרת רגישות לדרגות גדולות של שונות בנתוני אימון והתאמת יתר.
שונות היא כמה משתנה מודל בהתאם לתשומות.
במילים אחרות, דגמים בסיסיים מוטים מאוד אך יציבים (שונות נמוכה). התאמה יתר היא בעיה במודלים מורכבים, למרות שהם בכל זאת לוכדים את המציאות של המודל (הטיה נמוכה).
על מנת למנוע וריאציה גבוהה והטיה גבוהה כאחד, יש צורך בהחלפה בין הטיה לשונות להפחתת השגיאות הטובה ביותר.
4. אלגוריתמי למידת מכונה התפתחו באופן משמעותי עם הזמן. כיצד בוחרים את האלגוריתם הנכון לניצול מערך נתונים נתון?
טכניקת למידת המכונה שיש להשתמש בה תלויה רק בסוג הנתונים במערך נתונים ספציפי.
כאשר הנתונים הם לינאריים, נעשה שימוש ברגרסיה ליניארית. שיטת השקיות הייתה מתפקדת טוב יותר אם הנתונים יצביעו על חוסר ליניאריות. אנו יכולים להשתמש בעצי החלטה או ב-SVM אם יש להעריך או לפרש את הנתונים למטרות מסחריות.
רשתות עצביות עשויות להיות שימושיות כדי לקבל תשובה מדויקת אם מערך הנתונים כולל תמונות, סרטונים ואודיו.
הבחירה באלגוריתם עבור נסיבות ספציפיות או איסוף נתונים לא יכול להתבצע רק על מדד אחד.
במטרה לפתח את שיטת ההתאמה הטובה ביותר, עלינו לבחון תחילה את הנתונים באמצעות ניתוח נתונים חקרניים (EDA) ולהבין את המטרה של ניצול מערך הנתונים.
5. במה נבדלים שיתופיות ומתאם?
שיתוף פעולה מעריך כיצד שני משתנים מחוברים זה לזה וכיצד אחד עשוי להשתנות בתגובה לשינויים באחר.
אם התוצאה חיובית, זה מצביע על כך שיש קשר ישיר בין המשתנים ושאחד יעלה או יורד עם עלייה או ירידה במשתנה הבסיס, בהנחה שכל שאר התנאים נשארים קבועים.
מתאם מודד את הקשר בין שני משתנים אקראיים ויש לו רק שלושה ערכים ברורים: 1, 0 ו-1.
6. בלמידת מכונה, מה המשמעות של clustering?
שיטות למידה ללא פיקוח המקבצות נקודות נתונים יחד נקראות clustering. עם אוסף של נקודות נתונים, ניתן ליישם את טכניקת האשכולות.
אתה יכול לקבץ את כל נקודות הנתונים לפי הפונקציות שלהן באמצעות אסטרטגיה זו.
התכונות והאיכויות של נקודות הנתונים הנכללות באותה קטגוריה דומות, בעוד אלו של נקודות הנתונים הנכללות בקבוצות נפרדות שונות.
גישה זו יכולה לשמש לניתוח נתונים סטטיסטיים.
7. מהו אלגוריתם למידת המכונה המועדף עליך?
יש לך הזדמנות להפגין את ההעדפות והכישרונות הייחודיים שלך בשאלה זו, כמו גם את הידע המקיף שלך בטכניקות רבות של למידת מכונה.
הנה כמה אלגוריתמים טיפוסיים של למידת מכונה שכדאי לחשוב עליהם:
- רגרסיה לינארית
- רגרסיה לוגיסטית
- נאיביות
- עצי החלטה
- K פירושו
- אלגוריתם יער אקראי
- K-Nearest Neighbour (KNN)
8. רגרסיה לינארית בלמידת מכונה: מה זה?
אלגוריתם למידת מכונה מפוקחת הוא רגרסיה לינארית.
הוא משמש בניתוח חזוי כדי לקבוע את הקשר הליניארי בין המשתנים התלויים והבלתי תלויים.
המשוואה של רגרסיה לינארית היא כדלקמן:
Y = A + BX
שם:
- הקלט או המשתנה הבלתי תלוי נקרא X.
- המשתנה התלוי או הפלט הוא Y.
- מקדם X הוא b, והחתך שלו הוא a.
9. תאר את ההבדלים בין KNN ל-k-means clustering.
ההבחנה העיקרית היא ש-KNN (שיטת סיווג, למידה מפוקחת) זקוקה לנקודות מתויגות ואילו k-means לא (אלגוריתם אשכולות, למידה לא מפוקחת).
ניתן לסווג נתונים מסווגים לנקודה ללא תווית באמצעות K-Nearest Neighbors. K-means clustering משתמש במרחק הממוצע בין נקודות כדי ללמוד כיצד לקבץ נקודות ללא תווית.
10. מה המשמעות של "הטיית בחירה" עבורך?
ההטיה בשלב הדגימה של הניסוי נובעת מאי דיוק סטטיסטי.
קבוצת מדגם אחת נבחרת בתדירות גבוהה יותר משאר הקבוצות בניסוי כתוצאה מאי הדיוק.
אם הטיית הבחירה לא תאושר, הדבר עלול לגרום למסקנה שגויה.
11. מהו בעצם משפט בייס?
כאשר אנו מודעים להסתברויות אחרות, אנו יכולים לקבוע הסתברות באמצעות משפט בייס. הוא מציע את ההסתברות האחורית להתרחשות בהתבסס על מידע קודם, במילים אחרות.
שיטה נכונה להערכת הסתברויות מותנות מסופקת על ידי משפט זה.
בעת פיתוח סיווג בעיות דוגמנות חזוי והתאמת מודל לאימון מערך נתונים בלמידת מכונה, משפט בייס מיושם (כלומר Bayes נאיבי, Bayes Optimal Classifier).
12. במודל למידת מכונה, מה הם 'סט אימון' ו'סט מבחן'?
ערכת אימונים:
- מערך ההדרכה מורכב ממופעים הנשלחים למודל לצורך ניתוח ולמידה.
- זהו הנתונים המסומנים שישמשו לאימון המודל.
- בדרך כלל, 70% מסך הנתונים משמשים כמערך ההדרכה.
סט מבחן:
- מערך הבדיקות משמש להערכת דיוק יצירת ההשערות של המודל.
- אנו בודקים ללא נתונים מסומנים ולאחר מכן משתמשים בתוויות כדי לאשר את התוצאות.
- 30% הנותרים משמשים כמערך נתונים לבדיקה.
13. מהי השערה בלמידת מכונה?
Machine Learning מאפשרת שימוש במערך נתונים קיימים כדי להבין טוב יותר פונקציה נתונה המקשרת בין קלט לפלט. זה ידוע בתור קירוב פונקציות.
במקרה זה, יש להשתמש בקירוב עבור פונקציית המטרה הלא ידועה כדי להעביר את כל התצפיות האפשריות המבוססות על המצב הנתון בצורה הטובה ביותר.
בלמידת מכונה, השערה היא מודל המסייע בהערכת פונקציית היעד ובהשלמת מיפויי קלט-פלט המתאימים.
הבחירה והעיצוב של אלגוריתמים מאפשרים להגדיר את מרחב ההשערות האפשריות שניתן לייצג על ידי מודל.
עבור השערה בודדת, נעשה שימוש באותיות קטנות של h (h), אבל h (H) רישיות משמשת עבור כל מרחב ההשערה שמחפשים. נסקור בקצרה את הסימונים הבאים:
- השערה (h) היא מודל מסוים המאפשר את מיפוי הקלט לתפוקה, אשר יכול לשמש לאחר מכן להערכה ולניבוי.
- מערך השערות (H) הוא מרחב הניתן לחיפוש של השערות שניתן להשתמש בו כדי למפות קלט לפלטים. מסגור בעיות, מודל ותצורת מודל הם כמה דוגמאות למגבלות כלליות.
14. מה המשמעות של התאמת יתר של למידת מכונה, וכיצד ניתן למנוע זאת?
כאשר מכונה מנסה ללמוד ממערך נתונים לא מספיק, מתרחשת התאמת יתר.
כתוצאה מכך, התאמת יתר נמצאת בקורלציה הפוכה לנפח הנתונים. גישת האימות הצולבת מאפשרת להימנע מהתאמת יתר עבור מערכי נתונים קטנים. מערך נתונים מחולק לשני חלקים בשיטה זו.
מערך הנתונים לבדיקה והדרכה יורכב משני החלקים הללו. מערך ההדרכה משמש ליצירת מודל, בעוד שמערך הנתונים של הבדיקה משמש להערכת המודל באמצעות תשומות שונות.
כך מונעים התאמת יתר.
15. מהם בעצם מסווגים נאיב בייס?
שיטות סיווג שונות מרכיבות את המסווגים Naive Bayes. קבוצה של אלגוריתמים הידועים כמסווגים אלה פועלים כולם על אותו רעיון בסיסי.
ההנחה של מסווגים נאיביים של בייס היא שלנוכחות או היעדרות של תכונה אחת אין כל קשר לנוכחות או היעדרה של תכונה אחרת.
במילים אחרות, זה מה שאנו מתייחסים אליו כ"נאיבי" מכיוון שהוא מניח שכל תכונת מערך נתונים היא משמעותית ובלתי תלויה באותה מידה.
הסיווג נעשה באמצעות מסווגים נאיביים של Bayes. הם פשוטים לשימוש ומייצרים תוצאות טובות יותר מאשר מנבאים מורכבים יותר כאשר הנחת העצמאות נכונה.
בניתוח טקסט, סינון דואר זבל ומערכות המלצות, הם מועסקים.
16. מה המשמעות של פונקציות עלות ופונקציות הפסד?
הביטוי "פונקציית אובדן" מתייחס לתהליך של אובדן מחשוב כאשר רק נתון אחד נלקח בחשבון.
להיפך, אנו משתמשים בפונקציית העלות כדי לקבוע את הכמות הכוללת של טעויות עבור נתונים רבים. לא קיימת הבחנה משמעותית.
במילים אחרות, בעוד שפונקציות עלות מצטברות את ההפרש עבור מערך האימון כולו, פונקציות אובדן נועדו ללכוד את ההבדל בין הערכים בפועל והחזוי עבור רשומה בודדת.
17. מה מבדיל מודל מחולל ממודל מפלה?
מודל מפלה לומד את ההבדלים בין מספר קטגוריות נתונים. מודל מחולל קולט סוגי נתונים שונים.
בבעיות סיווג, מודלים מפלים לרוב עולים על מודלים אחרים.
18. תאר את השונות בין שגיאות מסוג I ו-Type II.
תוצאות חיוביות כוזבות נכללות בקטגוריה של שגיאות מסוג I, בעוד שליליות כוזבות עוברות תחת שגיאות מסוג II (בטענה ששום דבר לא קרה כשזה אכן קרה).
19. בלמידת מכונה, מהי טכניקת למידת אנסמבל?
טכניקה הנקראת Ensemble learning מערבבת מודלים רבים של למידת מכונה כדי לייצר מודלים חזקים יותר.
ניתן לגוון דגם ממגוון סיבות. מספר סיבות הן:
- אוכלוסיות שונות
- השערות שונות
- שיטות דוגמנות שונות
ניתקל בבעיה בעת השימוש בנתוני ההדרכה והבדיקות של המודל. הטיה, שונות ושגיאות בלתי ניתנות לצמצום הם סוגים אפשריים של טעות זו.
כעת, אנו מכנים את האיזון הזה בין הטיה לשונות במודל פשרה בין הטיה לשונות, והוא צריך להיות תמיד. פשרה זו מושגת באמצעות שימוש בלימוד אנסמבל.
למרות שקיימות גישות שונות של אנסמבל, ישנן שתי אסטרטגיות נפוצות לשילוב דגמים רבים:
- גישה מקורית הנקראת bagging משתמשת בערכת האימונים כדי לייצר ערכות אימונים נוספות.
- בווסט, טכניקה מתוחכמת יותר: בדומה ל-bagging, בווסט נעשה שימוש כדי למצוא את נוסחת הניפוח האידיאלית עבור סט אימון.
20. מהם בעצם מודלים פרמטריים? תן דוגמה.
יש כמות מוגבלת של פרמטרים במודלים פרמטריים. כדי לחזות נתונים, כל מה שאתה צריך לדעת הם הפרמטרים של המודל.
להלן דוגמאות טיפוסיות: רגרסיה לוגיסטית, רגרסיה ליניארית ו-SVM ליניארי. מודלים לא פרמטריים הם גמישים מכיוון שהם יכולים להכיל מספר בלתי מוגבל של פרמטרים.
הפרמטרים של המודל וסטטוס הנתונים הנצפים נדרשים לחיזוי נתונים. הנה כמה דוגמאות טיפוסיות: מודלים לנושאים, עצי החלטה והשכנים הקרובים לק.
21. תאר סינון שיתופי. כמו גם סינון מבוסס תוכן?
שיטה בדוקה ליצירת הצעות תוכן מותאמות היא סינון שיתופי.
מערכת המלצות הנקראת סינון שיתופי מנבאת חומר חדש על ידי איזון בין העדפות המשתמש לתחומי עניין משותפים.
העדפות המשתמש הן הדבר היחיד שמערכות ממליצים מבוססות תוכן לוקחות בחשבון. לאור הבחירות הקודמות של המשתמש, ניתנות המלצות חדשות מחומר קשור.
22. למה בדיוק אתה מתכוון בסדרת Time?
סדרת זמן היא אוסף של מספרים בסדר עולה. במשך פרק זמן קבוע מראש, הוא עוקב אחר התנועה של נקודות הנתונים שנבחרו ולוכד מעת לעת את נקודות הנתונים.
אין קלט זמן מינימום או מקסימום עבור סדרות זמן.
סדרות זמן משמשות תכופות על ידי אנליסטים לניתוח נתונים בהתאם לדרישות הייחודיות שלהם.
23. תאר את הווריאציות בין האלגוריתמים של Gradient Boosting ו-Random Forest.
יער אקראי:
- מספר רב של עצי החלטה נאגרים יחדיו בסוף והם ידועים בתור יערות אקראיים.
- בעוד שהגברת שיפוע מייצרת כל עץ ללא תלות באחרים, יער אקראי בונה כל עץ אחד בכל פעם.
- רב כיתתי איתור אובייקטים עובד היטב עם יערות אקראיים.
הגברת שיפוע:
- בעוד יערות אקראיים מצטרפים לעצי החלטה בסוף התהליך, מכונות שיפור דרגות משלבות אותם מההתחלה.
- אם פרמטרים מותאמים כראוי, הגברת שיפוע מתגברת על יערות אקראיים מבחינת תוצאות, אבל זו לא בחירה חכמה אם יש במערך הנתונים הרבה חריגים, חריגות או רעש, שכן היא עלולה לגרום למודל להתאים יתר על המידה.
- כאשר יש נתונים לא מאוזנים, כפי שיש בהערכת סיכונים בזמן אמת, הגברת שיפוע מתפקדת היטב.
24. למה צריך מטריצת בלבול? מה זה?
טבלה המכונה מטריצת הבלבול, הידועה לעתים כמטריצת השגיאה, נמצאת בשימוש נרחב כדי להראות עד כמה מודל סיווג, או מסווג, מתפקד במערך נתוני בדיקה שעבורם ידועים הערכים האמיתיים.
זה מאפשר לנו לראות כיצד מודל או אלגוריתם מתפקדים. זה מקל עלינו לזהות אי הבנות בין קורסים שונים.
זה משמש כדרך להעריך עד כמה מודל או אלגוריתם מבוצעים.
התחזיות של מודל סיווג מלוקטות לתוך מטריצת בלבול. ערכי הספירה של כל תווית מחלקה שימשו לפירוק המספר הכולל של התחזיות הנכונות והשגויות.
הוא מספק פרטים על התקלות שנעשו על ידי המסווגן וכן על סוגי השגיאות השונים שנגרמו על ידי המסווגים.
25. מהו בעצם ניתוח רכיבים עקרוניים?
על ידי מזעור מספר המשתנים המתואמים אחד עם השני, המטרה היא למזער את הממדיות של איסוף הנתונים. אבל חשוב לשמור על הגיוון עד כמה שאפשר.
המשתנים משתנים לקבוצה חדשה לגמרי של משתנים הנקראים רכיבים עיקריים.
מחשבים אישיים אלה הם אורתוגונליים מכיוון שהם הווקטורים העצמיים של מטריצת שיתוף פעולה.
26. מדוע סיבוב רכיבים כה קריטי ל-PCA (ניתוח רכיבים עיקריים)?
סיבוב הוא חיוני ב-PCA מכיוון שהוא מייעל את ההפרדה בין השונות המתקבלות על ידי כל רכיב, מה שהופך את פרשנות הרכיבים לפשוטה יותר.
אנו דורשים רכיבים מורחבים כדי לבטא וריאציה של רכיבים אם הרכיבים אינם מסובבים.
27. כיצד משתנים רגוליזציה ונורמליזציה זה מזה?
נוֹרמָלִיזָצִיָה:
הנתונים משתנים במהלך הנורמליזציה. עליך לנרמל את הנתונים אם יש להם קנה מידה שונה באופן דרסטי, במיוחד מנמוך לגבוה. התאם כל עמודה כך שכל הנתונים הסטטיסטיים הבסיסיים יהיו תואמים.
כדי להבטיח שאין אובדן של דיוק, זה יכול להיות שימושי. זיהוי האות תוך התעלמות מהרעש הוא אחת המטרות של אימון מודלים.
קיים סיכוי להתאמת יתר אם הדגם יקבל שליטה מלאה כדי להפחית שגיאות.
רגוליזציה:
ברגוליזציה, פונקציית החיזוי משתנה. זה נתון לשליטה מסוימת באמצעות רגולציה, המעדיפה פונקציות התאמה פשוטות יותר על פני פונקציות מסובכות.
28. במה שונים נורמליזציה וסטנדרטיזציה זה מזה?
שתי הטכניקות הנפוצות ביותר לשינוי קנה מידה הן נורמליזציה וסטנדרטיזציה.
נוֹרמָלִיזָצִיָה:
- שינוי קנה המידה של הנתונים כך שיתאים לטווח [0,1] ידוע כנורמליזציה.
- כאשר כל הפרמטרים חייבים להיות בעלי אותו קנה מידה חיובי, נורמליזציה מועילה, אך החריגים של מערך הנתונים הולכים לאיבוד.
רגוליזציה:
- נתונים מותאמים מחדש לממוצע של 0 וסטיית תקן של 1 כחלק מתהליך התקינה (שונות יחידה)
29. מה בדיוק המשמעות של "גורם אינפלציית שונות"?
היחס בין השונות של המודל לשונות המודל עם משתנה בלתי תלוי אחד בלבד ידוע כ-variation inflation factor (VIF).
VIF מעריך את כמות הרב-קולינאריות הקיימת בקבוצה של מספר משתני רגרסיה.
שונות של המודל (VIF) מודל עם שונות משתנה עצמאי אחד
30. בהתבסס על גודל מערך האימונים, איך בוחרים מסווג?
מודל הטיה גבוהה ושונות נמוכה מניב ביצועים טובים יותר עבור ערכת אימונים קצרה, שכן סבירות נמוכה יותר להתאמת יתר. בייס נאיב הוא דוגמה אחת.
על מנת לייצג אינטראקציות מסובכות יותר עבור מערך אימונים גדול, עדיף מודל עם הטיה נמוכה ושונות גבוהה. רגרסיה לוגיסטית היא דוגמה טובה.
31. איזה אלגוריתם בלמידת מכונה מכונה "הלומד העצלן" ומדוע?
לומד איטי, KNN הוא אלגוריתם למידת מכונה. מכיוון ש-K-NN מחשב באופן דינמי מרחק בכל פעם שהוא רוצה לסווג במקום ללמוד ערכים או משתנים שנלמדו על ידי מכונה מנתוני האימון, הוא משנן את מערך האימון.
זה הופך את K-NN ללומד עצלן.
32. מהן עקומת ROC ו-AUC?
הביצועים של מודל סיווג בכל הספים מיוצגים בצורה גרפית על ידי עקומת ROC. יש לו שיעור חיובי אמיתי וקריטריונים חיוביים כוזבים.
במילים פשוטות, השטח מתחת לעקומת ROC ידוע בשם AUC (אזור מתחת לעקומת ROC). השטח הדו-ממדי של עקומת ROC מ-(0,0) ל-AUC נמדד (1,1). להערכת מודלים של סיווג בינארי, הוא משמש כנתון ביצועים.
33. מהם היפרפרמטרים? מה מייחד אותם מפרמטרי הדגם?
משתנה פנימי של המודל ידוע בתור פרמטר מודל. תוך שימוש בנתוני אימון, ערך פרמטר משוער.
לא ידוע למודל, היפרפרמטר הוא משתנה. לא ניתן לקבוע את הערך מתוך נתונים, ולכן הם משמשים לעתים קרובות כדי לחשב פרמטרים של מודל.
34. מה המשמעות של ציון F1, ריקול ודיוק?
מד הבלבול הוא המדד המשמש לאמוד את יעילות מודל הסיווג. ניתן להשתמש בביטויים הבאים כדי להסביר טוב יותר את מדד הבלבול:
TP: חיוביות אמיתיות - אלו הערכים החיוביים שצפו כראוי. זה מצביע על כך שהערכים של המחלקה המתוכננת ושל המחלקה בפועל הם שניהם חיוביים.
TN: שלילי אמיתי- אלו הם הערכים השליליים שנחזו במדויק. זה מצביע על כך שגם הערך של המחלקה בפועל וגם של המחלקה הצפויה הם שליליים.
ערכים אלה - חיוביות כוזבות ושליליות כוזבות - מתרחשים כאשר הכיתה האמיתית שלך שונה מהמחלקה הצפויה.
עכשיו,
היחס בין השיעור החיובי האמיתי (TP) לכל התצפיות שנעשו במחלקה בפועל נקרא recall, הידוע גם בשם רגישות.
הריקול הוא TP/(TP+FN).
דיוק הוא מדד לערך הניבוי החיובי, המשווה את מספר התוצאות החיוביות שהמודל באמת חוזה לכמה חיוביות נכונות הוא חוזה במדויק.
הדיוק הוא TP/(TP + FP)
מדד הביצועים הקל ביותר להבנה הוא דיוק, שהוא רק היחס בין התצפיות החזויות כהלכה לכל התצפיות.
הדיוק שווה ל-(TP+TN)/(TP+FP+FN+TN).
דיוק וריקול משוקללים וממוצעים כדי לספק את ציון F1. כתוצאה מכך, ציון זה מתייחס גם לתוצאות חיוביות שגויות וגם לשליליות שגויות.
F1 הוא לרוב בעל ערך רב יותר מדיוק, במיוחד אם יש לך התפלגות מחלקה לא שוויונית, גם אם אינטואיטיבית היא לא פשוטה להבנה כמו דיוק.
הדיוק הטוב ביותר מושג כאשר העלות של חיוביות כוזבות ושליליות כוזבות ניתנת להשוואה. עדיף לכלול גם Precision וגם Recall אם העלויות הקשורות לתוצאות חיוביות שגויות ושליליות שגויות שונות באופן משמעותי.
35. מהו בעצם אימות צולב?
גישת דגימה מחדש סטטיסטית הנקראת אימות צולב בלמידת מכונה משתמשת במספר קבוצות משנה לאימון ולהערכת אלגוריתם למידת מכונה לאורך מספר סבבים.
אצווה חדשה של נתונים שלא שימשה לאימון המודל נבדקת באמצעות אימות צולב כדי לראות עד כמה המודל מנבא זאת. התאמת נתונים יתר נמנעת באמצעות אימות צולב.
K-Fold שיטת הדגימה מחדש הנפוצה ביותר מפצלת את כל מערך הנתונים ל-K קבוצות בגדלים שווים. זה נקרא אימות צולב.
36. נניח שגילית שלדגם שלך יש שונות משמעותית. איזה אלגוריתם, לדעתך, הכי מתאים להתמודד עם המצב הזה?
ניהול שונות גבוהה
עלינו להשתמש בטכניקת השקיות לבעיות עם וריאציות גדולות.
דגימה חוזרת של נתונים אקראיים תשמש את אלגוריתם המזוודות כדי לחלק את הנתונים לתת-קבוצות. לאחר חלוקת הנתונים, נוכל להשתמש בנתונים אקראיים ונוהל הדרכה ספציפי כדי ליצור כללים.
לאחר מכן, ניתן להשתמש בסקר כדי לשלב את התחזיות של המודל.
37. מה מבדיל בין רגרסיית רידג' לבין רגרסיית לאסו?
שתי שיטות רגוליזציה בשימוש נרחב הן רגרסיית לאסו (הנקראת גם L1) ורגרסיה של רידג' (לפעמים נקראת L2). הם משמשים למניעת התאמה יתר של נתונים.
על מנת לגלות את הפתרון הטוב ביותר ולמזער את המורכבות, טכניקות אלו משמשות כדי להעניש את המקדמים. על ידי ענישה של סך הערכים האבסולוטיים של המקדמים, פועלת רגרסיית הלאסו.
פונקציית העונש ברגרסיית רכס או L2 נגזרת מסכום הריבועים של המקדמים.
38. מה יותר חשוב: ביצועי הדגם או דיוק המודל? איזה מהם ולמה תעדיפו אותו?
זו שאלה מתעתעת, ולכן צריך קודם כל להבין מה זה ביצועי מודל. אם הביצועים מוגדרים כמהירות, אז זה מסתמך על סוג היישום; כל יישום הכולל מצב בזמן אמת ידרוש מהירות גבוהה כמרכיב חיוני.
לדוגמה, תוצאות החיפוש הטובות ביותר יהפכו פחות חשובות אם יקח יותר מדי זמן להגיע לתוצאות השאילתה.
אם נעשה שימוש בביצועים כהצדקה מדוע יש לתת עדיפות לדיוק וזיכרונות מעל לדיוק, אז ציון F1 יהיה שימושי יותר מדיוק בהדגמת המקרה העסקי עבור כל מערך נתונים שאינו מאוזן.
39. איך הייתם מנהלים מערך נתונים עם אי-שוויון?
מערך נתונים לא מאוזן יכול להפיק תועלת מטכניקות דגימה. דגימה יכולה להיעשות בצורה תת או דגימה יתרה.
Under Sampling מאפשר לנו לצמצם את גודל מחלקת הרוב כדי להתאים למחלקת המיעוטים, מה שמסייע להגברת המהירות בכל הנוגע לאחסון וביצוע זמן ריצה אך יכול גם לגרום לאובדן של נתונים יקרי ערך.
על מנת לתקן את סוגיית אובדן המידע הנגרם כתוצאה מדגימת יתר, אנו מבצעים דגימה של מחלקת מיעוטים; עם זאת, זה גורם לנו להיתקל בבעיות התאמת יתר.
אסטרטגיות נוספות כוללות:
- דגימת יתר מבוססת אשכולות- מופעי מחלקות המיעוט והרוב נתונים באופן אינדיבידואלי לטכניקת האשכולות K-means במצב זה. זה נעשה כדי למצוא אשכולות נתונים. לאחר מכן, כל אשכול עובר דגימת יתר כך שלכל המחלקות יש אותו גודל ולכל האשכולות בתוך מחלקה יש מספר שווה של מופעים.
- SMOTE: Synthetic Minority Over-sampling Technique- נתח של נתונים ממחלקת המיעוטים משמש כדוגמה, ולאחר מכן מיוצרים מופעים מלאכותיים נוספים המשווים לו ומתווספים למערך הנתונים המקורי. שיטה זו עובדת היטב עם נקודות נתונים מספריות.
40. איך אתה יכול להבחין בין בוסט ל-bagging?
ל-Ensemble Techniques יש גרסאות הידועות כ-bagging and boosting.
שקיות-
עבור אלגוריתמים עם וריאציה גבוהה, שקיות היא טכניקה המשמשת להורדת השונות. משפחה אחת כזו של מסווגים הנוטה להטיה היא משפחת עצי ההחלטות.
לסוג הנתונים שעליהם מאומנים עצי החלטה יש השפעה משמעותית על הביצועים שלהם. בגלל זה, אפילו עם כוונון עדין גבוה מאוד, לעתים קשה הרבה יותר להשיג הכללה של התוצאות בהן.
אם נתוני ההכשרה של עצי ההחלטה משתנים, התוצאות משתנות באופן מהותי.
כתוצאה מכך, נעשה שימוש ב-bagging, שבו נוצרים עצי החלטה רבים, שכל אחד מהם מאומן באמצעות מדגם של הנתונים המקוריים, והתוצאה הסופית היא הממוצע של כל המודלים השונים הללו.
חיזוק:
Boosting היא הטכניקה של ביצוע תחזיות עם מערכת מסווג n-חלש שבה כל מסווג חלש מפצה על החסרונות של המסווגים החזקים שלו. אנו מתייחסים למסווג שביצועים גרועים במערך נתונים נתון כ"מסווג חלש".
חיזוק הוא ללא ספק תהליך ולא אלגוריתם. רגרסיה לוגיסטית ועצי החלטה רדודים הם דוגמאות נפוצות למסווגים חלשים.
Adaboost, Gradient Boosting ו-XGBoost הם שני אלגוריתמי החיזוק הפופולריים ביותר, עם זאת, ישנם רבים נוספים.
41. הסבר את ההבדלים בין למידה אינדוקטיבית לדדוקטיבית.
כאשר לומדים באמצעות דוגמה מתוך קבוצה של דוגמאות שנצפו, מודל משתמש בלמידה אינדוקטיבית כדי להגיע למסקנה כללית. מצד שני, בלמידה דדוקטיבית, המודל משתמש בתוצאה לפני יצירת התוצאה שלה.
למידה אינדוקטיבית היא תהליך של הסקת מסקנות מתצפיות.
למידה דדוקטיבית היא תהליך יצירת תצפיות המבוססות על מסקנות.
סיכום
מזל טוב! אלו הן 40 שאלות הראיונות המובילות ומעלה ללמידת מכונה שכעת אתה יודע את התשובות עליהן. מדע נתונים ו בינה מלאכותית מקצועות ימשיכו להיות מבוקשים ככל שהטכנולוגיה תתקדם.
מועמדים אשר מעדכנים את הידע שלהם בטכנולוגיות מתקדמות אלו ומשפרים את מערך המיומנויות שלהם יכולים למצוא מגוון רחב של אפשרויות תעסוקה בשכר תחרותי.
אתה יכול להמשיך בתשובה לראיונות עכשיו כשיש לך הבנה מוצקה כיצד להשיב לכמה משאלות הראיונות הנפוצות של למידה חישובית.
בהתאם למטרות שלך, בצע את הצעד הבא. התכוננו לראיונות על ידי ביקור אצל השדורק סדרת ראיונות.
השאירו תגובה