אחד הקריטריונים העיקריים לכל סוג של פעילות ארגונית הוא ניצול יעיל של מידע. בשלב מסוים, נפח הנתונים שנוצר עולה על הקיבולת של עיבוד בסיסי.
זה המקום שבו אלגוריתמי למידת מכונה נכנסים לתמונה. עם זאת, לפני שכל זה יכול להתרחש, יש ללמוד ולפרש את המידע. בקיצור, לשם כך משמשת למידת מכונה ללא פיקוח.
במאמר זה, נבחן לעומק למידת מכונה ללא פיקוח, כולל האלגוריתמים שלה, מקרי שימוש ועוד הרבה יותר.
מהי למידת מכונה ללא פיקוח?
אלגוריתמים של למידת מכונה ללא פיקוח מזהים דפוסים במערך נתונים שאין להם תוצאה ידועה או מסומנת. בפיקוח אלגוריתמים למידת מכונה יש פלט מסומן.
הכרת ההבחנה הזו עוזרת לך להבין מדוע לא ניתן להשתמש בשיטות למידת מכונה ללא פיקוח כדי לפתור בעיות רגרסיה או סיווג, מכיוון שאינך יודע מה הערך/התשובה של נתוני הפלט יכולים להיות. אתה לא יכול לאמן אלגוריתם בדרך כלל אם אתה לא יודע את הערך/תשובה.
יתרה מכך, ניתן להשתמש בלמידה ללא פיקוח כדי לזהות את המבנה הבסיסי של הנתונים. אלגוריתמים אלו מזהים דפוסים נסתרים או קיבוץ נתונים ללא צורך באינטראקציה אנושית.
היכולת שלו לזהות קווי דמיון וניגודים במידע הופכת אותו לבחירה מצוינת עבור ניתוח נתונים חקרני, טכניקות מכירות צולבות, פילוח צרכנים וזיהוי תמונות.
שקול את התרחיש הבא: אתה נמצא במכולת ורואה פרי לא מזוהה שלא ראית מעולם. אתה יכול בקלות להבחין בין הפרי הלא ידוע השונה מפירות אחרים בסביבה על סמך התצפיות שלך על צורתו, גודלו או צבעו.
אלגוריתמים ללא פיקוח של למידת מכונה
אשכולות
אשכולות היא ללא ספק גישת הלמידה הבלתי מפוקחת הנפוצה ביותר. גישה זו מכניסה פריטי נתונים קשורים לאשכולות שנוצרו באופן אקראי.
כשלעצמו, מודל ML מגלה דפוסים, קווי דמיון ו/או הבדלים במבנה נתונים לא מסווג. מודל יוכל לגלות קבוצות או מחלקות טבעיות בנתונים.
סוגים
ישנן מספר צורות של מקבץ שניתן להשתמש בהן. בואו נסתכל תחילה על החשובים שבהם.
- אשכול בלעדי, המכונה לפעמים אשכול "קשה", הוא סוג של קיבוץ שבו פיסת נתונים בודדת שייכת לאשכול אחד בלבד.
- אשכולות חופפים, המכונה לעתים קרובות אשכול "רך", מאפשר לאובייקטי נתונים להשתייך ליותר מאשכול אחד בדרגות שונות. יתרה מזאת, ניתן להשתמש באשכול הסתברותי כדי להתמודד עם בעיות של צבירה "רכה" או הערכת צפיפות, כמו גם להעריך את ההסתברות או הסבירות של נקודות נתונים השייכות לאשכולות מסוימים.
- יצירת היררכיה של פריטי נתונים מקובצים היא המטרה של אשכול היררכי, כפי שהשם מעיד. פריטי נתונים מפורקים או משולבים על סמך ההיררכיה כדי ליצור אשכולות.
השתמש במקרים:
- זיהוי אנומליות:
ניתן לזהות כל סוג של חריג בנתונים באמצעות אשכולות. חברות בתחום התחבורה והלוגיסטיקה, למשל, יכולות להשתמש באיתור חריגות כדי לגלות קשיים לוגיסטיים או לחשוף חלקים מכניים פגומים (תחזוקה חזויה).
מוסדות פיננסיים יכולים להשתמש בטכנולוגיה כדי לזהות עסקאות הונאה ולהגיב במהירות, מה שעלול לחסוך כסף רב. למד עוד על איתור חריגות והונאה על ידי צפייה בסרטון שלנו.
- פילוח לקוחות ושווקים:
אלגוריתמי אשכול יכולים לסייע בקיבוץ אנשים בעלי מאפיינים דומים וליצור פרסונות צרכניות לשיווק יעיל יותר ויוזמות ממוקדות.
K- אמצעים
K-means היא שיטת אשכול המוכרת גם כחלוקה או פילוח. הוא מחלק את נקודות הנתונים למספר קבוע מראש של אשכולות המכונה K.
בשיטת K-means, K הוא הקלט מכיוון שאתה אומר למחשב כמה אשכולות אתה רוצה לזהות בנתונים שלך. כל פריט נתונים מוקצה לאחר מכן למרכז האשכול הקרוב ביותר, המכונה מרכז (נקודות שחורות בתמונה).
האחרונים משמשים כחללי אחסון נתונים. ניתן לבצע את טכניקת האשכולות מספר רב של פעמים עד שהאשכולות מוגדרים היטב.
פירוש K מטושטש
Fuzzy K-means היא הרחבה של טכניקת K-means, המשמשת לביצוע אשכולות חופפים. בניגוד לטכניקת K-means, K-means מטושטשים מצביעים על כך שנקודות נתונים עשויות להיות שייכות לאשכולות רבים עם דרגות שונות של קרבה לכל אחד.
המרחק בין נקודות הנתונים למרכז האשכול משמש לחישוב הקרבה. כתוצאה מכך, יכולים להיות מקרים שבהם אשכולות שונים חופפים.
דגמי תערובת גאוסים
מודלים של תערובת גאוסים (GMMs) הם שיטה המשמשת לאשכול הסתברותי. מכיוון שהממוצע והשונות אינם ידועים, המודלים מניחים שיש מספר קבוע של התפלגויות גאוסיות, שכל אחת מהן מייצגת צביר מובחן.
כדי לקבוע לאיזה אשכול שייך נקודת נתונים ספציפית, נעשה שימוש בעצם בשיטה.
אשכולות היררכית
אסטרטגיית האשכולות ההיררכית יכולה להתחיל עם כל נקודת נתונים שהוקצתה לאשכול אחר. שני האשכולות הקרובים ביותר זה לזה מתמזגים לאחר מכן לאשכול אחד. מיזוג איטרטיבי נמשך עד שרק אשכול אחד נשאר בחלק העליון.
שיטה זו ידועה בשם מלמטה למעלה או אגלומרטיבית. אם אתה מתחיל עם כל פריטי הנתונים הקשורים לאותו אשכול ולאחר מכן מבצעים פיצולים עד שכל פריט נתונים יוקצה כאשכול נפרד, השיטה ידועה כאשכול היררכי מלמעלה למטה או מחלק.
אלגוריתם אפרורי
ניתוח סל שוק הפך את האלגוריתמים האפריוריים לפופולריים, והביא למנועי המלצות שונים עבור פלטפורמות מוזיקה וחנויות מקוונות.
הם משמשים במערכי נתונים עסקיים כדי למצוא ערכות פריטים תכופות, או קבוצות של פריטים, על מנת לחזות את הסבירות לצרוך מוצר אחד על סמך הצריכה של אחר.
לדוגמה, אם אתחיל לנגן ברדיו של OneRepublic בספוטיפיי עם "Counting Stars", אחד מהשירים האחרים בערוץ הזה יהיה בוודאי שיר של Imagine Dragon, כמו "Bad Liar".
זה מבוסס על הרגלי ההקשבה הקודמים שלי כמו גם על דפוסי ההקשבה של אחרים. שיטות Apriori סופרות ערכות פריטים באמצעות עץ hash, חוצה את רוחב מערך הנתונים תחילה.
צמצום ממדיות
הפחתת מימדיות היא מעין למידה ללא פיקוח המשתמשת באוסף של אסטרטגיות כדי למזער את מספר התכונות - או הממדים - במערך נתונים. הרשו לנו להבהיר.
זה יכול להיות מפתה לשלב כמה שיותר נתונים בזמן יצירת שלך מערך נתונים עבור למידת מכונה. אל תבינו אותנו לא נכון: אסטרטגיה זו עובדת היטב מכיוון שכמות גדולה יותר של נתונים בדרך כלל מניבה ממצאים מדויקים יותר.
נניח שהנתונים מאוחסנים במרחב N-ממדי, כאשר כל תכונה מייצגת מימד אחר. ייתכן שיהיו מאות ממדים אם יש הרבה נתונים.
שקול גיליונות אלקטרוניים של Excel, עם עמודות המייצגות מאפיינים ושורות המייצגות פריטי נתונים. כאשר יש יותר מדי ממדים, אלגוריתמי ML עשויים לתפקד בצורה גרועה נתונים להדמיה יכול להיות קשה.
אז זה הופך את זה להגיוני להגביל את המאפיינים או הממדים, ולהעביר רק מידע רלוונטי. הפחתת הממדיות היא בדיוק זה. זה מאפשר כמות ניתנת לניהול של קלט נתונים מבלי לפגוע בשלמות מערך הנתונים.
ניתוח רכיבים עיקרי (PCA)
ניתוח הרכיבים העיקרי הוא גישת הפחתת מימדיות. הוא משמש כדי למזער את מספר התכונות במערכי נתונים ענקיים, וכתוצאה מכך פשטות נתונים רבה יותר מבלי להקריב את הדיוק.
דחיסת מערכי נתונים מתבצעת על ידי שיטה המכונה מיצוי תכונות. זה מציין שאלמנטים מהסט המקורי מתמזגים לאחד חדש וקטן יותר. תכונות חדשות אלו ידועות כמרכיבים ראשוניים.
כמובן, ישנם אלגוריתמים נוספים שבהם אתה יכול להשתמש ביישומי למידה ללא פיקוח שלך. אלה המפורטים לעיל הם רק הנפוצים ביותר, וזו הסיבה שהם נדונים ביתר פירוט.
יישום של למידה ללא פיקוח
- שיטות למידה ללא פיקוח משמשות למשימות תפיסה חזותית כגון זיהוי אובייקטים.
- למידת מכונה ללא פיקוח מעניקה היבטים קריטיים למערכות הדמיה רפואיות, כגון זיהוי תמונה, סיווג ופילוח, המשמשות ברדיולוגיה ופתולוגיה כדי לאבחן מטופלים במהירות ובאמינות.
- למידה ללא פיקוח יכולה לסייע בזיהוי מגמות נתונים שניתן להשתמש בהן כדי ליצור אסטרטגיות מכירות צולבות יעילות יותר תוך שימוש בנתוני עבר על התנהגות צרכנים. במהלך תהליך התשלום, זה משמש עסקים מקוונים כדי להציע ללקוחות את התוספות הנכונות.
- שיטות למידה ללא פיקוח יכולות לנפות כמויות אדירות של נתונים כדי למצוא חריגים. חריגות אלו עלולות להעלות את ההודעה על ציוד לא תקין, טעות אנוש או פרצות אבטחה.
בעיות בלמידה ללא פיקוח
למידה ללא פיקוח מושכת במגוון דרכים, החל מהפוטנציאל למצוא תובנות חשובות לגבי נתונים כדי למנוע תיוג נתונים יקר פעולות. עם זאת, ישנם מספר חסרונות לשימוש באסטרטגיה זו לאימון מודלים ללימוד מכונה שאתה צריך להיות מודע אליו. הנה כמה דוגמאות.
- מכיוון שלנתוני הקלט אין תוויות המשמשות כמפתחות תגובה, התוצאות של מודלים של למידה ללא פיקוח עלולות להיות פחות מדויקות.
- למידה ללא פיקוח עובדת לעתים קרובות עם מערכי נתונים מסיביים, מה שיכול להגביר את המורכבות החישובית.
- הגישה מחייבת אישור פלט על ידי בני אדם, מומחים פנימיים או חיצוניים בנושא החקירה.
- אלגוריתמים חייבים לבחון ולחשב כל תרחיש אפשרי לאורך שלב האימון, שלוקח זמן מה.
סיכום
ניצול יעיל של נתונים הוא המפתח לביסוס יתרון תחרותי בשוק מסוים.
אתה יכול לפלח את הנתונים באמצעות אלגוריתמים ללא פיקוח של למידת מכונה כדי לבחון את ההעדפות של קהל היעד שלך או כדי לקבוע כיצד זיהום מסוים מגיב לטיפול מסוים.
ישנם מספר יישומים מעשיים, ו מדעני נתונים, מהנדסים ואדריכלים יכולים לסייע לך בהגדרת המטרות שלך ובפיתוח פתרונות ML ייחודיים עבור החברה שלך.
השאירו תגובה