תוכן העניינים[להתחבא][הופעה]
- 1 טיטניק
- 2. סיווג פרחים איריים
- 3. תחזית מחירי בית בוסטון
- 4. בדיקת איכות היין
- 5. תחזית שוק המניות
- 6. המלצת סרטים
- 7. טען חיזוי זכאות
- 8. ניתוח סנטימנטים באמצעות נתוני טוויטר
- 9. תחזית מכירות עתידית
- 10. איתור חדשות מזויפות
- 11. חיזוי רכישת קופונים
- 12. חיזוי נטישה של לקוחות
- 13. חיזוי מכירות של Wallmart
- 14. ניתוח נתונים של אובר
- 15. ניתוח Covid-19
- סיכום
למידת מכונה היא מחקר פשוט כיצד לחנך תוכנית מחשב או אלגוריתם לשיפור הדרגתי בעבודה ספציפית המוצגת ברמה גבוהה. זיהוי תמונה, זיהוי הונאה, מערכות המלצות ויישומי למידת מכונה אחרים כבר הוכחו כפופולריים.
עבודות ML הופכות את עבודת האדם לפשוטה ויעילה, חוסכת זמן ומבטיחה תוצאה איכותית. אפילו גוגל, מנוע החיפוש הפופולרי בעולם, משתמשת למידת מכונה.
מניתוח השאילתה של המשתמש ושינוי התוצאה בהתבסס על התוצאות ועד להצגת נושאים מגמתיים ופרסומות ביחס לשאילתה, קיימות מגוון אפשרויות זמינות.
טכנולוגיה שהיא גם תפיסה וגם מתקנת את עצמה לא רחוקה בעתיד.
אחת הדרכים הטובות ביותר להתחיל היא להתנסות ולעצב פרויקט. לכן, ריכזנו רשימה של 15 פרויקטים מובילים של למידת מכונה למתחילים כדי להתחיל.
1. כביר
לעתים קרובות זו נחשבת לאחת המשימות הגדולות והמהנות ביותר עבור כל מי שמעוניין ללמוד עוד על למידת מכונה. אתגר הטיטאניק הוא פרויקט למידת מכונה פופולרי המשמש גם כדרך טובה להכיר את פלטפורמת מדעי הנתונים של Kaggle. מערך הנתונים של Titanic מורכב מנתונים אמיתיים מטביעת הספינה הרעה.
הוא כולל פרטים כמו גיל האדם, מצבו הסוציו-אקונומי, מין, מספר התא, נמל היציאה, והכי חשוב, האם הוא שרד!
טכניקת K-Nearest Neighbour ומסווג עץ ההחלטות היו נחושים להפיק את התוצאות הטובות ביותר עבור פרויקט זה. אם אתה מחפש אתגר סוף שבוע מהיר לשיפור שלך יכולות למידת מכונה, זה על Kaggle הוא בשבילך.
2. סיווג פרחים איריים
מתחילים אוהבים את פרויקט סיווג פרחי הקשתית, וזה מקום מצוין להתחיל בו אם אתה חדש בלמידת מכונה. אורכם של עלי גביע ועלי כותרת מבדיל את פריחת האירוס ממינים אחרים. מטרת הפרויקט היא להפריד את הפריחה לשלושה מינים: וירג'יניה, סטוסה ו-Versicolor.
עבור תרגילי סיווג, הפרויקט משתמש במערך הנתונים של פרחי איריס, המסייע ללומדים ללמוד את היסודות של התמודדות עם ערכים ונתונים מספריים. מערך הנתונים של פרחי הקשתית הוא אחד זעיר שניתן לאחסן בזיכרון ללא צורך בשינוי קנה מידה.
3. תחזית מחירי בית בוסטון
עוד ידוע מערך נתונים עבור טירונים בלמידת מכונה הם נתוני בוסטון דיור. מטרתו היא לחזות ערכי בתים בשכונות שונות בבוסטון. הוא כולל נתונים סטטיסטיים חיוניים כמו גיל, שיעור ארנונה, שיעור פשיעה ואפילו קרבה למרכזי עבודה, כל אלה עשויים להשפיע על תמחור הדיור.
מערך הנתונים הוא פשוט וזעיר, מה שהופך אותו לפשוט להתנסות עבור טירונים. כדי להבין אילו גורמים משפיעים על מחיר הנכס בבוסטון, טכניקות רגרסיה מופעלות רבות בפרמטרים שונים. זה מקום מצוין לתרגל טכניקות רגרסיה ולהעריך עד כמה הן עובדות.
4. בדיקת איכות היין
יין הוא משקה אלכוהולי יוצא דופן הדורש שנים של תסיסה. כתוצאה מכך, בקבוק היין העתיק הוא יין יקר ואיכותי. בחירת בקבוק היין האידיאלי דורשת ידע של שנים של טעימות יין, וזה יכול להיות תהליך של פגיעה או החמצה.
פרויקט בדיקת איכות היין מעריך יינות באמצעות מבחנים פיזיקוכימיים כגון רמת אלכוהול, חומציות קבועה, צפיפות, pH וגורמים נוספים. הפרויקט קובע גם את קריטריוני האיכות והכמויות של היין. כתוצאה מכך, רכישת יין הופכת להיות משב רוח.
5. תחזית שוק המניות
היוזמה הזו מסקרנת בין אם אתה עובד במגזר הפיננסי ובין אם לאו. נתוני שוק המניות נלמדים בהרחבה על ידי אקדמאים, עסקים ואפילו כמקור להכנסה משנית. היכולת של מדען נתונים לחקור ולחקור נתוני סדרות זמן היא גם חיונית. נתונים משוק המניות הם מקום מצוין להתחיל בו.
מהות המאמץ היא לחזות את הערך העתידי של מניה. זה מבוסס על ביצועי השוק הנוכחיים כמו גם סטטיסטיקות משנים קודמות. Kaggle אוספת נתונים על מדד NIFTY-50 מאז שנת 2000, והוא מתעדכן כעת מדי שבוע. מאז 1 בינואר 2000, הוא מכיל מחירי מניות של למעלה מ-50 ארגונים.
6. המלצה על סרטים
אני בטוח שהייתה לך את ההרגשה הזו אחרי שראית סרט טוב. האם אי פעם הרגשת את הדחף לעורר את החושים שלך על ידי צפייה מוגזמת בסרטים דומים?
אנו יודעים ששירותי OTT כמו Netflix שיפרו משמעותית את מערכות ההמלצות שלהם. כתלמיד למידת מכונה, תצטרך להבין כיצד אלגוריתמים כאלה מכוונים ללקוחות על סמך העדפותיהם וסקירותיהם.
מערך הנתונים של IMDB על Kaggle הוא ככל הנראה אחד המלאים ביותר, המאפשר להסיק מודלים של המלצות על סמך שם הסרט, דירוג הלקוחות, הז'אנר וגורמים אחרים. זוהי גם שיטה מצוינת ללמוד על סינון מבוסס תוכן והנדסת תכונות.
7. טען חיזוי זכאות
העולם סובב סביב הלוואות. מקור הרווח העיקרי של הבנקים מגיע מריבית על הלוואות. מכאן שהם העסק הבסיסי שלהם.
יחידים או קבוצות של אנשים יכולים להרחיב כלכלות רק על ידי השקעת כסף בחברה בתקווה לראות אותה עולה בערכה בעתיד. לפעמים חשוב לחפש הלוואה כדי להיות מסוגל לקחת סיכונים מסוג זה ואפילו להשתתף בהנאות עולמיות מסוימות.
לפני קבלת הלוואה, לבנקים יש בדרך כלל תהליך קפדני למדי. מכיוון שהלוואות הן היבט כה מכריע בחייהם של אנשים רבים, חיזוי זכאות להלוואה שמישהו מבקש לה יהיה מועיל ביותר, ומאפשר תכנון טוב יותר מעבר להלוואה שנתקבלה או סירובה.
8. ניתוח סנטימנטים באמצעות נתוני טוויטר
תודה רשתות מדיה חברתית כמו טוויטר, פייסבוק ו-Reddit, האקסטרפולציה של דעות ומגמות נעשתה קלה במידה ניכרת. מידע זה משמש לביטול דעות על אירועים, אנשים, ספורט ונושאים אחרים. יוזמות למידת מכונה הקשורות לכריית דעות מיושמות במגוון הגדרות, כולל קמפיינים פוליטיים והערכות מוצרים של אמזון.
הפרויקט הזה ייראה פנטסטי בתיק העבודות שלך! עבור זיהוי רגשות וניתוח מבוסס היבטים, ניתן להשתמש בטכניקות כגון תמיכה במכונות וקטור, רגרסיה ואלגוריתמים לסיווג (מציאת עובדות ודעות).
9. תחזית מכירות עתידית
עסקים גדולים וסוחרים B2C רוצים לדעת כמה כל מוצר במלאי שלהם ימכור. חיזוי מכירות מסייע לבעלי עסקים לקבוע לאילו פריטים יש ביקוש גבוה. תחזית מכירות מדויקת תפחית משמעותית את הבזבוז תוך קביעת ההשפעה המצטברת על תקציבים עתידיים.
קמעונאים כגון Walmart, IKEA, Big Basket, ו-Big Bazaar משתמשים בתחזית מכירות כדי להעריך את הביקוש למוצרים. עליך להכיר טכניקות שונות של ניקוי נתונים גולמיים על מנת לבנות פרויקטי ML כאלה. כמו כן, נדרשת הבנה טובה של ניתוח רגרסיה, במיוחד רגרסיה ליניארית פשוטה.
עבור משימות מסוג זה, תצטרך להעסיק ספריות כמו Dora, Scrubadub, Pandas, NumPy ואחרות.
10. זיהוי חדשות מזויפות
זהו עוד מאמץ למידת מכונה חדשנית המכוונת לתלמידי בית ספר. חדשות מזויפות מתפשטות כמו אש בשדה קוצים, כפי שכולנו יודעים. הכל זמין ברשתות החברתיות, מחיבור בין אנשים לקריאת החדשות היומיות.
כתוצאה מכך, זיהוי חדשות כוזבות נעשה קשה יותר ויותר בימים אלה. רשתות מדיה חברתיות גדולות רבות, כמו פייסבוק וטוויטר, כבר קיימות אלגוריתמים כדי לזהות חדשות מזויפות בפוסטים ובעדכונים.
כדי לזהות חדשות כוזבות, סוג זה של פרויקט ML זקוק להבנה מעמיקה של מספר גישות NLP ואלגוריתמי סיווג (PassiveAggressiveClassifier או Naive Bayes classifier).
11. חיזוי רכישת קופונים
לקוחות שוקלים יותר ויותר לקנות באינטרנט כאשר נגיף הקורונה תקף את כדור הארץ בשנת 2020. כתוצאה מכך, מפעלי קניות נאלצו להעביר את העסק שלהם באינטרנט.
לקוחות, לעומת זאת, עדיין מחפשים הצעות נהדרות, בדיוק כפי שהיו בחנויות, ומחפשים יותר ויותר קופונים חסכוניים. ישנם אפילו אתרים המוקדשים ליצירת קופונים עבור לקוחות כאלה. אתה יכול ללמוד על כריית נתונים בלמידת מכונה, הפקת גרפי עמודות, תרשימי עוגה והיסטוגרמות כדי להמחיש נתונים ולהנדסת תכונות עם הפרויקט הזה.
כדי ליצור תחזיות, אתה יכול גם לבדוק גישות זקיפת נתונים לניהול ערכי NA ודמיון קוסינוס של משתנים.
12. חיזוי נקישת לקוחות
צרכנים הם הנכס החשוב ביותר של החברה, והשמירה עליהם היא חיונית עבור כל עסק שמטרתו להגדיל את ההכנסות ולבנות איתם קשרים משמעותיים לטווח ארוך.
יתר על כן, עלות רכישת לקוח חדש גבוהה פי חמישה מעלות אחזקת לקוח קיים. נטישה/שחיקה של לקוחות היא בעיה עסקית ידועה שבה לקוחות או מנויים מפסיקים לעשות עסקים עם שירות או חברה.
באופן אידיאלי הם כבר לא יהיו לקוח משלם. לקוח נחשב נדחה אם חלף פרק זמן מסוים מאז שהלקוח יצר אינטראקציה אחרונה עם החברה. זיהוי האם לקוח יתנתק, כמו גם מתן מידע רלוונטי המיועד לשימור לקוחות במהירות, הם חיוניים להורדת הנטישה.
המוח שלנו אינו מסוגל לצפות מחזור לקוחות עבור מיליוני לקוחות; כאן למידת מכונה יכולה לעזור.
13. תחזית מכירות של Wallmart
אחד היישומים הבולטים של למידת מכונה הוא חיזוי מכירות, הכולל זיהוי מאפיינים המשפיעים על מכירות המוצרים וציפייה לנפח מכירות עתידי.
מערך הנתונים של Walmart, המכיל נתוני מכירות מ-45 מיקומים, משמש במחקר למידת מכונה זה. מכירות לחנות, לפי קטגוריות, על בסיס שבועי נכללות במערך הנתונים. מטרת פרויקט למידת מכונה זה היא לצפות את המכירות עבור כל מחלקה בכל אאוטלט, כך שיוכלו לקבל החלטות טובות יותר לגבי אופטימיזציה של ערוצים מבוססי נתונים ותכנון מלאי.
קשה לעבוד עם מערך הנתונים של Walmart מכיוון שהוא מכיל אירועי סימון נבחרים שיש להם השפעה על המכירות ויש לקחת בחשבון.
14. ניתוח נתונים של אובר
כשזה מגיע להטמעה ושילוב של למידת מכונה ולמידה עמוקה באפליקציות שלהם, שירות שיתוף הנסיעות הפופולרי לא רחוק מאחור. מדי שנה היא מעבדת מיליארדי נסיעות, ומאפשרת לנוסעים לנסוע בכל שעה ביום ובלילה.
מכיוון שיש לה בסיס לקוחות כה גדול, היא זקוקה לשירות לקוחות יוצא דופן כדי לטפל בתלונות צרכנים במהירות האפשרית.
לאובר יש מערך נתונים של מיליוני איסוףים שבהם היא יכולה להשתמש כדי לנתח ולהציג נסיעות של לקוחות כדי לחשוף תובנות ולשפר את חווית הלקוח.
15. ניתוח Covid-19
COVID-19 שטף את העולם היום, ולא רק במובן של מגיפה. בעוד מומחים רפואיים מתרכזים ביצירת חיסונים יעילים ובחיסון העולם, מדעני נתונים לא הרחק מאחור.
מקרים חדשים, ספירת פעילות יומית, מקרי מוות וסטטיסטיקות בדיקות מתפרסמים כולם. התחזיות נעשות על בסיס יומי על סמך התפרצות ה-SARS של המאה הקודמת. לשם כך, אתה יכול להשתמש בניתוח רגרסיה ולתמוך במודלים חיזויים מבוססי מכונות וקטורים.
סיכום
לסיכום, דנו בכמה מפרויקטי ה-ML המובילים שיסייעו לך בבדיקת תכנות למידת מכונה, כמו גם בהבנת הרעיונות והיישום שלה. הידיעה כיצד לשלב Machine Learning יכולה לעזור לך להתקדם במקצוע שלך כאשר הטכנולוגיה משתלטת בכל תעשייה.
בזמן לימוד למידת מכונה, אנו ממליצים לך לתרגל את המושגים שלך ולכתוב את כל האלגוריתמים שלך. כתיבת אלגוריתמים תוך כדי למידה חשובה יותר מביצוע פרויקט, והיא גם מעניקה לכם יתרון בהבנה נכונה של הנושאים.
השאירו תגובה