כל פרויקט למידת מכונה מסתמך על מערך נתונים טוב. מערך הנתונים הגדול הזה הוא שיאפשר לך לאמן ולאמת את מודל ה-ML שלך. לכן, חלק גדול מהעבודה בפרויקט ML הוא למצוא את מערך הנתונים המושלם לצרכים שלך. עם זאת, לא תמיד ניתן למצוא אופציה שמתאימה לשאיפה שלך, כמו קבצים רבים שנראים מעניינים, בסופו של דבר, לא.
זה יכול להיות מרתיע לבזבז זמן בהורדת אינספור מערכי נתונים עד שתגיע לסט אידאלי. עם זאת בחשבון, אספנו כמה אפשרויות שנראות מעניינות ויכולות לעזור לך לפתח את פרויקט ה-ML שלך. שימו לב שחלקם מיועדים לשימוש אישי במקום מסחרי, אז ראו את האפשרויות הללו כדרך לצבור ניסיון ביקום ה-ML.
יסודות מערכי נתונים
לפני שנזכיר את מערכי הנתונים, עלינו להגדיר כמה מונחים. בפרויקטים של בינה מלאכותית, במיוחד למידת מכונה, נדרשת כמות גדולה של נתונים, אשר ישמשו לאימון האלגוריתם. כמות הנתונים הזו נאספת במסד נתונים, וזה שימושי ביותר ללמד אלגוריתם.
בעזרת הנתונים הללו, האלגוריתם מאומן – גם נבדק – והופך להיות מסוגל למצוא דפוסים, ליצור קשרים וכך לקבל החלטות באופן אוטונומי. בלי הכשרה, למידת מכונה אלגוריתמים אינם מסוגלים לבצע שום פעולה. לכן, ככל שנתוני האימון טובים יותר, כך המודל יתפקד טוב יותר. כדי שמסד נתונים יהיה שימושי לפרויקט, זה לא קשור לכמות: זה גם לגבי סיווג.
באופן אידיאלי, הנתונים צריכים להיות מסומנים היטב. חשבו על המקרה של צ'אטבוטים: הכנסת שפה חשובה, אבל יש לבצע ניתוח תחבירי קפדני כדי שהאלגוריתם שנוצר יוכל להבין מתי בן השיח משתמש בסלנג. רק אז העוזר הוירטואלי יוכל להפעיל את התשובה לפי מה שהתבקש על ידי המשתמש.
ניתן להפיק מערכי נתונים מסקרים, נתוני רכישת משתמשים, הערכות שנותרו בשירותים ובדרכים רבות אחרות המאפשרות איסוף מידע שימושי המאורגן בעמודות ובשורות בקובץ CSV.
לפני שאתם יוצאים לחיפוש אחר מערך הנתונים המושלם, חשוב שתדעו את מטרת הפרויקט שלכם, במיוחד אם הוא מאזור מסוים, כגון מזג אוויר, פיננסים, בריאות וכו'. זה יכתיב את המקור שממנו תביא את המקור שלך מערך נתונים.
מערכי נתונים עבור ML
אימון צ'טבוט
צ'אט בוט יעיל דורש כמות עצומה של נתוני אימון על מנת לפתור במהירות פניות של משתמשים ללא התערבות אנושית. עם זאת, צוואר הבקבוק העיקרי בפיתוח צ'אטבוט הוא השגת נתוני דיאלוג מציאותיים, מוכווני משימות, כדי להכשיר את המערכות מבוססות Machine Learning.
מערך נתונים של שיחה אוסף נתונים בפורמט של שאלות ותשובות. זה אידיאלי לאימון צ'אטבוטים שיתנו תשובות אוטומטיות לקהל. ללא נתונים אלה, הצ'אט בוט לא יצליח לפתור במהירות פניות של משתמשים או לענות על שאלות משתמשים ללא צורך בהתערבות אנושית.
באמצעות מערכי נתונים אלה, עסקים יכולים ליצור כלי המספק תשובות מהירות ללקוחות 24/7 והוא זול משמעותית מאשר צוות של אנשים העוסקים בתמיכת לקוחות.
1. מערך נתונים של שאלה-תשובה
מערך נתונים זה מספק קבוצה של מאמרים, שאלות ויקיפדיה והתשובות שנוצרו באופן ידני בהתאמה. זהו מערך נתונים שנאסף בין 2008 ל-2010 לשימוש ב מחקר אקדמי.
2. נתוני שפה
Language Data הוא מסד נתונים המנוהל על ידי Yahoo עם מידע שנוצר מחלק משירותי החברה, כגון Yahoo! Answer, הפועלת כקהילה פתוחה למשתמשים לפרסם שאלות ותשובות.
3. WikiQA
קורפוס WikiQA מורכב גם מקבוצה של שאלות ותשובות. מקור השאלות הוא בינג, בעוד התשובות מקשרות לדף ויקיפדיה עם פוטנציאל לפתור את השאלה הראשונית.
בסך הכל, יש יותר מ-3,000 שאלות וקבוצה של 29,258 משפטים במערך הנתונים, מתוכם כ-1,400 סווגו כתשובות לשאלה מקבילה.
נתוני ממשלה
מערכי נתונים שנוצרו על ידי ממשלות מביאים נתונים דמוגרפיים, שהם תשומות נהדרות לפרויקטים הקשורים להבנת מגמות חברתיות, יצירת מדיניות ציבורית ושיפור החברה. זה יכול להיות שימושי עבור קמפיינים פוליטיים, פרסום ממוקד או ניתוח שוק.
מערכי נתונים אלה מכילים בדרך כלל נתונים אנונימיים, כך שבעוד שהמודלים יכולים לגשת לנתונים הגולמיים, אין הפרות של הפרטיות האישית.
4. Data.gov
Data.gov, שהושק ב-2009, הוא המקור לנתונים בצפון אמריקה. הקטלוג שלה מרשים: יותר מ-218,000 מערכי נתונים המאפשרים פילוח לפי פורמט, תגים, סוגים ונושאים.
5. פורטל נתונים פתוח של האיחוד האירופי
פורטל הנתונים הפתוח של האיחוד האירופי מספק גישה לנתונים פתוחים המשותפים למוסדות האיחוד האירופי. אלו נתונים שיכולים להיות מיועדים לשימוש מסחרי ולא מסחרי. לרשות המשתמש עומדים יותר מ-15.5 אלף מערכי נתונים, המכסים נושאים כמו בריאות, אנרגיה, סביבה, תרבות וחינוך.
נתוני בריאות
בעקבות משבר הבריאות המתמשך ברחבי העולם, מערכי נתונים שנוצרו על ידי ארגוני בריאות חיוניים לפיתוח פתרונות יעילים להצלת חיים. מערכי נתונים אלה יכולים לסייע בזיהוי גורמי הסיכון, לבחון דפוסי העברת מחלות ולהאיץ את האבחנה.
מערכי נתונים אלה מורכבים מרשומות בריאות, נתונים דמוגרפיים של חולים, שכיחות מחלות, שימוש רפואי, ערכים תזונתיים ועוד.
6. מצפה הבריאות העולמי
מערך נתונים זה הוא יוזמה של ארגון הבריאות העולמי (WHO). הוא מספק נתונים ציבוריים הקשורים לתחומי בריאות שונים, המאורגנים לפי נושאים כמו מערכות בריאות, בקרת שימוש בטבק, יולדות, HIV/איידס וכו'. ישנה גם אפשרות לעיין בנתונים על COVID-19.
7. CORD-19
CORD-19 הוא קורפוס של פרסומים אקדמיים על COVID-19 ומאמרים אחרים על נגיף הקורונה החדש. זהו מערך נתונים פתוח שנועד לייצר תובנות חדשות על COVID-19.
נתונים כלכליים
מערכי נתונים הקשורים לסביבה הפיננסית אוספים בדרך כלל כמות עצומה של מידע, שכן מקובל שהם נאספים במשך זמן רב. הם אידיאליים ליצירת תחזיות כלכליות או ביסוס מגמות השקעה.
עם מערכי הנתונים הפיננסיים הנכונים, א מודל Machine Learning עשוי להיות מסוגל לחזות את ההתנהגות של נכס נתון. זו הסיבה שהמגזר הפיננסי עושה כל שביכולתו כדי ליצור מודל ML יעיל, שכן כל דבר שיכול לחזות אפילו בצורה סבירה יש לו פוטנציאל להניב מיליוני דולרים. למידת מכונה כבר מנבאת את התנהגות האזרחים, מה שמשפיע על האופן שבו קובעי המדיניות עושים את עבודתם.
8. קרן המטבע הבינלאומית
מערך הנתונים של IMF מכיל מגוון של אינדיקטורים כלכליים ופיננסיים, סטטיסטיקות של מדינות חברות ונתוני הלוואות ושערי חליפין אחרים.
9. בנק עולמי
המאגר של הבנק העולמי מכיל מערכי נתונים שונים עם מידע כלכלי ממדינות שונות. ישנם יותר מ-17,000 מערכי נתונים מחולקים לפי יבשות.
ביקורות על מוצרים ושירותים
ניתוח סנטימנט מצא את היישומים שלו בתחומים שונים שעוזרים כעת לארגונים להעריך וללמוד מלקוחותיהם או מלקוחותיהם בצורה נכונה. ניתוח סנטימנטים משמש יותר ויותר לניטור מדיה חברתית, ניטור מותג, קול הלקוח (VoC), שירות לקוחות וחקר שוק.
ניתוח סנטימנטים משתמש ב-NLP (תכנות נוירו-לשוני) שיטות ואלגוריתמים המבוססים על כללים, היברידיים או מסתמכים על טכניקות Machine Learning כדי ללמוד נתונים ממערכי נתונים.
הנתונים הדרושים בניתוח סנטימנט צריכים להיות מיוחדים ונדרשים בכמויות גדולות. החלק המאתגר ביותר בתהליך האימון לניתוח סנטימנטים הוא לא למצוא נתונים בכמויות גדולות; במקום זאת, זה למצוא את מערכי הנתונים הרלוונטיים. מערכי נתונים אלה חייבים לכסות תחום רחב של יישומי ניתוח סנטימנטים ומקרי שימוש.
10. ביקורות על אמזון
מערך נתונים זה מכיל כ-35 מיליון סקירות של אמזון, המשתרע על פני תקופה של 18 שנים של מידע שנאסף. זהו מערך נתונים של תוכן מוצרים, משתמשים וביקורות.
11. ביקורות Yelp
Yelp מציעה גם מערך נתונים המבוסס על מידע שנאסף מהשירות שלה. יש למעלה מ-8 מיליון ביקורות, מיליון טיפים, ועוד כמעט 1 מיליון תכונות הקשורות לעסקים, כמו שעות פתיחה וזמינות.
12. ביקורות IMDB
מאגר זה מכיל מערך של יותר מ-25 אלף ביקורות סרטים להדרכה ועוד 25 אלף למבחנים שנלקחו באופן לא פורמלי מעמוד IMDB, המתמחה בדירוגי סרטים. הוא גם מציע נתונים ללא תווית כתוספת.
מערכי נתונים לשלבים הראשונים ב-ML
13. מערך נתונים על איכות היין
מערך נתונים זה מספק מידע הקשור ליין, אדום וירוק, המיוצר בצפון פורטוגל. המטרה היא להגדיר את איכות היין על סמך בדיקות פיזיקוכימיות. מעניין למי שרוצה להתאמן ביצירת מערכת חיזוי.
14. מערך הנתונים של טיטאניק
מערך הנתונים הזה מביא נתונים מ-887 נוסעים אמיתיים מהטיטאניק, כאשר כל עמודה מגדירה אם הם שרדו, גילם, מחלקת הנוסעים, המגדר ודמי העלייה ששילמו. מערך הנתונים הזה היה חלק מאתגר שהשיקה פלטפורמת Kaggle, שמטרתה הייתה ליצור מודל שיוכל לחזות אילו נוסעים שרדו את טביעת הטיטאניק.
פלטפורמות למציאת מערכי נתונים אחרים
אם אתה רוצה ללכת רחוק יותר ולמצוא מערך נתונים משלך, הדרך הטובה ביותר היא לדפדף במאגרים המפורסמים ביותר של למידת מכונה עוֹלָם:
קגל
Kaggle, חברת בת של Google LLC, היא קהילה מקוונת של מדעני נתונים ואנשי מקצוע בתחום למידת מכונה. Kaggle מאפשר למשתמשים למצוא ולפרסם מערכי נתונים, לחקור וליצור מודלים בסביבת מדעי נתונים מבוססי אינטרנט; לעבוד עם מדעני נתונים אחרים ו מהנדסי למידת מכונות, ולהשתתף בתחרויות לפתרון אתגרי מדעי הנתונים.
Kaggle התחילה בשנת 2010 על ידי הצעת תחרויות Machine Learning וכעת מציעה גם ציבור פלטפורמת נתונים, שולחן עבודה מבוסס ענן עבור מדעי נתונים וחינוך לבינה מלאכותית.
חיפוש ערכות נתונים
חיפוש ערכות נתונים הוא מנוע חיפוש מבית גוגל המסייע לחוקרים לאתר נתונים מקוונים הזמינים לשימוש חופשי. ברחבי האינטרנט, ישנם מיליוני מערכי נתונים על כמעט כל נושא שמעניין אותך.
אם אתה מחפש לקנות גור, אתה יכול למצוא מערכי נתונים המאגדים תלונות של קונים גורים או מחקרים על קוגניציה של גורים. או אם אתה אוהב סקי, תוכל למצוא נתונים על ההכנסות של אתרי סקי או שיעורי פציעות ומספרי השתתפות. חיפוש ערכות נתונים אינדקס כמעט 25 מיליון מערכי נתונים אלה, מה שנותן לך מקום אחד לחפש מערכי נתונים ולמצוא קישורים למקום שבו הנתונים נמצאים.
מאגר למידה של מכונות UCI
UCI Machine Learning Repository הוא אוסף של מסדי נתונים, תיאוריות תחום ומחוללי נתונים המשמשים את קהילת Machine Learning לניתוח אמפירי של אלגוריתמים של Machine Learning. הארכיון נוצר כארכיון ftp בשנת 1987 על ידי דיוויד אהא וסטודנטים עמיתים לתואר שני ב-UC Irvine.
מאז, הוא נמצא בשימוש נרחב על ידי סטודנטים, מחנכים וחוקרים בכל רחבי העולם כמקור עיקרי למערך נתונים של ML. כאינדיקציה להשפעה של הארכיון, הוא צוטט למעלה מ-1000 פעמים, מה שהופך אותו לאחד מ-100 ה"מאמרים" המצוטטים ביותר בכל מדעי המחשב.
Quandl
Quandl היא פלטפורמה המספקת למשתמשיה מערכי נתונים כלכליים, פיננסיים ואלטרנטיביים. משתמשים יכולים להוריד נתונים בחינם, לקנות נתונים בתשלום או למכור נתונים ל-Quandl. זה יכול להיות כלי שימושי לפיתוח של אלגוריתמי מסחר, לדוגמה.
סיכום
על ידי חקירת הכלים האלה, אתה בטוח שתמצא תשומות נהדרות עבור הפרויקטים שלך. הקפידו לבחור את מערך הנתונים המתאים ביותר לצרכים הספציפיים שלכם ותמיד קחו בחשבון: לא מדובר רק בכמות, אלא גם באיכות. מערך הנתונים הוא הבסיס לכל פרויקט למידת מכונה וחיוני להתבסס על נתונים איכותיים כדי למנוע את הסיכון להגיע למסקנות שגויות.
השאירו תגובה