תוכן העניינים[להתחבא][הופעה]
- 1. מערך נתונים של תכונות CelebFaces
- 2. DOTA
- 3. מערך נתונים להשוואת הבעות פנים של גוגל
- 4. גנום חזותי
- 5. LibriSpeech
- 6. The Cityspaces
- 7. מערך נתונים של קינטיקה
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. ווקססלב
- 11. SIXray
- 12. תאונות בארה"ב
- 13. זיהוי מחלות עיניים
- 14. מחלות לב
- 15. CLEVR
- 16. תלות אוניברסלית
- 17. KITTI – 360
- 18. MOT(מעקב אחר אובייקטים מרובים)
- 19. PASCAL 3D+
- 20. מודלים מעוותים בפנים של חיות
- 21. ערכת נתונים של MPII Human Post
- 22. UCF101
- 23. ערכת אודיו
- 24. הסקת שפה טבעית של סטנפורד
- 25. מענה לשאלות חזותיות
- סיכום
כיום, רובנו מתמקדים בפיתוח מודלים של למידת מכונה ו-AI וטיפול בבעיות באמצעות מערכי נתונים עדכניים. אבל ראשית, עלינו להגדיר מערך נתונים, את המשמעות שלו ותפקידו בפיתוח פתרונות AI ו-ML חזקים.
כיום, יש לנו שפע של מערכי נתונים בקוד פתוח שעליהם לערוך מחקר או לפתח יישומים להתמודדות עם בעיות בעולם האמיתי במגוון מגזרים.
עם זאת, המחסור של מערכי נתונים כמותיים באיכות גבוהה הוא מקור לדאגה. הנתונים עלו מאוד וימשיכו להתרחב בקצב מהיר יותר בעתיד.
בפוסט זה, נסקור מערכי נתונים זמינים באופן חופשי שתוכל להשתמש בהם כדי לפתח את פרויקט הבינה המלאכותית הבא שלך.
1. ערכת נתונים של תכונות CelebFaces
מערך הנתונים של CelebFaces Attributes (CelebA) מכיל למעלה מ-200 תמונות של סלבריטאים ו-40 הערות תכונות לכל תמונה, מה שהופך אותה לנקודת התחלה מצוינת לפרויקטים כגון זיהוי פנים, זיהוי פנים, לוקליזציה של ציון דרך (או מרכיב פנים), ועריכת פנים וסינתזה. יתרה מזאת, התמונות באוסף זה מכילות מגוון רחב של וריאציות מיקום ועומס ברקע.
2. DOTA
DOTA (מערך נתונים של זיהוי אובייקט ב-Aerial Photos) הוא מערך נתונים בקנה מידה גדול לזיהוי עצמים הכולל 15 קטגוריות נפוצות (למשל, ספינה, מטוס, מכונית וכו'), 1411 תמונות לאימון ו-458 תמונות לאימות.
3. מערך נתונים להשוואת הבעות פנים של Google
מערך הנתונים להשוואת הבעות הפנים של Google מכיל כ-500,000 שלישיות תמונות, כולל 156,000 תמונות פנים. ראוי לציין כי כל שלישייה במערך הנתונים הזה צוינה על ידי לפחות שישה מדרגים אנושיים.
מערך נתונים זה שימושי עבור פרויקטים הכוללים ניתוח הבעות פנים, כגון אחזור תמונות מבוסס הבעות, סיווג רגשות, סינתזת הבעות וכן הלאה. כדי לקבל גישה למערך הנתונים, יש למלא טופס קצר.
4. גנום חזותי
שאלה חזותית נתוני מענה בסביבה מרובת בחירה זמינים ב-Visual Genome. הוא מורכב מ-101,174 תמונות MSCOCO עם 1.7 מיליון זוגות QA, עם ממוצע של 17 שאלות לתמונה.
בהשוואה ל-Visual Question Answering, למערך הנתונים של הגנום החזותי יש חלוקה הוגנת יותר על פני שישה סוגי שאלות: מה, איפה, מתי, מי, למה ואיך.
בנוסף, מערך הנתונים של הגנום החזותי כולל 108K תמונות שתויגו בכבדות עם אובייקטים, מאפיינים וחיבורים.
5. LibriSpeech
קורפוס LibriSpeech הוא אוסף של כ-1,000 שעות של ספרי אודיו מפרויקט LibriVox. רוב ספרי האודיו מקורם בפרויקט גוטנברג.
נתוני האימון מחולקים לשלוש מחיצות של סטים של 100 שעות, 360 שעות ו-500 שעות, בעוד שנתוני הפיתוח והבדיקה הם בערך באורך שמע של 5 שעות.
6. מרחבי העיר
אחד ממאגרי המידע בקנה מידה גדול של סרטוני סטריאו עם תצוגות עירוניות נקרא The Cityscapes.
עם הערות מדויקות לפיקסלים הכוללות מיקומי GPS, הטמפרטורה החיצונית, נתוני תנועת אגו ופרספקטיבות סטריאו נכונות, הוא כולל הקלטות מ-50 ערים גרמניות שונות.
7. מערך נתונים של קינטיקה
אחד מערכי הווידאו הידועים ביותר לזיהוי פעילות אנושית בקנה מידה גדול ובאיכות טובה הוא מערך הנתונים של Kinetics. ישנם לפחות 600 קטעי וידיאו לכל אחד מ-600 שיעורי הפעילות האנושית, בסך הכל למעלה מ-500,000.
הסרטים נשלפו מיוטיוב; אורכו של כל אחד מהם בסביבות 10 שניות ורשום רק כיתת פעילות אחת.
8. CelebAMask-HQ
CelebAMask-HQ הוא אוסף של 30,000 תמונות פנים ברזולוציה גבוהה עם מסכות מוערות בקפידה ו-19 שיעורים הכוללים מרכיבי פנים כמו עור, אף, עיניים, גבות, אוזניים, פה, שפה, שיער, כובע, משקפי ראייה, עגיל, שרשרת, צוואר, חומר.
ניתן להשתמש במערך הנתונים כדי לבדוק ולאמן זיהוי פנים, ניתוח פנים ו-GANs עבור אלגוריתמים של יצירת פנים ועריכה.
9. פן טריבנק
אחד הקורפוסים הבולטים והשימושיים ביותר להערכת מודלים לתיוג רצף הוא קורפוס ה-Penn Treebank (PTB) האנגלי, בפרט החלק בקורפוס המתאים למאמרים בוול סטריט ג'ורנל.
כל מילה חייבת לתייג את חלק הדיבור שלה כמרכיב של המשימה. ברמת הדמות וברמת המילה דוגמנות שפה גם מרבה להשתמש בקורפוס.
10. ווקססלב
VoxCeleb הוא מערך נתונים לזיהוי דיבור בקנה מידה גדול שנוצר באופן אוטומטי מ מדיה בקוד פתוח. ל-VoxCeleb יש למעלה ממיליון התבטאויות מרמקולים של למעלה מ-6k.
מכיוון שמערך הנתונים כולל אודיו-ויזואלי, ניתן להשתמש בו עבור מגוון יישומים נוספים, לרבות סינתזת דיבור חזותית, הפרדת דיבור, העברה בין-מודאלית מפנים לקול או להיפך, ואימון זיהוי פנים מווידאו כדי להשלים את זיהוי הפנים הנוכחי. מערכי נתונים.
11. SIXray
מערך הנתונים של SIXray כולל 1,059,231 תמונות רנטגן שנאספו מתחנות רכבת תחתית ונוסחו על ידי פקחי אבטחה אנושיים כדי לזהות שישה סוגים עיקריים של פריטים אסורים: אקדחים, סכינים, ברגים, צבת, מספריים ופטישים. יתר על כן, תיבות תוחמות עבור כל פריט אסור נוספו ידנית לקבוצות הבדיקה על מנת להעריך את הביצועים של לוקליזציה של אובייקטים.
12. תאונות בארה"ב
מהות הפרויקט כבר נחשפה בשם מערך הנתונים, US Accidents. מערך נתונים זה על תאונות דרכים ארציות כולל מידע מפברואר 2016 עד דצמבר 2021 ומכסה 49 מדינות בארה"ב.
כ-1.5 מיליון רישומי תאונות קיימים כעת באוסף זה. זה נאסף בזמן אמת על ידי שימוש במספר ממשקי API של תעבורה.
ממשקי API אלה משדרים מידע תעבורה שנאסף ממגוון מקורות, כולל מצלמות תעבורה, ארגוני אכיפת חוק ומחלקות התחבורה של ארה"ב ומדינות המדינה.
13. זיהוי מחלות עיניים
מאגר המידע המאורגן של מחלות עיניים (ODIR) מכיל מידע על 5,000 חולים, כולל גילם, צבע קרקעית העין בעין שמאל וימין, ומילות מפתח אבחנתיות של אנשי מקצוע רפואיים.
מערך נתונים זה הוא אוסף ממשי של נתוני חולים מבתי חולים ומתקנים רפואיים שונים בסין ש-Shanggong Medical Technology Co., Ltd רכשה. עם ניהול בקרת איכות, הערות תויגו על ידי קוראים אנושיים מיומנים.
14. מחלת לב
מערך מחלות לב זה מסייע בזיהוי קיומה של מחלת לב בחולה על סמך 76 פרמטרים כגון גיל, מין, סוג כאב בחזה, לחץ דם במנוחה וכן הלאה.
עם 303 מקרים, המאגר מבקש פשוט להבדיל בין קיומה של מחלה (ערך 1,2,3,4) מהיעדרה (ערך 0).
15. CLEVR
מערך הנתונים של CLEVR (שפת קומפוזיציה ונימק חזותי יסודי) מחקה מענה לשאלות חזותיות. הוא מורכב מתצלומים של אובייקטים שעובדו בתלת מימד, כאשר כל צילום מלווה בסדרה של שאלות קומפוזיציוניות ביותר המחולקות למספר קטגוריות.
עבור כל התמונות והשאלות של הרכבות והאימות, מערך הנתונים כולל 70,000 תמונות ו-700,000 שאלות לאימון, 15,000 תמונות ו-150,000 שאלות לאימות, ו-15,000 תמונות ו-150,000 שאלות לבדיקה הכוללות אובייקטים, תשובות, גרפים של סצנה פונקציונלית.
16. תלות אוניברסלית
פרויקט התלות האוניברסלית (UD) שואף ליצור מורפולוגיה אחידה מבחינה לשונית וביאור בנק עצים תחביר עבור שפות רבות. גרסה 2.7, אשר שוחררה בשנת 2020, כוללת 183 גדות עצים ב-104 שפות.
ההערה מורכבת מתגי POW אוניברסליים, ראשי תלות ותוויות תלות אוניברסליות.
17. KITTI – 360
אחד ממערכי הנתונים הנפוצים ביותר עבור רובוטים ניידים ו נהיגה אוטונומית הוא KITTI (המכון הטכנולוגי של קרלסרוהה והמכון הטכנולוגי של טויוטה).
הוא מורכב מתרחישי תנועה של שעות שנלכדו באמצעות מגוון אופני חיישנים, כגון RGB ברזולוציה גבוהה, סטריאו בגווני אפור ומצלמות סורקי לייזר תלת מימדיות. מערך הנתונים שופר עם הזמן על ידי מספר חוקרים שסיפרו באופן ידני חלקים שונים ממנו כדי להתאים לצרכיהם.
18. MOT(מעקב אחר אובייקטים מרובים)
MOT (Multiple Object Tracking) הוא מערך נתונים למעקב אחר אובייקטים מרובים הכולל נופים פנימיים וחיצונים של מיקומים ציבוריים הכוללים הולכי רגל כאובייקטים המעניינים. הסרטון של כל סצנה מחולק לשני חלקים, האחד לאימון והשני לבדיקה.
מערך הנתונים כולל זיהוי אובייקטים במסגרות וידאו באמצעות שלושה גלאים: SDP, Faster-RCNN ו-DPM.
19. PASCAL 3D+
מערך הנתונים הרב-תצוגות של Pascal3D+ מורכב מתצלומים שנאספו בטבע, כלומר תמונות של קטגוריות פריטים בעלות שונות גבוהה, שנלכדו בנסיבות בלתי מבוקרות, בסביבות צפופות ובמגוון מיקומים. Pascal3D+ כולל 12 קטגוריות אובייקטים נוקשות שנלקחו ממערך הנתונים של PASCAL VOC 2012.
לפריטים אלה מסומן מידע יציבה (אזימוט, גובה ומרחק למצלמה). Pascal3D+ כולל בנוסף תמונות עם הערות לפוזה מאוסף ImageNet ב-12 הקטגוריות הללו.
20. מודלים מעוותים בפנים של בעלי חיים
מטרת פרויקט מודלים מעוותים של בעלי חיים (FDMA) היא לאתגר את המתודולוגיות הנוכחיות בזיהוי ומעקב אחר ציוני דרך של פנים אנושיים ולפתח אלגוריתמים חדשים שיכולים להתמודד עם השונות הגדולה הרבה יותר האופיינית למאפיינים של בעלי חיים.
האלגוריתמים של הפרויקט הדגימו את היכולת לזהות ולעקוב אחר נקודות ציון על פני אדם תוך התמודדות עם שונות הנגרמות משינויים ברגשות או במיקומי הפנים, חסימות חלקיות ותאורה.
21. MPII Human Post Dataset
ערכת הנתונים של MPII Human Pose מכילה כ-25K תמונות, 15K מהן דגימות אימון, 3K מהן דגימות אימות ו-7K מהן דגימות בדיקה.
העמדות מסומנות באופן ידני עם עד 16 מפרקי גוף, והתצלומים לקוחים מסרטי יוטיוב המכסים 410 פעילויות אנושיות שונות.
22. UCF101
מערך הנתונים של UCF101 מכיל 13,320 קטעי וידאו המאורגנים ב-101 קטגוריות. 101 הקטגוריות הללו מחולקות לחמש קטגוריות: תנועות גוף, אינטראקציות בין אדם לאדם, אינטראקציות בין אדם לאובייקט, נגינה בכלי נגינה וספורט.
הסרטונים הם מיוטיוב ואורך 27 שעות.
23. ערכת אודיו
Audioset הוא מערך נתונים של אירועי אודיו המורכב מיותר מ-2 מיליון קטעי וידאו בני 10 שניות עם הערות אנושיות. כדי להוסיף הערות לנתונים אלה, נעשה שימוש באונטולוגיה היררכית הכוללת 632 סוגי אירועים, מה שמרמז שאותו צליל עשוי להיות מסומן בצורה שונה.
24. מסקנות שפה טבעית של סטנפורד
מערך הנתונים של SNLI (Stanford Natural Language Inference) מכיל 570 צמדי משפטים שסווגו באופן ידני כהשלכות, סתירה או ניטרליות.
הנחות היסוד הן תיאורי תמונות של Flickr30k, בעוד שהשערות פותחו על ידי כותבים ממקורות המונים שקיבלו הנחת יסוד והונחו ליצור הצהרות גוררות, סותרות וניטרליות.
25. מענה לשאלות חזותיות
מענה על שאלות חזותיות (VQA) הוא מערך נתונים המכיל שאלות פתוחות לגבי תמונות. כדי לענות על שאלות אלו, עליך לתפוס את החזון, השפה והשכל הישר.
סיכום
ככל שלמידת מכונה ובינה מלאכותית (AI) הופכות נפוצות יותר כמעט בכל עסק ובחיי היומיום שלנו, כך גם מספר המשאבים והמידע הזמינים בנושא.
מערכי נתונים ציבוריים מוכנים מספקים נקודת התחלה מצוינת לפיתוח מודלים של AI תוך שהם מאפשרים למתכנתי ML ותיקים לחסוך זמן ולהתמקד באלמנטים אחרים של הפרויקטים שלהם.
השאירו תגובה