טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
- 1. CelebFaces אַטריביוץ דאַטאַסעט
- 2. דאָטאַ
- 3. Google פאַסיאַל עקספּרעססיאָן פאַרגלייַך דאַטאַסעט
- 4. וויסואַל גענאָמע
- 5. LibriSpeech
- 6. די סיטיספּייסס
- 7. קינעטיקס דאַטאַסעט
- 8. סאַלעבאַמאַסק-הק
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. יו. עס. אַקסידענץ
- 13. אָקולאַר דיסעאַסע דערקענונג
- 14. הארץ קרענק
- 15. CLEVR
- 16. וניווערסאַל דעפּענדענסעס
- 17. KITTI – 360
- 18. MOT (מערפליק אָבדזשעקט טראַקינג)
- 19. פּאַסקאַל 3 ד +
- 20. פאַסיאַל דעפאָרמאַבלע מאָדעלס פון אַנימאַלס
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. אַודיאָסעט
- 24. Stanford Natural Language Inference
- 25. וויסואַל פראגע אַנסווערינג
- סאָף
נאָוואַדייַס, רובֿ פון אונדז זענען פאָוקיסט אויף דעוועלאָפּינג מאַשין לערנען און אַי מאָדעלס און אַדרעסינג ישוז מיט קראַנט דאַטאַסעץ. אָבער ערשטער, מיר מוזן דעפינירן אַ דאַטאַסעט, זיין באַטייַט און זיין ראָלע אין דעוועלאָפּינג שטאַרק אַי און ML סאַלושאַנז.
הייַנט, מיר האָבן אַ שעפע פון אָפֿן-מקור דאַטאַסעץ אויף וואָס צו דורכפירן פאָרשונג אָדער אַנטוויקלען אַפּלאַקיישאַנז צו מאַכנ פאַקטיש-וועלט ישוז אין אַ פאַרשיידנקייַט פון סעקטאָרס.
אָבער, די יאַקרעס פון הויך-קוואַליטעט קוואַנטיטאַטיווע דאַטאַסעץ איז אַ מקור פון זאָרג. דאַטאַ איז אויפגעשטאנען ימענסלי און וועט פאָרזעצן צו יקספּאַנד אין אַ פאַסטער קורס אין דער צוקונפֿט.
אין דעם פּאָסטן, מיר וועלן דעקן פריי בנימצא דאַטאַסעץ וואָס איר קענען נוצן צו אַנטוויקלען דיין ווייַטער אַי פּרויעקט.
1. CelebFaces אַטריביוץ דאַטאַסעט
CelebFaces Attributes Dataset (CelebA) כּולל איבער 200K רום פאָטאָס און 40 אַטריביוט אַנאַטיישאַנז פֿאַר יעדער בילד, וואָס מאכט עס אַ ויסגעצייכנט סטאַרטינג פונט פֿאַר פּראַדזשעקס אַזאַ ווי פּנים דערקענונג, פּנים דיטעקשאַן, לאַנדמאַרק (אָדער פאַסיאַל קאָמפּאָנענט) לאָוקאַלאַזיישאַן, און פּנים עדיטינג & סינטעז. דערצו, די פאָטאָס אין דעם זאַמלונג אַנטהאַלטן אַ ברייט קייט פון שטעלע וועריאַנץ און באַקדראַפּ קלאַטער.
2. DOTA
DOTA (דאַטאַסעט פון כייפעץ דעטעקטיאָן אין לופט פאָטאָס) איז אַ גרויס-וואָג דאַטאַסעט פֿאַר אַבדזשעקץ דיטעקשאַן וואָס כולל 15 פּראָסט קאַטעגאָריעס (למשל, שיף, פלאַך, מאַשין, אאז"ו ו), 1411 בילדער פֿאַר טריינינג און 458 בילדער פֿאַר וואַלאַדיישאַן.
3. Google פאַסיאַל עקספּרעססיאָן פאַרגלייַך דאַטאַסעט
די Google פאַסיאַל אויסדרוק פאַרגלייַך דאַטאַסעט כּולל אַרום 500,000 בילד טריפּלאַץ, אַרייַנגערעכנט 156,000 פּנים פאָטאָס. עס איז כדאי צו באמערקן אַז יעדער טריפּלאַט אין דעם דאַטאַסעט איז געווען אַנאַטייטיד דורך בייַ מינדסטער זעקס מענטש רייטערז.
דער דאַטאַסעט איז נוציק פֿאַר פּראַדזשעקס מיט אַנאַליסיס פון פּנים אויסדרוק, אַזאַ ווי אויסדרוק-באזירט בילד ריטריוואַל, עמאָציע קאַטאַגעריזיישאַן, אויסדרוק סינטעז, און אַזוי אויף. צו באַקומען אַקסעס צו די דאַטאַסעט, אַ קורץ פאָרעם מוזן זיין געענדיקט.
4. וויסואַל גענאָמע
וויסואַל קשיא ענטפֿערן דאַטן אין אַ מאַלטי-ברירה סוויווע איז בנימצא אין וויסואַל גענאָמע. עס איז קאַמפּרייזד פון 101,174 MSCOCO פאָטאָס מיט 1.7 מיליאָן QA פּערז, מיט אַ דורכשניטלעך פון 17 פֿראגן פּער בילד.
אין פאַרגלייַך צו די וויסואַל קוועסט אַנסווערינג דאַטאַסעט, די וויסואַל גענאָמע דאַטאַסעט האט אַ מער שיין פאַרשפּרייטונג צווישן זעקס קשיא טייפּס: וואָס, ווו, ווען, ווער, פארוואס און ווי.
אין אַדישאַן, די וויסואַל גענאָמע דאַטאַסעט ינקלודז 108 ק פאָטאָס וואָס האָבן שוין טאַגד מיט אַבדזשעקץ, פּראָפּערטיעס און קאַנעקשאַנז.
5. LibriSpeech
די LibriSpeech קאָרפּוס איז אַ זאַמלונג פון אַרום 1,000 שעה פון אַודיאָ ביכער פון די LibriVox פּרויעקט. די מערהייט פון די אַודיאָבאָאָקס שטאַמען פֿון פּראָיעקט גוטענבערג.
די טריינינג דאַטן זענען צעטיילט אין דריי פּאַרטישאַנז פון 100hr, 360hr און 500hr שטעלט, בשעת די דעוו און פּרובירן דאַטן זענען בעערעך 5hr אין אַודיאָ לענג.
6. די סיטי ספּייסאַז
איינער פון די מערסט באַוווסט גרויס-וואָג דאַטאַבייסיז פון סטעריאָו ווידיאס מיט שטאָטיש קוקן איז גערופן די סיטיסקאַפּעס.
מיט פּיקסעל-פּינטלעך אַנאַטיישאַנז וואָס אַרייַננעמען גפּס לאָוקיישאַנז, די דרויסנדיק טעמפּעראַטור, יך-באַוועגונג דאַטן און רעכט סטעריאָו פּערספּעקטיווז, עס כולל רעקאָרדינגס פון 50 בוילעט דייַטש שטעט.
7. קינעטיקס דאַטאַסעט
איינער פון די מערסט באַוווסט ווידעא דאַטאַסעץ פֿאַר דערקענונג פון מענטשלעך טעטיקייט אויף אַ גרויס וואָג און מיט גוט קוואַליטעט איז די קינעטיקס דאַטאַסעט. עס זענען לפּחות 600 ווידעא קליפּס פֿאַר יעדער פון די 600 מענטש אַקטיוויטעט קלאסן, טאָוטאַלינג איבער 500,000 אין גאַנץ.
די פילמס זענען ארויסגעצויגן פון יאָוטובע; יעדער איינער איז אַרום 10 סעקונדעס לאַנג און האט בלויז איין טעטיקייט קלאַס ליסטעד.
8. CelebaMask-HQ
CelebAMask-HQ איז אַ זאַמלונג פון 30,000 הויך-האַכלאָטע פּנים פאָטאָס מיט קערפאַלי אַנאַטייטיד מאַסקס און 19 קלאסן וואָס אַרייַננעמען פיישאַל קאַמפּאָונאַנץ ווי הויט, נאָז, אויגן, בראַוז, אויערן, מויל, ליפּ, האָר, הוט, ברילן, וירינגל, האַלדזבאַנד, האַלדז, מאַטעריאַל.
די דאַטאַבייס קענען זיין געוויינט צו פּרובירן און באַן פּנים דערקענונג, פּנים פּאַרסינג און GANs פֿאַר פּנים דזשענערייטינג און עדיטינג אַלגערידאַמז.
9. Penn Treebank
איינער פון די מערסט נאָוטאַבאַל און אָפט געניצט קאָרפּוס פֿאַר די אַסעסמאַנט פון מאָדעלס פֿאַר סיקוואַנס טאַגינג איז די ענגליש פּענן טרעעבאַנק (PTB) קאָרפּוס, ספּעציעל דער טייל פון די קאָרפּוס קאָראַספּאַנדינג צו וואנט סטריט דזשאָורנאַל אַרטיקלען.
יעדער וואָרט מוזן האָבן זיין טייל פון רייד טאַגד ווי אַ קאָמפּאָנענט פון דער אַרבעט. כאַראַקטער-מדרגה און וואָרט-מדרגה שפּראַך מאָדעלינג אויך אָפט ניצט די קאָרפּוס.
קסנומקס. VoxCeleb
VoxCeleb איז אַ גרויס-וואָג רעדע לעגיטימאַציע דאַטאַבייס דזשענערייטאַד אויטאָמאַטיש פֿון עפֿענען מקור מידיאַ. VoxCeleb האט איבער אַ מיליאָן אַטעראַנסיז פון איבער 6 ק ספּיקערז.
ווי די דאַטאַסעט כולל אַודיאָ-וויסואַל, עס קענען זיין געוויינט פֿאַר אַ פאַרשיידנקייַט פון נאָך אַפּלאַקיישאַנז, אַרייַנגערעכנט וויזשאַוואַל רעדע סינטעז, רעדע צעשיידונג, קרייַז-מאָדאַל אַריבערפירן פון פּנים צו קול אָדער וויצע ווערסאַ, און טריינינג פּנים דערקענונג פון ווידעא צו העסאָפע קראַנט פּנים דערקענונג. דאַטאַסעטס.
קסנומקס. SIXray
די SIXray דאַטאַסעט כולל 1,059,231 X-Ray בילדער אלנגעזאמלט פון ונטערבאַן סטיישאַנז און אַנאַטייטיד דורך מענטש זיכערהייט ינספּעקטערז צו דעטעקט זעקס הויפּט מינים פון פאַרבאָטן זאכן: פּיסטאַלז, נייווז, רענטשעס, צוואַנג, שער און האַממערס. דערצו, באַונדינג באָקסעס פֿאַר יעדער דיסאַלוווד נומער זענען מאַניואַלי מוסיף צו די טעסטינג שטעלט צו אָפּשאַצן די פאָרשטעלונג פון כייפעץ לאָוקאַלאַזיישאַן.
קסנומקס. יו. עס. אַקסידענץ
די מאַטעריע פון די פּרויעקט איז שוין אנטפלעקט דורך די נאָמען פון די דאַטאַסעט, יו. עס. אַקסידענץ. די דאַטאַסעט אויף ניישאַנווייד ויטאָמאָביל אַקסאַדאַנץ כולל אינפֿאָרמאַציע פון פעברואר 2016 צו דעצעמבער 2021 און קאָווערס 49 שטאַטן אין די USA.
בעערעך 1.5 מיליאָן צופאַל רעקאָרדס זענען איצט פאָרשטעלן אין דעם זאַמלונג. עס איז געווען אלנגעזאמלט אין פאַקטיש-צייט דורך ניצן עטלעכע פאַרקער אַפּיס.
די אַפּיס טראַנסמיסיע פאַרקער אינפֿאָרמאַציע אלנגעזאמלט פֿון אַ פאַרשיידנקייַט פון קוואלן, אַרייַנגערעכנט פאַרקער קאַמעראַס, געזעץ ענפאָרסמאַנט אָרגאַנאַזיישאַנז און די יו. עס. און שטאַט טראַנספּערטיישאַן דיפּאַרטמאַנץ.
קסנומקס. דערקענונג פון אָקולאַר דיסעאַסעס
די אָרגאַניזירט אָפטאַלמיק דאַטאַבייס אָקולאַר דיסעאַסע ינטעליגענט דערקענונג (ODIR) כּולל אינפֿאָרמאַציע אויף 5,000 פּאַטיענץ, אַרייַנגערעכנט זייער עלטער, די קאָליר פון די פונדוס אין זייער לינקס און רעכט אויגן, און מעדיציניש פּראָפעססיאָנאַלס דיאַגנאָסטיק טערמינען.
די דאַטאַסעט איז אַן פאַקטיש זאַמלונג פון פּאַציענט דאַטן פון פאַרשידן האָספּיטאַלס און מעדיציניש פאַסילאַטיז אין טשיינאַ וואָס Shanggong Medical Technology Co., Ltd. מיט קוואַליטעט קאָנטראָל פאַרוואַלטונג, אַנאַטיישאַנז זענען טאַגד דורך באָקע מענטש לייענער.
קסנומקס. הארץ דיסעאַסע
די האַרץ קרענק דאַטאַבייס אַסיס צו ידענטיפיצירן די עקזיסטענץ פון האַרץ קרענק אין אַ פּאַציענט באזירט אויף 76 פּאַראַמעטערס אַזאַ ווי עלטער, דזשענדער, קאַסטן ווייטיק טיפּ, רעסטינג בלוט דרוק, און אַזוי אויף.
מיט 303 קאַסעס, די דאַטאַבייס זוכט צו פשוט דיפערענשיייט די עקזיסטענץ פון אַ קראַנקייַט (ווערט 1,2,3,4) פון זיין אַוועק (ווערט 0).
קסנומקס. CLEVR
די CLEVR דאַטאַבייס (קאָמפּאָסיטיאָנאַל שפּראַך און עלעמענטאַר וויסואַל ריזאַנינג) מימיקס וויסואַל קשיא ענטפֿערן. עס באשטייט פון פאָוטאַגראַפס פון 3 ד רענדערד אַבדזשעקץ, מיט יעדער פאָטאָגראַפיע באגלייט דורך אַ סעריע פון העכסט קאַמפּאַזישאַנאַל פראגעס צעטיילט אין עטלעכע קאַטעגאָריעס.
פֿאַר אַלע באַן און וואַלאַדיישאַן בילדער און פֿראגן, די דאַטאַסעט קאַמפּרייזיז 70,000 פאָוטאַגראַפס און 700,000 פֿראגן פֿאַר טריינינג, 15,000 בילדער און 150,000 פֿראגן פֿאַר וואַלאַדיישאַן, און 15,000 בילדער און 150,000 פֿראגן פֿאַר טעסטינג מיט אַבדזשעקץ, ענטפֿערס, סצענע גראַפס און פאַנגקשאַנאַל גראַפס.
קסנומקס. וניווערסאַל דעפּענדענסעס
די וניווערסאַל דעפּענדענסעס (UD) פּרויעקט יימז צו שאַפֿן קרייַז-לינגגוויסטיק מונדיר מאָרפאָלאָגי און סינטאַקס בוים באַנק אַנאָטאַציע פֿאַר פילע שפּראַכן. ווערסיע 2.7, וואָס איז באפרייט אין 2020, האט 183 טריבאַנקס אין 104 שפּראַכן.
די אַנאָטאַציע איז קאַמפּרייזד פון וניווערסאַל POW טאַגס, אָפענגיקייַט קעפ און וניווערסאַל אָפענגיקייַט לאַבעלס.
קסנומקס. KITTI - 360
איינער פון די מערסט אָפט געניצט דאַטאַסעץ פֿאַר רירעוודיק ראָובאַץ און אָטאַנאַמאַס דרייווינג איז KITTI (Karlsruhe אינסטיטוט פון טעכנאָלאָגיע און טויאָטאַ טעקנאַלאַדזשיקאַל אינסטיטוט).
עס איז קאַמפּרייזד פון שעה פון פאַרקער סינעריאָוז וואָס זענען קאַפּטשערד מיט אַ קייט פון סענסער מאַדזשאַלאַטיז, אַזאַ ווי הויך-האַכלאָטע RGB, גרייסקאַלע סטעריאָו און 3 ד לאַזער סקאַננער קאַמעראַס. די דאַטאַסעט איז ימפּרוווד איבער צייַט דורך עטלעכע ריסערטשערז וואָס מאַניואַלי אַנאַטייטיד פאַרשידן פּאָרשאַנז פון עס צו פּאַסן זייער באדערפענישן.
קסנומקס. MOT (Multiple Object Tracking)
MOT (Multiple Object Tracking) איז אַ דאַטאַסעט פֿאַר קייפל אַבדזשעקץ טראַקינג וואָס ינקלודז דרינענדיק און דרויסנדיק סינעריאָוז פון ציבור לאָוקיישאַנז וואָס אַרייַננעמען פּאַדעסטריאַנז ווי די אַבדזשעקץ פון אינטערעס. יעדער סצענע ס ווידעא איז צעבראכן אין צוויי ברעקלעך, איינער פֿאַר טריינינג און די אנדערע פֿאַר טעסטינג.
די דאַטאַבייס כולל כייפעץ דיטעקשאַנז אין ווידעא ראָמען ניצן דריי דעטעקטאָרס: SDP, Faster-RCNN און DPM.
קסנומקס. פּאַסקאַל 3 ד +
די Pascal3D + מאַלטי-וויעוו דאַטאַסעט איז קאַמפּרייזד פון פאָוטאַגראַפס געזאמלט אין די ווילד, דאס הייסט בילדער פון נומער קאַטעגאָריעס מיט הויך וועריאַביליטי, קאַפּטשערד אין אַנקאַנטראָולד צושטאנדן, אין ענג ינווייראַנמאַנץ און אין אַ פאַרשיידנקייַט פון שטעלעס. Pascal3D + כולל 12 שטרענג אַבדזשעקץ קאַטעגאָריעס פון די PASCAL VOC 2012 דאַטאַסעט.
די זאכן האָבן האַלטנ זיך אינפֿאָרמאַציע אנגעצייכנט אויף זיי (אַזימוט, הייך און דיסטאַנסע צו די אַפּאַראַט). Pascal3D + אַדישנאַלי ינקלודז פּאָזע-אַננאָטייטיד פאָטאָס פון די ImageNet זאַמלונג אין די 12 קאַטעגאָריעס.
קסנומקס. פאַסיאַל דיפאָרמאַבאַל מאָדעלס פון אַנימאַלס
דער ציל פון די פאַסיאַל דעפאָרמאַבלע מאָדעלס פון אַנימאַלס (FDMA) פּרויעקט איז צו אַרויסרופן קראַנט מעטאַדאַלאַדזשיז אין מענטש פאַסיאַל לאַנדמאַרק לעגיטימאַציע און טראַקינג און צו אַנטוויקלען נייַע אַלגערידאַמז וואָס קענען האַנדלען מיט די באטייטיק גרעסערע וועריאַביליטי וואָס איז כאַראַקטעריסטיש פון כייַע פיישאַל קעראַקטעריסטיקס.
די אַלגערידאַמז פון די פּרויעקט דעמאַנסטרייטיד די פיייקייט צו דערקענען און שפּור לאַנדמאַרקס אויף מענטש פנימער בשעת האַנדלינג מיט דיפעראַנסיז ינדוסט דורך ענדערונגען אין פיישאַל ימאָושאַנז אָדער שטעלעס, פּאַרטיייש אָקקלוסיאָנס און לייטינג.
קסנומקס. MPII Human Post Dataset
די MPII Human Pose Dataset כּולל אַרום 25K פאָטאָס, 15K פון וואָס זענען טריינינג סאַמפּאַלז, 3K פון וואָס זענען וואַלאַדיישאַן סאַמפּאַלז און 7K פון וואָס זענען טעסטינג סאַמפּאַלז.
די שטעלעס זענען מאַניואַלי לייבאַלד מיט אַרויף צו 16 באַדאַלי דזשוינץ, און די פאָוטאַגראַפס זענען גענומען פון יאָוטובע פילמס וואָס דעקן 410 פאַרשידן מענטשלעך אַקטיוויטעטן.
קסנומקס. UCF101
די UCF101 דאַטאַסעט כּולל 13,320 ווידעא קליפּס אָרגאַניזירט אין 101 קאַטעגאָריעס. די 101 קאַטעגאָריעס זענען צעטיילט אין פינף קאַטעגאָריעס: גוף מווומאַנץ, מענטש-מענטש ינטעראַקשאַנז, מענטש-אָבדזשעקט ינטעראַקשאַנז, מוזיקאַליש קיילע פּלייינג און ספּאָרט.
די ווידיאס זענען פֿון יאָוטובע און האָבן אַ געדויער פון 27 שעה.
קסנומקס. אַודיאָסעט
אַודיאָסעט איז אַן אַודיאָ געשעעניש דאַטאַסעט וואָס איז קאַמפּרייזד פון איבער 2 מיליאָן מענטש-אַננאָטייטיד 10-רגע ווידעא סעגמאַנץ. צו אַנאַטייט די דאַטן, אַ כייעראַרקאַקאַל אַנטאָלאָגי וואָס קאַמפּרייזיז 632 געשעעניש טייפּס איז געניצט, וואָס ימפּלייז אַז דער זעלביקער געזונט קען זיין לייבאַלד אַנדערש.
קסנומקס. Stanford Natural Language Inference
די SNLI דאַטאַסעט (Stanford Natural Language Inference) כּולל 570 ק זאַץ פּערינגז וואָס זענען מאַניואַלי קאטיגארעזירט ווי ענטיילמאַנט, סטירע אָדער נייטראַל.
לאָקאַל זענען Flickr30k בילד דיסקריפּשאַנז, בשעת כייפּאַטאַסאַז זענען דעוועלאָפּעד דורך מאַסע-סאָורסעד אַנאַטייטערז וואָס זענען געווען צוגעשטעלט אַ האַנאָכע און געלערנט צו דזשענערייט ינטיילינג, קאַנטראַדיקטערינג און נייטראַל סטייטמאַנץ.
קסנומקס. וויסואַל קשיא אַנסווערינג
Visual Question Answering (VQA) איז אַ דאַטאַסעט וואָס כּולל אָופּאַנד פֿראגן וועגן בילדער. צו ענטפֿערן די פראגעס, איר דאַרפֿן צו אָנכאַפּן זעאונג, שפּראַך און סייכל.
סאָף
ווי מאַשין לערנען און קינסטלעך סייכל (AI) ווערן מער פאַרשפּרייט אין פּראַקטאַקלי יעדער געשעפט און אין אונדזער טעגלעך לעבן, אַזוי אויך די נומער פון רעסורסן און אינפֿאָרמאַציע בנימצא אויף דעם טעמע.
גרייט-געמאכט ציבור דאַטאַסעץ צושטעלן אַ גרויס סטאַרטינג פונט צו אַנטוויקלען אַי מאָדעלס און אויך אַלאַוינג סיזאַנד ML פּראָוגראַמערז צו שפּאָרן צייט און פאָקוס אויף אנדערע עלעמענטן פון זייער פּראַדזשעקס.
לאָזן אַ ענטפֿערן