טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
יעדער מאַשין לערנען פּרויעקט רילייז אויף אַ גוט דאַטאַסעט. דאָס איז דער גרויס דאַטאַסעט וואָס אַלאַוז איר צו באַן און וואַלאַדייט דיין ML מאָדעל. אַזוי, אַ גרויס טייל פון די אַרבעט אין אַ ML פּרויעקט איז צו געפֿינען די שליימעסדיק דאַטאַסעט פֿאַר דיין דאַרף. אָבער, עס איז ניט שטענדיק מעגלעך צו געפֿינען אַן אָפּציע וואָס פיץ דיין אַמביציע, ווי פילע טעקעס וואָס קוקן טשיקאַווע, אין די סוף, זענען נישט.
עס קען זיין דאָנטינג צו וויסט צייט מיט דאַונלאָודינג קאַונטלאַס דאַטאַסעץ ביז איר באַקומען אַן אידעאל גאַנג. מיט דעם אין זינען, מיר האָבן אלנגעזאמלט עטלעכע אָפּציעס וואָס ויסקומען טשיקאַווע און קענען העלפֿן איר אַנטוויקלען דיין ML פּרויעקט. באַמערקונג אַז עטלעכע זענען בדעה פֿאַר פּערזענלעך אַנשטאָט פון געשעפט נוצן, אַזוי קוק אין די אָפּציעס ווי אַ וועג צו באַקומען דערפאַרונג אין די ML אַלוועלט.
באַסיקס פון דאַטאַסעטס
איידער מיר דערמאָנען די דאַטאַסעץ, מיר זאָל דעפינירן עטלעכע טערמינען. ספּעציעל אין קינסטלעך סייכל פּראַדזשעקס Machine Learning, אַ גרויס סומע פון דאַטן איז פארלאנגט, וואָס וועט זיין געניצט צו באַן די אַלגערידאַם. די סומע פון דאַטן איז אלנגעזאמלט אין אַ דאַטאַבייס, וואָס איז גאָר נוציק צו לערנען אַן אַלגערידאַם.
מיט די דאַטן, די אַלגערידאַם איז טריינד - אויך טעסטעד - און קענען געפֿינען פּאַטערנז, פאַרלייגן באַציונגען און אַזוי מאַכן דיסיזשאַנז אָטאַנאַמאַסלי. אָן טריינינג, Machine Learning אַלגערידאַמז קענען נישט דורכפירן קיין קאַמף. דעריבער, די בעסער די טריינינג דאַטן, די בעסער די מאָדעל וועט דורכפירן. פֿאַר אַ דאַטאַבייס צו זיין נוציק פֿאַר די פּרויעקט, עס איז נישט וועגן קוואַנטיטי: עס איז אויך וועגן קלאַסאַפאַקיישאַן.
ידעאַללי, די דאַטן זאָל זיין געזונט לייבאַלד. טראַכטן וועגן דעם פאַל פון טשאַטבאָץ: שפּראַך ינסערשאַן איז וויכטיק, אָבער אָפּגעהיט סינטאַקטיק אַנאַליסיס מוזן זיין געטאן אַזוי אַז דער אַלגערידאַם באשאפן קענען פֿאַרשטיין ווען דער ינטערלאַקיאַטער ניצט סלענג. בלויז דעמאָלט דער ווירטואַל אַסיסטאַנט וועט קענען צו קאַטער דעם ענטפער לויט צו וואָס דער באַניצער האָט געבעטן.
דאַטאַסעטס קענען זיין דזשענערייטאַד פֿון סערווייז, באַניצער קויפן דאַטן, יוואַליויישאַנז לינקס אויף באַדינונגס, און אין פילע אנדערע וועגן וואָס לאָזן קאַלעקטינג נוציק אינפֿאָרמאַציע אָרגאַניזירט אין שפאלטן און ראָוז אין אַ קסוו טעקע.
איידער איר זוכט פֿאַר די שליימעסדיק דאַטאַסעט, עס איז וויכטיק אַז איר וויסן דעם ציל פון דיין פּרויעקט, ספּעציעל אויב עס איז פֿון אַ ספּעציפיש געגנט, אַזאַ ווי וועטער, פינאַנצן, געזונט, אאז"ו ו. דאַטאַסעט.
דאַטאַסעטס פֿאַר ML
טשאַטבאָט טריינינג
אַ עפעקטיוו טשאַטבאָט ריקווייערז אַ מאַסיוו סומע פון טריינינג דאַטן אין סדר צו געשווינד סאָלווע באַניצער ינקוועריז אָן מענטש ינטערווענטיאָן. אָבער, די ערשטיק באַטאַלנעק אין טשאַטבאָט אַנטוויקלונג איז באקומען רעאַליסטיש, אַרבעט-אָריענטיד דיאַלאָג דאַטן צו באַן די מאַשין לערנען-באזירט סיסטעמען.
א קאַנווערסיישאַנאַל דאַטאַסעט קאַלעקץ דאַטן אין אַ קשיא און ענטפֿערן פֿאָרמאַט. עס איז ידעאַל פֿאַר טריינינג טשאַטבאָץ וואָס וועט געבן אָטאַמייטיד ענטפֿערס צו די וילעם. אָן די דאַטן, די טשאַטבאָט וועט נישט געשווינד סאָלווע באַניצער ינקוועריז אָדער ענטפֿערן באַניצער פֿראגן אָן די נויט פֿאַר מענטש ינטערווענטיאָן.
ניצן די דאַטאַסעץ, געשעפטן קענען שאַפֿן אַ געצייַג וואָס גיט שנעל ענטפֿערס צו קאַסטאַמערז 24/7 און איז פיל טשיפּער ווי אַ מאַנשאַפֿט פון מענטשן וואָס טאָן קונה שטיצן.
1. פראגע-ענטפער דאַטאַסעט
דער דאַטאַסעט גיט אַ סכום פון וויקיפּעדיע אַרטיקלען, פֿראגן און זייער ריספּעקטיוו מאַניואַלי דזשענערייטאַד ענטפֿערס. עס איז אַ דאַטאַסעט געזאמלט צווישן 2008 און 2010 פֿאַר נוצן אין אַקאַדעמיק פאָרשונג.
2. שפּראַך דאַטאַ
שפּראַך דאַטאַ איז אַ דאַטאַבייס געראטן דורך Yahoo מיט אינפֿאָרמאַציע דזשענערייטאַד פֿון עטלעכע פון די פירמע 'ס באַדינונגס, אַזאַ ווי Yahoo! ענטפער, וואָס אַרבעט ווי אַן אָפֿן קהל פֿאַר יוזערז צו פּאָסטן פֿראגן און ענטפֿערס.
3. WikiQA
די WikiQA קאָרפּוס אויך באשטייט פון אַ גאַנג פון פֿראגן און ענטפֿערס. דער מקור פון די פראגעס איז בינג, בשעת די ענטפֿערס לינק צו אַ וויקיפּעדיע בלאַט מיט די פּאָטענציעל צו סאָלווע די ערשט קשיא.
אין גאַנץ, עס זענען מער ווי 3,000 פֿראגן און אַ סכום פון 29,258 זאצן אין די דאַטאַסעט, פון וואָס וועגן 1,400 זענען קאטיגארעזירט ווי ענטפֿערס צו אַ קאָראַספּאַנדינג קשיא.
רעגירונג דאַטן
דאַטאַסעטס דזשענערייטאַד דורך גאַווערמאַנץ ברענגען דעמאָגראַפיק דאַטן, וואָס זענען גרויס ינפּוץ פֿאַר פּראַדזשעקס שייַכות צו פֿאַרשטיין געזעלשאַפטלעך טרענדס, קריייטינג עפנטלעך פּאַלאַסיז און פֿאַרבעסערן געזעלשאַפט. דאָס קען זיין נוציק פֿאַר פּאָליטיש קאַמפּיינז, טאַרגעטעד גאַנצע אָדער מאַרק אַנאַליסיס.
די דאַטאַסעץ טיפּיקלי אַנטהאַלטן אַנאָנימייזד דאַטן, אַזוי כאָטש די מאָדעלס קענען אַקסעס די רוי דאַטן, עס זענען קיין ווייאַליישאַנז פון פּערזענלעך פּריוואַטקייט.
4. Data.gov
Data.gov, לאָנטשט אין 2009, איז די צפון אמעריקאנער מקור פֿאַר דאַטן. זיין קאַטאַלאָג איז ימפּרעסיוו: מער ווי 218,000 דאַטאַסעץ וואָס לאָזן סעגמאַנטיישאַן לויט פֿאָרמאַט, טאַגס, טייפּס און טעמעס.
5. EU עפֿן דאַטאַ טויער
די EU עפֿן דאַטאַ טויער גיט אַקסעס צו עפענען דאַטן שערד דורך אינסטיטוציעס פון די אייראפעישע יוניאַן. דאָס זענען דאַטן וואָס קענען זיין בדעה פֿאַר געשעפט און ניט-געשעפט נוצן. צו די באַניצער 'ס באַזייַטיקונג זענען מער ווי 15.5 טויזנט דאַטאַסעץ, קאַווערינג טעמעס אַזאַ ווי געזונט, ענערגיע, סוויווע, קולטור און בילדונג.
געזונט דאַטן
אין די וועקן פון די אָנגאָינג געזונט קריזיס ווערלדווייד, דאַטאַסעץ דזשענערייטאַד דורך געזונט אָרגאַנאַזיישאַנז זענען יקערדיק צו אַנטוויקלען עפעקטיוו סאַלושאַנז צו ראַטעווען לעבן. די דאַטאַסעץ קענען העלפֿן ידענטיפיצירן די ריזיקירן סיבות, ויספאָרשן די טראַנסמיסיע פּאַטערנז פון קרענק און פאַרגיכערן דיאַגנאָסיס.
די דאַטאַסעץ צונויפשטעלנ זיך פון געזונט רעקאָרדס, דעמאָגראַפיקס פון פּאַטיענץ, קרענק פּרעוואַלאַנס, מעדיסינאַל באַניץ, נוטרישאַנאַל וואַלועס און פיל מער.
6. גלאבאלע געזונט אָבסערוואַטאָרי
די דאַטן שטעלן איז אַן איניציאטיוו פון די וועלט געזונט ארגאניזאציע (WHO). עס גיט עפנטלעך דאַטן שייַכות צו פאַרשידענע געביטן פון געזונט, אָרגאַניזירט דורך טעמעס אַזאַ ווי געזונט סיסטעמען, קאָנטראָל פון טאַביק נוצן, מאַטערניטי, היוו / AIDS, אאז"ו ו. עס איז אויך די אָפּציע צו באַראַטנ דאַטן וועגן COVID-19.
7. CORD-19
CORD-19 איז אַ קאָרפּוס פון אַקאַדעמיק אויסגאבעס אויף COVID-19 און אנדערע אַרטיקלען וועגן די נייַ קאָראָנאַווירוס. עס איז אַן אָפֿן דאַטאַסעט בדעה צו דזשענערייט נייַע ינסייץ וועגן COVID-19.
עקאָנאָמיק דאַטן
דאַטאַסעטס שייַכות צו די פינאַנציעל סוויווע יוזשאַוואַלי קלייַבן אַ ריזיק סומע פון אינפֿאָרמאַציע, ווייַל עס איז פּראָסט אַז זיי האָבן שוין אלנגעזאמלט פֿאַר אַ לאַנג צייַט. זיי זענען ידעאַל פֿאַר קריייטינג עקאָנאָמיש פֿאָרויסזאָגן אָדער גרינדן ינוועסמאַנט טרענדס.
מיט די רעכט פינאַנציעל דאַטאַסעץ, אַ מאַשין לערנען מאָדעל קען זיין ביכולת צו פאָרויסזאָגן די נאַטור פון אַ געגעבן אַסעט. דערפֿאַר טוט דער פינאַנציעל סעקטאָר אַלץ אין זיין מאַכט צו שאַפֿן אַן עפעקטיוו ML מאָדעל, ווייַל אַלץ וואָס קענען פאָרויסזאָגן אפילו ריזאַנאַבלי גוט האט די פּאָטענציעל צו דזשענערייט מיליאַנז פון דאָללאַרס. מאַשין לערנען איז שוין פּרידיקטינג די נאַטור פון בירגערס, וואָס איז ימפּאַקטיד די וועג פּאַלאַסימייקערז טאָן זייער דזשאָבס.
8. ינטערנאַטיאָנאַל מאָנעטאַרי Fund
די ימף דאַטאַסעט האט אַ קייט פון עקאָנאָמיש און פינאַנציעל ינדאַקייטערז, מיטגליד לאַנד סטאַטיסטיק און אנדערע אַנטלייַען און וועקסל קורס דאַטן.
9. וועלט באַנק
די ריפּאַזאַטאָרי פון די וועלט באַנק כּולל פאַרשידענע דאַטאַסעץ מיט עקאָנאָמיש אינפֿאָרמאַציע פון פאַרשידענע לענדער. עס זענען מער ווי 17,000 דאַטאַסעץ צעטיילט דורך קאָנטינענץ.
באריכטן פון פּראָדוקטן און באַדינונגס
סענטימענט אַנאַליסיס האט געפֿונען זייַן אַפּלאַקיישאַנז אין פאַרשידן פעלדער וואָס איצט העלפּינג ענטערפּריסעס צו אָפּשאַצן און לערנען פון זייער קלייאַנץ אָדער קאַסטאַמערז ריכטיק. סענטימענט אַנאַליסיס איז ינקריסינגלי געניצט פֿאַר געזעלשאַפטלעך מידיאַ מאָניטאָרינג, סאָרט מאָניטאָרינג, דער קול פון דער קונה (VoC), קונה דינסט און מאַרק פאָרשונג.
סענטימענט אַנאַליסיס ניצט NLP (נעוראָ-לינגגוויסטיק פּראָגראַממינג) מעטהאָדס און אַלגערידאַמז וואָס זענען אָדער הערשן-באזירט, כייבריד אָדער פאַרלאָזנ אויף מאַשין לערנען טעקניקס צו לערנען דאַטן פֿון דאַטאַסעץ.
די דאַטן דארף אין סענטימענט אַנאַליסיס זאָל זיין ספּעשאַלייזד און זענען פארלאנגט אין גרויס קוואַנטאַטיז. די מערסט טשאַלאַנדזשינג טייל פון די טריינינג פּראָצעס פֿאַר סענטימענט אַנאַליסיס איז נישט צו געפֿינען דאַטן אין גרויס אַמאַונץ; אַנשטאָט, עס איז צו געפֿינען די באַטייַטיק דאַטאַסעץ. די דאַטן שטעלט מוזן דעקן אַ ברייט שטח פון אַפּלאַקיישאַנז פֿאַר סענטימענט אַנאַליסיס און נוצן קאַסעס.
קסנומקס. אַמאַזאָן באריכטן
דער דאַטאַסעט כּולל וועגן 35 מיליאָן אַמאַזאָן באריכטן, וואָס ספּאַנסינג אַ 18-יאָר צייט פון געזאמלט אינפֿאָרמאַציע. עס איז אַ דאַטאַסעט פון פּראָדוקט, באַניצער און רעצענזיע אינהאַלט.
קסנומקס. יעלפּ באריכטן
Yelp אויך אָפפערס אַ דאַטאַסעט באזירט אויף אינפֿאָרמאַציע אלנגעזאמלט פֿון זייַן דינסט. עס זענען איבער 8 מיליאָן באריכטן, 1 מיליאָן עצות, פּלוס כּמעט 1.5 מיליאָן אַטריביוץ שייַכות צו געשעפטן, אַזאַ ווי עפן שעה און אַוויילאַבילאַטי.
קסנומקס. IMDB באריכטן
די דאַטאַבייס כּולל אַ סכום פון מער ווי 25 טויזנט פֿילם באריכטן פֿאַר טריינינג און נאָך 25 טויזנט פֿאַר טעסץ גענומען ינפאָרמאַלי פֿון די IMDB בלאַט, ספּעשאַלייזד אין פֿילם רייטינגז. עס אויך אָפפערס אַנלאַבעלעד דאַטן ווי אַן נאָך.
דאַטאַסעטס פֿאַר דער ערשטער סטעפּס אין ML
קסנומקס. ווייַן קוואַליטי דאַטאַסעט
דער דאַטאַסעט גיט אינפֿאָרמאַציע שייַכות צו ווייַן, ביידע רויט און גרין, געשאפן אין צאָפנדיק פּאָרטוגאַל. דער ציל איז צו דעפינירן די ווייַן קוואַליטעט באזירט אויף פיזיקאָטשעמיקאַל טעסץ. טשיקאַווע פֿאַר די וואס ווילן צו פיר קריייטינג אַ פּראָגנאָז סיסטעם.
קסנומקס. טיטאַניק דאַטאַסעט
די דאַטאַטאַס ברענגט דאַטן פון 887 פאַקטיש פּאַסאַנדזשערז פון די טיטאַניק, מיט יעדער זייַל דיפיינד אויב זיי סערווייווד, זייער עלטער, פּאַסאַזשיר קלאַס, דזשענדער און די באָרדינג אָפּצאָל זיי באַצאָלט. די דאַטאַסעט איז געווען אַ טייל פון אַ אַרויסרופן לאָנטשט דורך די Kaggle פּלאַטפאָרמע, וועמענס ציל איז געווען צו שאַפֿן אַ מאָדעל וואָס קען פאָרויסזאָגן וואָס פּאַסאַנדזשערז סערווייווד די זינקען פון די טיטאַניק.
פּלאַטפאָרמס פֿאַר דערגייונג אנדערע דאַטאַסעץ
אויב איר ווילן צו גיין ווייַטער און געפֿינען דיין אייגענע דאַטאַבייס, דער בעסטער וועג איז צו בלעטער די מערסט באַרימט ריפּאַזאַטאָריז. Machine Learning אַלוועלט:
Kaggle
Kaggle, אַ סאַבסידיערי פון Google LLC, איז אַן אָנליין קהל פון דאַטן סייאַנטיס און מאַשין לערנען פּראָפעססיאָנאַלס. Kaggle אַלאַוז ניצערס צו געפֿינען און אַרויסגעבן דאַטאַסעץ, ויספאָרשן און שאַפֿן מאָדעלס אין אַ וועב-באזירט דאַטן וויסנשאַפֿט סוויווע; אַרבעט מיט אנדערע דאַטן סייאַנטיס און מאַשין לערנען ענדזשאַנירז, און אָנטייל נעמען אין קאַנטעס צו סאָלווע דאַטן וויסנשאַפֿט טשאַלאַנדזשיז.
Kaggle סטאַרטעד אין 2010 דורך פאָרשלאָגן מאַשין לערנען קאַנטעס און איצט אויך אָפפערס אַ ציבור דאַטן פּלאַטפאָרמע, אַ וואָלקן-באזירט ווערקבענטש פֿאַר דאַטן וויסנשאַפֿט און קינסטלעך ינטעלליגענסע בילדונג.
דאַטאַסעט זוך
דאַטאַסעט זוך איז אַ זוכן מאָטאָר פֿון Google וואָס העלפּס ריסערטשערז צו געפֿינען אָנליין דאַטן וואָס זענען פריי פֿאַר נוצן. איבער די וועב, עס זענען מיליאַנז פון דאַטאַסעץ וועגן כּמעט קיין טעמע וואָס אינטערעסירט איר.
אויב איר 'רע איר זוכט צו קויפן אַ הינטעלע, איר קען געפֿינען דאַטאַסעץ קאַמפּיילינג טענות פון הינטעלע בויערס אָדער שטודיום אויף הינטעלע קאָגניטיאָן. אָדער אויב איר ווי סקיינג, איר קען געפֿינען דאַטן וועגן די רעוועך פון נאַרטע ריזאָרץ אָדער שאָדן ראַטעס און אָנטייל נומערן. דאַטאַסעט זוך האט ינדעקסט כּמעט 25 מיליאָן פון די דאַטאַסעץ, געבן איר אַ איין אָרט צו זוכן פֿאַר דאַטאַסעץ און געפֿינען לינקס צו ווו די דאַטן זענען.
UCI מאַשין לערנען ריפּאַזאַטאָרי
די UCI מאַשין לערנען ריפּאַזאַטאָרי איז אַ זאַמלונג פון דאַטאַבייסיז, פעלד טיריז און דאַטן גענעראַטאָרס וואָס זענען געניצט דורך די מאַשין לערנען קהל פֿאַר די עמפּיריקאַל אַנאַליסיס פון מאַשין לערנען אַלגערידאַמז. דער אַרקייוו איז באשאפן ווי אַ פטפּ אַרקייוו אין 1987 דורך David Aha און יונגערמאַן גראַדזשאַוואַט סטודענטן אין UC Irvine.
זינט דער צייט, עס איז וויידלי געניצט דורך סטודענטן, עדזשיוקייטערז און ריסערטשערז איבער די וועלט ווי אַ ערשטיק מקור פון ML דאַטאַסעץ. ווי אַן אָנווייַז פון די פּראַל פון די אַרקייוו, עס איז געווען סייטאַד איבער 1000 מאל, מאכן עס איינער פון די שפּיץ 100 מערסט סייטאַד "פּאַפּערס" אין אַלע קאָמפּיוטער וויסנשאַפֿט.
קוואַנדל
Quandl איז אַ פּלאַטפאָרמע וואָס גיט זיין יוזערז עקאָנאָמיש, פינאַנציעל און אָלטערנאַטיוו דאַטאַסעץ. יוזערז קענען אראפקאפיע פריי דאַטן, קויפן באַצאָלט דאַטן אָדער פאַרקויפן דאַטן צו Quandl. עס קען זיין אַ נוציק געצייַג פֿאַר דער אַנטוויקלונג פון טריידינג אַלגערידאַמז, א שטייגער.
סאָף
דורך ויספאָרשן די מכשירים, איר וועט זיכער געפֿינען גרויס ינפּוץ פֿאַר דיין פּראַדזשעקס. זייט זיכער צו קלייַבן די דאַטאַסעט וואָס איז מערסט פּאַסיק פֿאַר דיין ספּעציפיש באדערפענישן און שטענדיק האַלטן אין זינען: עס ס ניט נאָר וועגן קוואַנטיטי, אָבער אויך קוואַליטעט. די דאַטאַסעט איז די יקער פון קיין מאַשין לערנען פּרויעקט און עס איז יקערדיק צו בויען אויף קוואַליטעט דאַטן אין סדר צו ויסמיידן די ריזיקירן פון ריטשינג פאָלטי קאַנקלוזשאַנז.
לאָזן אַ ענטפֿערן