טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
פילע ענוויסיאָן ראָובאַץ ווי די אין וויסנשאַפֿט בעלעטריסטיק פילמס וואָס נאָכמאַכן אָדער אפילו יקסיד מענטש סייכל ווען זיי הערן די טערמינען קינסטלעך סייכל, טיף לערנען און מאַשין לערנען.
אנדערע טראַכטן אַז די דעוויסעס נאָר נעמען אינפֿאָרמאַציע און לערנען פון עס אויף זייער אייגן. נו... עס איז אַ ביסל פאַרפירעריש. דאַטאַ לייבלינג איז דער אופֿן געניצט צו באַן קאָמפּיוטערס צו ווערן "קלוג," ווייַל זיי האָבן לימיטעד קייפּאַבילאַטיז אָן מענטשלעך לימעד.
צו באַן די קאָמפּיוטער צו האַנדלען "סמאַרטלי," מיר אַרייַנשרייַבן די דאַטן אין פאַרשידן פארמען און לערנען עס פאַרשידן סטראַטעגיעס מיט די הילף פון דאַטן לייבלינג.
דאַטאַסעטס מוזן זיין אַנאַטייטיד אָדער לייבאַלד מיט פילע פּערמיוטיישאַנז פון די זעלבע אינפֿאָרמאַציע ווי אַ טייל פון די וויסנשאפטלעכע אַנדערלייינג דאַטן לייבלינג.
די מי און דעדיקאַציע אין די לעצט פּראָדוקט זענען לאַודאַבאַל, אפילו ווען עס סאַפּרייזיז און מאכט אונדזער טעגלעך לעבן גרינגער.
לערנען וועגן דאַטן לייבלינג אין דעם אַרטיקל צו לערנען וואָס עס איז, ווי עס פאַנגקשאַנז, פאַרשידענע טייפּס פון דאַטן לייבלינג, מניעות און פיל מער.
אַזוי, וואָס איז דאַטאַ לאַבעלינג?
In מאַשין וויסן, די קאַליבער און נאַטור פון די אַרייַנשרייַב דאַטן דיקטירן די קאַליבער און נאַטור פון די רעזולטאַט. די אַקיעראַסי פון דיין אַי מאָדעל איז ימפּרוווד דורך די קאַליבער פון די דאַטן געניצט צו באַן עס.
אין אנדערע טערמינען, דאַטן לייבלינג איז דער אַקט פון לייבלינג אָדער אַנאַטייטינג פאַרשידענע אַנסטראַקטשערד אָדער סטראַקטשערד דאַטן שטעלט אין סדר צו לערנען אַ קאָמפּיוטער צו ידענטיפיצירן דיפעראַנסיז און פּאַטערנז צווישן זיי.
א אילוסטראציע וועט העלפן איר פֿאַרשטיין דעם. עס איז נייטיק צו פאַרבינדן יעדער רויט ליכט אין אַ פאַרשיידנקייַט פון בילדער פֿאַר די קאָמפּיוטער צו לערנען אַז רויט ליכט איז אַ סיגנאַל צו האַלטן.
אויף דער באזע פון דעם, אַי דעוועלאָפּס אַ אַלגערידאַם וואָס, אין יעדער סיטואַציע, וועט טייַטשן אַ רויט ליכט ווי אַ אָנווייַז פון האַלטן. אן אנדער געמעל איז די פיייקייט צו קאַטאַגערייז פאַרשידענע דאַטאַסעץ אונטער די כעדינגז פון דזשאַז, קנאַל, שטיין, קלאסישע און מער צו באַזונדער פאַרשידענע מוזיקאַליש זשאַנראַז.
צו לייגן עס פשוט, דאַטן לייבלינג אין מאַשין לערנען רעפערס צו דער פּראָצעס פון דיטעקטינג אַנלייבאַלד דאַטן (אַזאַ ווי פאָטאָס, טעקסט טעקעס, ווידיאס, אאז"ו ו) און אַדינג איינער אָדער מער באַטייַטיק לאַבעלס צו פאָרשלאָגן קאָנטעקסט אַזוי אַז אַ מאַשין לערנען מאָדעל קענען לערנען פֿון עס.
לאַבעלס קען זאָגן, פֿאַר בייַשפּיל, אויב אַ X-Ray ווייזט אַ אָנוווקס אָדער נישט, וואָס ווערטער זענען געזאָגט אין אַ אַודיאָ קלעמערל, אָדער אויב אַ בילד פון אַ פויגל אָדער אַ ויטאָמאָביל.
דאַטאַ לייבלינג איז יקערדיק פֿאַר אַ נומער פון נוצן קאַסעס, אַרייַנגערעכנט רעדע דערקענונג, קאָמפּיוטער זעאונג, און נאַטירלעך שפּראַך פּראַסעסינג.
דאַטאַ לייבלינג: פארוואס איז עס וויכטיק?
ערשטער, די פערט ינדאַסטרי רעוואָלוציע איז סענטערד אויף די סקילז פון טריינינג מאשינען. ווי אַ רעזולטאַט, עס ראַנגקט צווישן די מערסט וויכטיק ווייכווארג אַדוואַנטידזשיז פון די פאָרשטעלן.
דיין מאַשין לערנען סיסטעם מוזן זיין באשאפן, וואָס ינוואַלווז דאַטן לייבלינג. עס יסטאַבלישיז די קייפּאַבילאַטיז פון די סיסטעם. עס איז קיין סיסטעם אויב דאַטן זענען נישט לייבאַלד.
די פּאַסאַבילאַטיז מיט דאַטן לייבלינג זענען בלויז לימיטעד דורך דיין שעפֿערישקייט. יעדער קאַמף איר קענען מאַפּע אין די סיסטעם וועט איבערחזרן מיט פריש אינפֿאָרמאַציע.
טייַטש אַז די טיפּ, קוואַנטיטי און דייווערסיטי פון דאַטן איר קענען לערנען די סיסטעם וועט באַשטימען זייַן סייכל און פיייקייט.
די רגע איז אַז דאַטן לייבלינג אַרבעט קומט איידער דאַטן וויסנשאַפֿט אַרבעט. אַקקאָרדינגלי, דאַטן לייבלינג איז נייטיק פֿאַר דאַטן וויסנשאַפֿט. פייליערז און מיסטייקס אין דאַטן לייבלינג ווירקן דאַטן וויסנשאַפֿט. אַלטערנאַטיוועלי, צו נוצן אַ גראָבער קליטשé, "אָפּפאַל אין, מיסט אויס."
דריט, די קונסט פון דאַטאַ לאַבעלינג סיגנאַפייז אַ ענדערונג אין ווי מענטשן צוגאַנג די אַנטוויקלונג פון אַי סיסטעמען. מיר סיימאַלטייניאַסלי ראַפינירן די סטרוקטור פון די דאַטן לייבלינג צו בעסער טרעפן אונדזער גאָולז אלא ווי בלויז פּרווון צו פאַרבעסערן מאַטאַמאַטיקאַל טעקניקס.
מאָדערן אָטאַמיישאַן איז באזירט אויף דעם, און עס איז דער צענטער פון די אַי טראַנספאָרמאַציע דערווייַל אַנדערוויי. איצט מער ווי אלץ, וויסן אַרבעט איז מעקאַנייזד.
ווי פונקציאָנירן דאַטן לייבלינג?
די פאלגענדע קראַנאַלאַדזשיקאַל סדר איז נאכגעגאנגען בעשאַס די דאַטן לייבלינג פּראָצעדור.
דאַטאַ זאַמלונג
דאַטע איז דער קאָרנערסטאָון פון קיין מאַשין לערנען ינדעווער. דער ערשט בינע אין דאַטן לייבלינג באשטייט פון צונויפקום די צונעמען סומע פון רוי דאַטן אין פאַרשידענע פארמען.
דאַטאַ זאַמלונג קענען נעמען איינער פון צוויי פארמען: אָדער עס קומט פון ינערלעך קוואלן וואָס די געשעפט האט געוויינט, אָדער עס קומט פון עפנטלעך צוטריטלעך פונדרויסנדיק קוואלן.
זינט עס איז אין רוי פאָרעם, די דאַטן מוזן זיין קלינד און פּראַסעסט איידער די דאַטאַטאַס לאַבעלס זענען געמאכט. דער מאָדעל איז דעמאָלט טריינד מיט דעם קלינד און פּרעפּראָסעססעד דאַטן. די פיינדינגז וועט זיין מער פּינטלעך די גרעסערע און מער וועריד די דאַטן שטעלן.
אַנאַטייטינג דאַטן
נאָך דאַטן רייניקונג, פעלד עקספּערץ ונטערזוכן די דאַטן און צולייגן לאַבעלס ניצן עטלעכע דאַטן לייבלינג טעקניקס. דער מאָדעל האט אַ מינינגפאַל קאָנטעקסט וואָס קענען זיין יוטאַלייזד ווי ערד אמת.
דאָס זענען די וועריאַבאַלז אַז איר ווילן די מאָדעל צו פאָרויסזאָגן, אַזאַ ווי די פאָטאָס.
אַשוראַנס פון קוואַליטעט
די קוואַליטעט פון די דאַטן, וואָס זאָל זיין טראַסטווערדי, פּינטלעך און קאָנסיסטענט, איז קריטיש פֿאַר די הצלחה פון ML מאָדעל טריינינג. רעגולער QA טעסץ מוזן זיין ימפּלאַמענאַד צו גאַראַנטירן די פּינטלעך און ריכטיק דאַטן לייבלינג.
עס איז מעגלעך צו אַססעסס די אַקיעראַסי פון די אַנאַטיישאַנז דורך ניצן QA טעקניקס ווי די קאָנסענסוס און Cronbach ס אַלף פּרובירן. די קערעקטנאַס פון די רעזולטאַטן איז באטייטיק ימפּרוווד דורך רוטין QA ינספּעקשאַנז.
טריינינג און טעסטינג מאָדעלס
די אַפאָרמענשאַנד פּראָוסידזשערז נאָר מאַכן זינען אויב די דאַטן זענען אָפּגעשטעלט פֿאַר ריכטיק. די טעכניק וועט זיין טעסטעד דורך ינקלודעד די אַנסטראַקטשערד דאַטאַסעט צו קאָנטראָלירן אויב עס גיט די געוואלט רעזולטאַטן.
דאַטאַ לייבלינג סטראַטעגיעס
דאַטאַ לייבלינג איז אַ לאַבאָריאַס פּראָצעס וואָס ריקווייערז ופמערקזאַמקייט צו דעטאַל. דער אופֿן געניצט צו אַנאַטייט דאַטן וועט בייַטן דיפּענדינג אויף די אַרויסגעבן ויסזאָגונג, ווי פיל דאַטן זאָל זיין טאַגד, ווי קאָמפּליצירט די דאַטן זענען און די נוסח.
לאָמיר דורכגיין עטלעכע פון די אָפּציעס וואָס דיין געשעפט האט, דיפּענדינג אויף די רעסורסן עס האט און די צייט עס איז בנימצא.
דאַטאַ לייבלינג אין-הויז
ווי דער נאָמען ימפּלייז, אין-הויז דאַטן לייבלינג איז דורכגעקאָכט דורך עקספּערץ אין אַ פירמע. ווען איר האָבן גענוג צייט, פּערסאַנעל און פינאַנציעל רעסורסן, דאָס איז דער בעסטער אָפּציע ווייַל עס ינשורז די מערסט פּינטלעך לייבלינג. אָבער, עס באוועגט סלאָולי.
אָוצאָורסינג
אן אנדער אָפּציע צו באַקומען טינגז איז צו אָנשטעלן פרילאַנסערז פֿאַר דאַטן לייבלינג טאַסקס וואָס קענען זיין דיסקאַווערד אויף פאַרשידן אַרבעט-זוכן און פרילאַנס מאַרקאַץ ווי Upwork.
אַוצאָרסינג איז אַ גיך אָפּציע צו באַקומען דאַטן לייבלינג באַדינונגס, אָבער די קוואַליטעט קען לייַדן, ענלעך צו די פריערדיקע אופֿן.
Crowdsourcing
איר קענט קלאָץ אין ווי אַ ריקוועווערער און פאַרשפּרייטן פאַרשידן לייבלינג דזשאָבס צו בנימצא קאָנטראַקטאָרס אויף ספּעשאַלייזד קראַודסאָורסינג פּלאַטפאָרמס ווי אַמאַזאָן מעטשאַניקאַל טערק (מטורק).
דער אופֿן, כאָטש אַ ביסל שנעל און ביליק, קען נישט צושטעלן אַנאַטייטיד דאַטן פון גוט קוואַליטעט.
לייבלינג פון דאַטן אויטאָמאַטיש.
דער פּראָצעדור קען זיין יידיד דורך ווייכווארג אין אַדישאַן צו זיין געפירט מאַניואַלי. ניצן די אַקטיוו לערנען צוגאַנג, טאַגס קענען ווערן אויטאָמאַטיש געפֿונען און צוגעגעבן צו די טריינינג דאַטאַסעט.
אין עסאַנס, מענטשלעך ספּעשאַלאַסץ אַנטוויקלען אַן אַי אַוטאָ-פירמע מאָדעל צו צייכן אַנלייבאַלד, רוי דאַטן. דערנאָך זיי באַשליסן אויב די מאָדעל אַפּראָופּרייטלי געווענדט די לייבלינג. מענטשן פאַרריכטן די מיסטייקס נאָך אַ דורכפאַל און ריטריין די אַלגערידאַם.
אַנטוויקלונג פון סינטעטיש דאַטן.
אין פּלאַץ פון פאַקטיש-וועלט דאַטן, סינטעטיש דאַטן איז אַ לייבאַלד דאַטאַסעט וואָס איז מאַניאַפאַקטשערד אַרטאַפישאַלי. עס איז געשאפן דורך אַלגערידאַמז אָדער קאָמפּיוטער סימיאַליישאַנז און איז אָפט געניצט צו באַן מאַשין לערנען מאָדעלס.
סינטעטיש דאַטן איז אַ ויסגעצייכנט ענטפער צו די ישוז פון דאַטן יאַקרעס און פאַרשיידנקייַט אין דעם קאָנטעקסט פון לייבלינג פּראָוסידזשערז. די שאַפונג פון סינטעטיש דאַטן פֿון קראַצן אָפפערס אַ לייזונג.
די שאַפונג פון 3 ד סעטטינגס מיט די ייטאַמז און אַרומיק די מאָדעל מוזן קענען צו דערקענען דורך דאַטאַסעט דעוועלאָפּערס. ווי פיל סינטעטיש דאַטן ווי פארלאנגט פֿאַר די פּרויעקט קענען זיין רענדערד.
טשאַלאַנדזשיז פון דאַטאַ לאַבעלינג
ריקווייערז מער צייט און מי
אין אַדישאַן צו זיין טשאַלאַנדזשינג צו באַקומען גרויס אַמאַונץ פון דאַטן (ספּעציעל פֿאַר העכסט ספּעשאַלייזד ינדאַסטריז ווי כעלטקער), לייבלינג יעדער שטיק פון דאַטן מיט האַנט איז אַרבעט-אינטענסיווע און לאַבאָריאַס, וואָס דאַרף די הילף פון מענטש לאַבעלס.
כּמעט 80% פון די צייט פארבראכט אויף אַ פּרויעקט איבער די גאנצע ציקל פון ML אַנטוויקלונג איז פארבראכט אויף דאַטן צוגרייטונג, וואָס כולל לייבלינג.
מעגלעכקייט פֿאַר ינקאַנסיסטאַנסי
רובֿ פון די צייט, קרייַז-לייבלינג, וואָס כאַפּאַנז ווען פילע מענטשן שטעלן די זעלבע סעט פון דאַטן, ריזאַלטיד אין אַ גרעסערע אַקיעראַסי.
אָבער, ווייַל מענטשן מאל האָבן וועריינג גראַדעס פון קאַמפּאַטינס, לייבלינג סטאַנדאַרדס און לאַבעלס זיך קענען זיין סתירה, וואָס איז אן אנדער אַרויסגעבן, עס איז מעגלעך פֿאַר צוויי אָדער מער אַנאַטייטערז צו דיסאַגרי אויף עטלעכע טאַגס.
פֿאַר בייַשפּיל, איין מומחה קען אָפּשאַצן אַ האָטעל רעצענזיע ווי גינציק, בשעת אנדערן וואָלט באַטראַכטן עס סאַרקאַסטיש און געבן עס אַ נידעריק ראַנג.
פעלד וויסן
איר וועט פילן די נויטיק צו אָנשטעלן לאַבעלס מיט ספּעשאַלייזד אינדוסטריע וויסן פֿאַר עטלעכע סעקטאָרס.
אַנאַטייטערז אָן די נויטיק פעלד וויסן, פֿאַר בייַשפּיל, וועט האָבן אַ זייער שווער צייט צו אַפּראָופּרייטלי טאַגינג די זאכן בשעת שאַפֿן אַ ML אַפּ פֿאַר די כעלטקער סעקטאָר.
פּראָנענעסס צו ערראָרס
מאַנואַל לייבלינג איז אונטערטעניק צו מענטשלעך מיסטייקס, ראַגאַרדלאַס פון ווי נאַלאַדזשאַבאַל און אָפּגעהיט דיין לאַבעלערס זענען. רעכט צו דעם פאַקט אַז אַנאַטייטערז אָפט אַרבעטן מיט ריזיק רוי דאַטן שטעלט, דאָס איז באַשערט.
ימאַדזשאַן אַ מענטש אַנאַטייטינג 100,000 בילדער מיט אַרויף צו 10 פאַרשידענע טינגז.
פּראָסט טייפּס פון דאַטאַ לאַבעלינג
Computer Vision
צו אַנטוויקלען דיין טריינינג דאַטאַסעט, איר מוזן ערשטער שטעלן בילדער, בילדצעלן אָדער שליסל ספּאַץ, אָדער פאַרלייגן אַ גרענעץ וואָס גאָר ענקלאָוזיז אַ דיגיטאַל בילד, באקאנט ווי אַ באַונדינג קעסטל, ווען איר בויען אַ קאָמפּיוטער זעאונג סיסטעם.
פאָוטאַגראַפס קענען זיין קאַטאַגערייזד אין אַ פאַרשיידנקייַט פון וועגן, אַרייַנגערעכנט דורך אינהאַלט (וואָס איז פאקטיש אין די בילד זיך) און קוואַליטעט (אַזאַ ווי פּראָדוקט ווס לייפסטייל שאַץ).
בילדער קענען אויך זיין צעטיילט אין סעגמאַנץ אויף די פּיקסעל מדרגה. דער קאָמפּיוטער זעאונג מאָדעל דעוועלאָפּעד מיט די טריינינג דאַטן קענען דערנאָך ווערן גענוצט צו אויטאָמאַטיש קלאַסיפיצירן בילדער, באַשטימען די אָרט פון אַבדזשעקץ, הויכפּונקט שליסל געביטן אין אַ בילד און אָפּשניט בילדער.
נאַטירלעך שפּראַך פּראַסעסינג
איידער איר פּראָדוצירן דיין נאַטירלעך שפּראַך פּראַסעסינג טריינינג דאַטאַבייס, איר מוזן מאַניואַלי קלייַבן באַטייַטיק טעקסטשאַוואַל פראַגמאַנץ אָדער קלאַסיפיצירן די מאַטעריאַל מיט ספּעסיפיעד לאַבעלס.
פֿאַר בייַשפּיל, איר קען וועלן צו דערקענען רעדע פּאַטערנז, קלאַסיפיצירן געהעריק נאַונז ווי ערטער און מענטשן, און ידענטיפיצירן טעקסט אין בילדער, פּדף אָדער אנדערע מידיאַ. איר קען אויך ווילן צו באַשליסן די סענטימענט אָדער קאַוואָנע פון אַ טעקסט בלער.
שאַפֿן באַונדינג באָקסעס אַרום דעם טעקסט אין דיין טריינינג דאַטאַסעט צו דערגרייכן דעם, און דאַן טראַנסקריבירן עס מאַניואַלי.
אָפּטיש כאַראַקטער דערקענונג, ענטיטי נאָמען לעגיטימאַציע, און סענטימענט אַנאַליסיס זענען אַלע דורכגעקאָכט מיט נאַטירלעך שפּראַך פּראַסעסינג מאָדעלס.
אַודיאָ פּראַסעסינג
אַודיאָ פּראַסעסינג פארוואנדלען אַלע טייפּס פון סאָונדס אין אַ סטראַקטשערד פֿאָרמאַט אַזוי אַז זיי קענען זיין יוטאַלייזד אין מאַשין לערנען, אַרייַנגערעכנט רייד, כייַע נויזיז (באַרקס, כוויסאַלז אָדער טשערפּס), און בנין נויזיז (צעבראכן גלאז, סקאַנינג אָדער סירענס).
אָפט, איידער איר קענען שעפּן אַודיאָ, איר מוזן מאַניואַלי גער עס צו טעקסט. דערנאָך, דורך קאַטאַגערייזינג און אַדינג טאַגס צו די אַודיאָ, איר קענען לערנען מער אין-טיפקייַט אינפֿאָרמאַציע וועגן אים. דיין טריינינג דאַטאַסעט איז דאָס קלאַסאַפייד אַודיאָ.
סאָף
אין מסקנא, ידענטיפיצירן דיין דאַטן איז אַ קריטיש טייל פון טריינינג קיין אַי מאָדעל. א פעסט-פּייסט אָרגאַניזאַציע, אָבער, פשוט קענען נישט פאַרגינענ זיך צו פאַרברענגען צייט צו טאָן דאָס מאַניואַלי ווייַל עס איז צייט-קאַנסומינג און ענערגיע-אינטענסיווע.
אַדדיטיאָנאַללי, עס איז אַ פּראָצעדור וואָס איז פּראָנע צו ינאַקיעראַסי און טוט נישט צוזאָג גרויס אַקיעראַסי. עס דאַרף נישט זיין אַזוי שווער, וואָס איז ויסגעצייכנט נייַעס.
הייַנט ס דאַטן לייבלינג טעקנאַלאַדזשיז געבן מיטאַרבעט צווישן יומאַנז און מאשינען צו צושטעלן גענוי און נוציק דאַטן פֿאַר אַ פאַרשיידנקייַט פון מאַשין לערנען אַפּלאַקיישאַנז.
לאָזן אַ ענטפֿערן