טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]
איינער פון די ערשטיק קרייטיריאַ פֿאַר קיין טיפּ פון פֿירמע טעטיקייט איז די עפעקטיוו יוטאַלאַזיישאַן פון אינפֿאָרמאַציע. אין עטלעכע פונט, די באַנד פון דאַטן באשאפן יקסידז די קאַפּאַציטעט פון יקערדיק פּראַסעסינג.
דאָס איז ווו מאַשין לערנען אַלגערידאַמז קומען אין שפּיל. אָבער, איידער קיין פון דעם קען פּאַסירן, די אינפֿאָרמאַציע מוזן זיין געלערנט און ינטערפּראַטאַד. אין אַ נאַטשעל, עס איז וואָס אַנסופּערווייזד מאַשין לערנען איז געניצט פֿאַר.
אין דעם אַרטיקל, מיר וועלן ונטערזוכן אין-טיפקייַט אַנסופּערווייזד מאַשין לערנען, אַרייַנגערעכנט די אַלגערידאַמז, נוצן קאַסעס און פיל מער.
וואָס איז ונסופּערוויסעד מאַשין לערנען?
ונסופּערוויסעד מאַשין לערנען אַלגערידאַמז ידענטיפיצירן פּאַטערנז אין אַ דאַטאַסעט וואָס טאָן ניט האָבן אַ באַוווסט אָדער לייבאַלד קאַנסאַקוואַנס. סופּערווייזד מאַשין לערנען אַלגערידאַמז האָבן אַ לייבאַלד רעזולטאַט.
וויסן דעם דיסטינגקשאַן העלפּס איר פֿאַרשטיין וואָס אַנסופּערווייזד מאַשין לערנען מעטהאָדס קענען ניט זיין געוויינט צו סאָלווע ראַגרעשאַן אָדער קלאַסאַפאַקיישאַן ישוז, ווייַל איר טאָן ניט וויסן וואָס די ווערט / ענטפֿערן פֿאַר די רעזולטאַט דאַטן קענען זיין. איר קענען נישט באַן אַ אַלגערידאַם נאָרמאַלי אויב איר טאָן ניט וויסן די ווערט / ענטפֿערן.
דערצו, ונסופּערוויסעד לערנען קענען זיין געניצט צו ידענטיפיצירן די פונדאַמענטאַל סטרוקטור פון די דאַטן. די אַלגערידאַמז דעטעקט פאַרבאָרגן פּאַטערנז אָדער דאַטן גראָופּינגז אָן די נויט פֿאַר מענטש ינטעראַקשאַן.
זיין פיייקייט צו דעטעקט סימאַלעראַטיז און קאַנטראַס אין אינפֿאָרמאַציע מאכט עס אַ גרויס ברירה פֿאַר יקספּלאָראַטאָרי דאַטן אַנאַליסיס, קרייַז-סעלינג טעקניקס, קאַנסומער סעגמאַנטיישאַן און בילד לעגיטימאַציע.
באַטראַכטן די פאלגענדע סצענאַר: איר זענט אין אַ שפּייַזקראָם קראָם און זען אַן אַניידענטאַפייד פרוכט וואָס איר האָט קיינמאָל געזען פריער. איר קענען לייכט ויסטיילן די אומבאַקאַנט פרוכט אַנדערש פון אנדערע פרוכט באזירט אויף דיין אַבזערוויישאַנז פון זייַן פאָרעם, גרייס אָדער קאָליר.
ונסופּערוויסעד מאַשין לערנען אַלגערידאַמז
Clustering
קלאַסטערינג איז אָן אַ צווייפל די מערסט וויידלי געניצט אַנסופּערווייזד לערנען צוגאַנג. דער צוגאַנג לייגט פֿאַרבונדענע דאַטן ייטאַמז אין ראַנדאַמלי דזשענערייטאַד קלאַסטערז.
אין זיך, אַ ML מאָדעל דיסקאַווערז קיין פּאַטערנז, סימאַלעראַטיז און / אָדער דיפעראַנסיז אין אַן אַנקאַטעגאָרייזד דאַטן סטרוקטור. א מאָדעל וועט קענען צו אַנטדעקן קיין נאַטירלעך גרופּינג אָדער קלאסן אין דאַטן.
טייפּס
עס זענען עטלעכע פארמען פון קלאַסטערינג וואָס קענען זיין געוויינט. לאָמיר קודם קוקן אויף די וויכטיקסטע.
- ויסשליסיק קלאַסטערינג, מאל באקאנט ווי "שווער" קלאַסטערינג, איז אַ טיפּ פון גרופּינג אין וואָס אַ איין שטיק פון דאַטן געהערט צו בלויז איין קנויל.
- אָוווערלאַפּינג קלאַסטערינג, אָפט באקאנט ווי "ווייך" קלאַסטערינג, אַלאַוז דאַטן אַבדזשעקץ צו געהערן צו מער ווי איין קנויל אין וועריינג דיגריז. דערצו, פּראָבאַביליסטיק קלאַסטערינג קענען זיין גענוצט צו מאַכנ זיך "ווייך" קלאַסטערינג אָדער געדיכטקייַט אָפּשאַצונג פּראָבלעמס, ווי געזונט ווי צו אַססעסס די מאַשמאָעס אָדער ליקעליהאָאָד פון דאַטן פונקטן וואָס געהערן צו זיכער קלאַסטערז.
- שאפן אַ כייעראַרקי פון גרופּט דאַטן זאכן איז דער ציל פון כייעראַרקאַקאַל קלאַסטערינג, ווי דער נאָמען ינדיקייץ. דאַטן ייטאַמז זענען דעקאַנסטראַקטיד אָדער קאַמביינד באזירט אויף די כייעראַרקי צו דזשענערייט קלאַסטערז.
נוצן קאַסעס:
- אַנאַמאַלי דעטעקשאַן:
קיין טיפּ פון אַוטלייער אין דאַטן קענען זיין דיטעקטאַד מיט קלאַסטערינג. קאָמפּאַניעס אין טראַנספּערטיישאַן און לאַדזשיסטיקס, למשל, קענען נוצן אַנאַמאַלי דיטעקשאַן צו אַנטדעקן לאָגיסטיק ימפּעדימאַנץ אָדער ויסזאָגן דאַמידזשד מעטשאַניקאַל פּאַרץ (פּרידיקטיוו וישאַלט).
פינאַנציעל אינסטיטוציעס קענען נוצן די טעכנאָלאָגיע צו דעטעקט פראָדזשאַלאַנט טראַנזאַקשאַנז און ריספּאַנד געשווינד, פּאַטענטשאַלי שפּאָרן אַ פּלאַץ פון געלט. לערן מער וועגן ספּאָטינג אַבנאָרמאַלאַטיז און שווינדל דורך וואַטשינג אונדזער ווידעא.
- סעגמענטאַטיאָן פון קאַסטאַמערז און מארקפלעצער:
קלאַסטערינג אַלגערידאַמז קענען אַרוישעלפן אין גרופּינג מענטשן וואָס האָבן ענלעך קעראַקטעריסטיקס און שאַפֿן קאַנסומער פּערסאָנאַז פֿאַר מער עפעקטיוו פֿאַרקויף און טאַרגעטעד ינישאַטיווז.
ק-מיטלען
ק-מעאַנס איז אַ קלאַסטערינג אופֿן וואָס איז אויך באקאנט ווי פּאַרטישאַנינג אָדער סעגמענטאַטיאָן. עס דיוויידז די דאַטן פונקטן אין אַ פּרידיטערמינד נומער פון קלאַסטערז באקאנט ווי K.
אין די K-מיטל אופֿן, K איז דער אַרייַנשרייַב זינט איר זאָגן די קאָמפּיוטער ווי פילע קלאַסטערז איר ווילן צו ידענטיפיצירן אין דיין דאַטן. יעדער דאַטן נומער איז דערנאָך אַסיינד צו די קלאָוסאַסט קנויל צענטער, באקאנט ווי אַ סענטראָיד (שוואַרץ דאַץ אין די בילד).
די יענער דינען ווי דאַטן סטאָרידזש ספּייסאַז. די קלאַסטערינג טעכניק קענען זיין געטאן פילע מאל ביז די קלאַסטערז זענען געזונט-דיפיינד.
פאַזי ק-מיטלען
פאַזי ק-מיטל איז אַ פאַרלענגערונג פון די ק-מיטל טעכניק, וואָס איז געניצט צו מאַכן אָוווערלאַפּינג קלאַסטערינג. ניט ענלעך די ק-מיטל טעכניק, פאַזי ק-מיטלען אָנווייַזן אַז דאַטן ווייזט קען געהערן צו פילע קלאַסטערז מיט וועריינג גראַדעס פון פּראַקסימאַטי צו יעדער.
די דיסטאַנסע צווישן דאַטן ווייזט און די קנויל ס סענטראָיד איז געניצט צו רעכענען פּראַקסימאַטי. ווי אַ רעזולטאַט, עס קענען זיין מאל ווען פאַרשידן קלאַסטערז אָוווערלאַפּ.
גאַוסיאַן מיקסטשער מאָדעלס
Gaussian Mixture Models (GMMs) זענען אַ מעטאָד געניצט אין פּראָבאַביליסטיק קלאַסטערינג. ווייַל די מיטל און דיפעראַנסיז זענען אומבאַקאַנט, די מאָדעלס יבערנעמען אַז עס זענען אַ פאַרפעסטיקט נומער פון גאַוסיאַן דיסטריביושאַנז, יעדער רעפּריזענטינג אַ באַזונדער קנויל.
צו באַשטימען צו וואָס קנויל אַ ספּעציפיש דאַטן פונט געהערט, דער אופֿן איז יסענשאַלי געניצט.
כייעראַרקיקאַל קלאַסטערינג
די כייעראַרקאַקאַל קלאַסטערינג סטראַטעגיע קענען אָנהייבן מיט יעדער דאַטן פונט אַסיינד צו אַ אַנדערש קנויל. די צוויי קלאַסטערז וואָס זענען נאָענט צו איינער דעם אנדערן זענען דעמאָלט בלענדיד אין אַ איין קנויל. יטעראַטיוו מערדזשינג האלט ביז בלויז איין קנויל בלייבט אין די שפּיץ.
דעם אופֿן איז באקאנט ווי דנאָ-אַרויף אָדער אַגגלאָמעראַטיוו. אויב איר אָנהייבן מיט אַלע דאַטן ייטאַמז טייד צו דער זעלביקער קנויל און דאַן פיר ספּליץ ביז יעדער דאַטן נומער איז אַסיינד ווי אַ באַזונדער קנויל, דער אופֿן איז באקאנט ווי שפּיץ-אַראָפּ אָדער דיוויסיוו כייראַרקאַקאַל קלאַסטערינג.
אַפּריאָרי אַלגערידאַם
מאַרק קאָרב אַנאַליסיס פּאָפּולערייזד אַפּריאָרי אַלגערידאַמז, ריזאַלטינג אין פאַרשידן רעקאַמאַנדיישאַנז ענדזשאַנז פֿאַר מוזיק פּלאַטפאָרמס און אָנליין סטאָרז.
זיי זענען גענוצט אין טראַנסאַקטיאָנאַל דאַטאַסעץ צו געפֿינען אָפט יטעמסעץ, אָדער גרופּינג פון זאכן, אין סדר צו פאָרויסזאָגן די ליקעליהאָאָד פון קאַנסומינג איין פּראָדוקט באזירט אויף די קאַנסאַמשאַן פון אנדערן.
פֿאַר בייַשפּיל, אויב איך אָנהייבן פּלייינג OneRepublic ס ראַדיאָ אויף Spotify מיט "קאַונטינג שטערן," איינער פון די אנדערע לידער אויף דעם קאַנאַל וועט זייער זיכער זיין אַ ימאַגינע דראַגאָן ליד, אַזאַ ווי "שלעכט ליגנער."
דאָס איז באזירט אויף מיין פריערדיקן צוגעהערט געוווינהייטן ווי געזונט ווי די צוגעהערט פּאַטערנז פון אנדערע. אַפּריאָרי מעטהאָדס ציילן יטעמסעץ ניצן אַ האַש בוים, דורך די דאַטאַסעט ברייט-ערשטער.
דימענסיאָנאַליטי רעדוקציע
דימענשאַנאַליטי רעדוקציע איז אַ סאָרט פון אַנסופּערווייזד לערנען וואָס נוצן אַ זאַמלונג פון סטראַטעגיעס צו מינאַמייז די נומער פון פֿעיִקייטן - אָדער דימענשאַנז - אין אַ דאַטאַסעט. לאָזן אונדז צו דערקלערן.
עס קען זיין טעמפּטינג צו ינקאָרפּערייט ווי פיל דאַטן ווי מעגלעך בשעת קריייטינג דיין דאַטאַסעט פֿאַר מאַשין לערנען. צי ניט באַקומען אונדז פאַלש: די סטראַטעגיע אַרבעט געזונט זינט מער דאַטן יוזשאַוואַלי ייעלדס מער פּינטלעך פיינדינגז.
יבערנעמען אַז דאַטן זענען סטאָרד אין N-דימענשאַנאַל פּלאַץ, מיט יעדער שטריך רעפּריזענטינג אַ אַנדערש ויסמעסטונג. עס קען זיין הונדערטער פון דימענשאַנז אויב עס איז אַ פּלאַץ פון דאַטן.
באַטראַכטן עקססעל ספּרעדשיץ, מיט שפאלטן רעפּריזענטינג קעראַקטעריסטיקס און ראָוז רעפּריזענטינג דאַטן זאכן. ווען עס זענען צו פילע דימענשאַנז, ML אַלגערידאַמז קען זיין שוואַך דאַטן וויזשוואַלאַזיישאַן קענען ווערן שווער.
אַזוי עס מאכט עס לאַדזשיקאַל צו באַגרענעצן די קעראַקטעריסטיקס אָדער דימענשאַנז, און קאַנוויי נאָר פּערטינאַנט אינפֿאָרמאַציע. רעדוקציע פון דימענשאַנאַליטי איז פּונקט אַז. עס אַלאַוז אַ מאַנידזשאַבאַל קוואַנטיטי פון דאַטן ינפּוץ אָן קאַמפּראַמייזינג די אָרנטלעכקייַט פון די דאַטאַסעט.
הויפּט קאַמפּאָונאַנץ אַנאַליסיס (פּקאַ)
דער הויפּט קאָמפּאָנענט אַנאַליסיס איז אַ דימענשאַנאַליטי רעדוקציע צוגאַנג. עס איז גענוצט צו מינאַמייז די נומער פון פֿעיִקייטן אין ריזיק דאַטאַסעץ, ריזאַלטינג אין גרעסערע דאַטן פּאַשטעס אָן סאַקראַפייסינג אַקיעראַסי.
דאַטאַסעט קאַמפּרעשאַן איז אַטשיווד דורך אַ מעטאָד באקאנט ווי שטריך יקסטראַקשאַן. עס ינדיקייץ אַז עלעמענטן פון דער אָריגינעל שטעלן זענען בלענדיד אין אַ נייַ, קלענערער איינער. די נייַע טרייץ זענען באקאנט ווי ערשטיק קאַמפּאָונאַנץ.
דאָך, עס זענען נאָך אַלגערידאַמז איר קענען נוצן אין דיין אַנסערווייזד לערנען אַפּלאַקיישאַנז. די ליסטעד אויבן זענען נאָר די מערסט פאַרשפּרייט, וואָס איז וואָס זיי זענען דיסקאַסט אין מער דעטאַל.
אַפּפּליקאַטיאָן פון ונסופּערוויסעד לערנען
- ונסופּערוויסעד לערנען מעטהאָדס זענען יוטאַלייזד פֿאַר וויזשאַוואַל מערקונג טאַסקס אַזאַ ווי כייפעץ דערקענונג.
- ונסופּערוויסעד מאַשין לערנען גיט קריטיש אַספּעקץ צו מעדיציניש ימידזשינג סיסטעמען, אַזאַ ווי בילד לעגיטימאַציע, קלאַסאַפאַקיישאַן און סעגמאַנטיישאַן, וואָס זענען יוטאַלייזד אין ראַדיאָלאָגי און פּאַטאַלאַדזשי צו דיאַגנאָזירן פּאַטיענץ ראַפּאַדלי און רילייאַבלי.
- ונסופּערוויסעד לערנען קענען העלפֿן ידענטיפיצירן דאַטן טרענדס וואָס קענען זיין גענוצט צו שאַפֿן מער עפעקטיוו קרייַז-סעלינג סטראַטעגיעס ניצן פאַרגאַנגענהייט דאַטן וועגן קאַנסומער נאַטור. בעשאַס די ויסשרייַבן פּראָצעס, דאָס איז געניצט דורך אָנליין געשעפטן צו פֿאָרשלאָגן די רעכט אַדישאַנז צו קלייאַנץ.
- ונסופּערוויסעד לערנען מעטהאָדס קענען סיפט דורך ריזיק וואַליומז פון דאַטן צו געפֿינען אַוטלייערז. די אַבנאָרמאַלאַטיז קען פאַרגרעסערן די אָנזאָג פון מאַלפאַנגקשאַנינג ויסריכט, מענטש טעות אָדער זיכערהייט בריטשיז.
ישוז מיט ונסופּערוויסעד לערנען
ונסופּערוויסעד לערנען איז אַפּילינג אין אַ פאַרשיידנקייַט פון וועגן, פֿון די פּאָטענציעל צו געפֿינען וויכטיק ינסייץ אין דאַטן צו ויסמיידן טייַער דאַטן לייבלינג אַפּעריישאַנז. אָבער, עס זענען עטלעכע דיסאַדוואַנטידזשיז צו נוצן דעם סטראַטעגיע צו באַן מאַשין לערנען מאָדעלס אַז איר זאָל זיין אַווער פון. דאָ זענען עטלעכע ביישפילן.
- ווייַל די אַרייַנשרייַב דאַטן פעלן לאַבעלס וואָס דינען ווי ענטפער שליסלען, די אַוטקאַמז פון אַנסופּערווייזד לערנען מאָדעלס קען זיין ווייניקער גענוי.
- ונסופּערוויסעד לערנען אָפט אַרבעט מיט מאַסיוו דאַטאַסעץ, וואָס קענען פאַרגרעסערן קאַמפּיוטיישאַנאַל קאַמפּלעקסיטי.
- דער צוגאַנג דאַרף רעזולטאַט באַשטעטיקונג דורך יומאַנז, אָדער ינערלעך אָדער פונדרויסנדיק ספּעשאַלאַסץ אין די ונטערטעניק פון אָנפרעג.
- אַלגערידאַמז מוזן ונטערזוכן און רעכענען יעדער מעגלעך סצענאַר איבער די טריינינג פאַסע, וואָס נעמט עטלעכע מאָל.
סאָף
עפעקטיוו דאַטן יוטאַלאַזיישאַן איז דער שליסל צו גרינדן אַ קאַמפּעטיטיוו ברעג אין אַ באַזונדער מאַרק.
איר קענט אָפּשניידן די דאַטן מיט אַנסופּערווייזד אַלגערידאַמז פֿאַר מאַשין לערנען צו ונטערזוכן די פּרעפֿערענצן פון דיין ציל וילעם אָדער צו באַשליסן ווי אַ זיכער ינפעקציע ריספּאַנדז צו אַ באַזונדער באַהאַנדלונג.
עס זענען עטלעכע פּראַקטיש אַפּלאַקיישאַנז, און דאַטן סייאַנטיס, ענדזשאַנירז און אַרקאַטעקץ קענען אַרוישעלפן איר אין דיפיינינג דיין גאָולז און דעוועלאָפּינג יינציק ML סאַלושאַנז פֿאַר דיין פירמע.
לאָזן אַ ענטפֿערן