טעמע מאָדעלינג הקדמה פֿאַר ביגינערז

טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]

וואָס איז טעמע מאָדעלינג?
קאַמפּאָונאַנץ פון טעמע מאָדעלינג+-
- פּראָבאַביליסטיק מאָדעל
- ינפאָרמאַטיוו ריטריוואַל
פאַרשידענע מעטהאָדס פון טעמע מאָדעלינג+-
האַנט-אויף מיט טעמע מאָדעלינג אין פּיטהאָן+-
- עקספּלאָראַטאָרי דאַטאַ אַנאַליסיס
- ניצן טאַגס פֿאַר טעמע מאָדעלינג
אַפּפּליקאַטיאָנס פון טעמע מאָדעלינג
סאָף

איך בין זיכער אַז איר האָט געהערט פון קינסטלעך סייכל, ווי געזונט ווי ווערטער ווי מאַשין לערנען און נאַטירלעך שפּראַך פּראַסעסינג (NLP).

ספּעציעל אויב איר אַרבעט פֿאַר אַ פירמע וואָס כאַנדאַלז הונדערטער, אויב נישט טויזנטער, פון קליענט קאָנטאַקטן יעדער טאָג.

דאַטאַ אַנאַליסיס פון געזעלשאַפטלעך מידיאַ פּאָוסטינגז, ימיילז, טשאַץ, אָפֿן-געענדיקט יבערבליק ענטפֿערס און אנדערע מקורים איז נישט אַ פּשוט פּראָצעס, און עס ווערט אפילו מער שווער ווען ענטראַסטיד בלויז צו מענטשן.

אַז איז וואָס פילע מענטשן זענען ינטוזיאַסטיק וועגן דעם פּאָטענציעל פון קינסטלעך סייכל פֿאַר זייער טאָג-צו-טאָג אַרבעט און פֿאַר ענטערפּריסעס.

AI-Powered טעקסט אַנאַליסיס ניצט אַ ברייט קייט פון אַפּראָוטשיז אָדער אַלגערידאַמז צו ינטערפּריט שפּראַך אָרגאַניקלי, איינער פון וואָס איז טעמע אַנאַליסיס, וואָס איז געניצט צו אויטאָמאַטיש אַנטדעקן סאַבדזשעקץ פון טעקסטן.

געשעפטן קענען נוצן טעמע אַנאַליסיס מאָדעלס צו אַריבערפירן גרינג דזשאָבס אַנטו מאשינען אלא ווי אָוווערבעראַן טוערס מיט צו פיל דאַטן.

באַטראַכטן ווי פיל צייט דיין מאַנשאַפֿט קען שפּאָרן און אָפּגעבן צו מער יקערדיק אַרבעט אויב אַ קאָמפּיוטער קען פילטער דורך סאָף רשימות פון קונה סערווייז אָדער שטיצן ישוז יעדער מאָרגן.

אין דעם פירער, מיר וועלן קוקן אין טעמע מאָדעלינג, פאַרשידענע מעטהאָדס פון טעמע מאָדעלינג, און באַקומען עטלעכע פּראַקטיש דערפאַרונג מיט אים.

וואָס איז טעמע מאָדעלינג?

טעמע מאָדעלינג איז אַ טיפּ פון טעקסט מיינינג אין וואָס אַנסופּערווייזד און סופּערווייזד סטאַטיסטיש מאַשין וויסן טעקניקס זענען געניצט צו דעטעקט טרענדס אין אַ קאָרפּוס אָדער אַ באַטייטיק באַנד פון אַנסטראַקטשערד טעקסט.

עס קענען נעמען דיין מאַסיוו זאַמלונג פון דאָקומענטן און נוצן אַן ענלעכקייט אופֿן צו צולייגן די ווערטער אין קלאַסטערז פון טערמינען און אַנטדעקן סאַבדזשעקץ.

אַז סימז אַ ביסל קאָמפּליצירט און שווער, אַזוי לאָזן אונדז פאַרפּאָשעטערן די פּראָוסידזשערז פון די ונטערטעניק מאָדעלינג!

יבערנעמען איר לייענען אַ צייַטונג מיט אַ גאַנג פון בונט כיילייטערז אין דיין האַנט.

איז דאָס נישט אַלטמאָדיש?

איך פאַרשטיי, אַז היינטיקע צייטן לייענט מען ווייניק צייטונגען אין דרוק; אַלץ איז דיגיטאַל, און היגהליגהטערס זענען אַ זאַך פון דער פאַרגאַנגענהייט! פאַרהיטן צו זיין דיין פאטער אָדער מוטער!

אַזוי, ווען איר לייענען די צייטונג, איר הויכפּונקט די וויכטיק טערמינען.

נאָך איין האַשאָרע!

איר נוצן אַ אַנדערש כיו צו ונטערשטרייַכן די טערמינען פון פאַרשידן טעמעס. איר קאַטאַגערייז די טערמינען דיפּענדינג אויף די צוגעשטעלט קאָליר און טעמעס.

יעדער זאַמלונג פון ווערטער אנגעצייכנט דורך אַ זיכער קאָליר איז אַ רשימה פון טערמינען פֿאַר אַ געגעבן טעמע. די נומער פון פאַרשידענע פארבן איר פּיקט ווייזט די נומער פון טעמעס.

דאָס איז די מערסט פונדאַמענטאַל טעמע מאָדעלינג. עס אַידז אין די קאַמפּריכענשאַן, אָרגאַניזאַציע און סאַמעריזיישאַן פון גרויס טעקסט זאַמלונגען.

אָבער, האַלטן אין מיינונג אַז צו זיין עפעקטיוו, אָטאַמייטיד טעמע מאָדעלס דאַרפן אַ פּלאַץ פון אינהאַלט. אויב איר האָט אַ קורץ פּאַפּיר, איר זאל וועלן צו גיין אַלט שולע און נוצן היגהליגהטערס!

עס איז אויך וווילטויק צו פאַרברענגען עטלעכע מאָל צו וויסן די דאַטן. דאָס וועט געבן איר אַ יקערדיק געפיל פון וואָס די טעמע מאָדעל זאָל געפֿינען.

פֿאַר בייַשפּיל, דער טאָגבוך קען זיין וועגן דיין פאָרשטעלן און פרייַערדיק באציונגען. אזוי, איך וואָלט דערוואַרטן אַז מיין טעקסט מיינינג ראָבאָט-באַדי וועט קומען אַרויף מיט ענלעך געדאנקען.

דאָס קען העלפֿן איר בעסער פונאַנדערקלייַבן די קוואַליטעט פון די סאַבדזשעקץ וואָס איר האָט יידענאַפייד און, אויב נייטיק, טוויק די קיווערד שטעלט.

קאַמפּאָונאַנץ פון טעמע מאָדעלינג

פּראָבאַביליסטיק מאָדעל

ראַנדאָם וועריאַבאַלז און מאַשמאָעס דיסטריביושאַנז זענען ינקאָרפּערייטיד אין די פאַרטרעטונג פון אַ געשעעניש אָדער דערשיינונג אין פּראָבאַביליסטיק מאָדעלס.

א דיטערמאַניסטיק מאָדעל גיט אַ איין פּאָטענציעל מסקנא פֿאַר אַ געשעעניש, כאָטש אַ פּראָבאַביליסטיק מאָדעל גיט אַ מאַשמאָעס פאַרשפּרייטונג ווי אַ לייזונג.

די מאָדעלס באַטראַכטן די פאַקט אַז מיר ראַרעלי האָבן גאַנץ וויסן פון אַ סיטואַציע. עס איז כּמעט שטענדיק אַן עלעמענט פון ראַנדאַמנאַס צו באַטראַכטן.

צום ביישפּיל, לעבן פאַרזיכערונג איז באזירט אויף דער פאַקט אַז מיר וויסן מיר וועלן שטאַרבן, אָבער מיר טאָן ניט וויסן ווען. די מאָדעלס קענען זיין טייל דיטערמאַניסטיק, טייל טראַפ אָדער גאָר טראַפ.

ינפאָרמאַטיוו ריטריוואַל

אינפֿאָרמאַציע ריטריוואַל (IR) איז אַ ווייכווארג פּראָגראַם וואָס אָרגאַניזירט, קראָם, ריטריווז און אָפּשאַצן אינפֿאָרמאַציע פון דאָקומענט ריפּאַזאַטאָריז, ספּעציעל טעקסטשאַוואַל אינפֿאָרמאַציע.

די טעכנאָלאָגיע העלפּס יוזערז צו אַנטדעקן די אינפֿאָרמאַציע זיי דאַרפֿן, אָבער עס גיט נישט קלאר די ענטפֿערס צו זייער ינקוועריז. עס נאָוטאַפייז די בייַזייַן און אָרט פון צייטונגען וואָס קען צושטעלן די נייטיק אינפֿאָרמאַציע.

באַטייַטיק דאָקומענטן זענען די וואָס טרעפן די באדערפענישן פון די באַניצער. א פאַלש יר סיסטעם וועט צוריקקומען בלויז אויסגעקליבן דאָקומענטן.

טעמע קאָוכיראַנס

טעמע קאָוכיראַנס סקאָרז אַ איין טעמע דורך קאַלקיאַלייטינג די גראַד פון סעמאַנטיק ענלעכקייט צווישן די טעמע ס הויך-סקאָרינג טערמינען. די מעטריקס העלפֿן צו דיסטינגגווישינג צווישן סאַבדזשעקץ וואָס זענען סעמאַנטיקאַללי ינטערפּריטאַבאַל און טעמעס וואָס זענען סטאַטיסטיש ינפעראַנס אַרטאַפאַקץ.

אויב אַ גרופּע פון קליימז אָדער פאקטן שטיצן יעדער אנדערע, זיי זענען געזאגט צו זיין קאָוכיראַנט.

ווי אַ רעזולטאַט, אַ קאָוכיסיוו פאַקט שטעלן קענען זיין פארשטאנען אין אַ קאָנטעקסט וואָס ענקאַמפּאַסאַז אַלע אָדער די מערהייַט פון די פאקטן. "די שפּיל איז אַ מאַנשאַפֿט ספּאָרט," "די שפּיל איז געשפילט מיט אַ פּילקע," און "די שפּיל ריקווייערז ריזיק פיזיש מי" זענען אַלע ביישפילן פון קאָוכיסיוו פאַקט שטעלט.

פאַרשידענע מעטהאָדס פון טעמע מאָדעלינג

דעם קריטיש פּראָצעדור קענען זיין דורכגעקאָכט דורך אַ פאַרשיידנקייַט פון אַלגערידאַמז אָדער מעטאַדאַלאַדזשיז. צווישן זיי זענען:

לייטאַנט דיריטשלעט אַלאַקיישאַן (LDA)
ניט-נעגאַטיוו מאַטריץ פאַקטאָריזאַטיאָן (NMF)
לייטאַנט סעמאַנטיק אַנאַליסיס (LSA)
פּראָבאַביליסטיק לייטאַנט סעמאַנטיק אַנאַליסיס (pLSA)

לייטאַנט דיריטשלעט אַלאַקיישאַן (LDA)

צו דעטעקט באציונגען צווישן קייפל טעקסטן אין אַ קאָרפּוס, די סטאַטיסטיש און גראַפיקאַל באַגריף פון לייטאַנט דיריטשלעט אַלאַקיישאַן איז געניצט.

מיט די וועריישאַנאַל עקססעפּשאַן מאַקסימיזאַטיאָן (VEM) צוגאַנג, די גרעסטן ליקעליהאָאָד אָפּשאַצונג פון די פול קאָרפּוס פון טעקסט איז אַטשיווד.

LDA

טראַדישאַנאַלי, די שפּיץ ביסל ווערטער פון אַ זעקל פון ווערטער זענען אויסדערוויילט.

אָבער, דער זאַץ איז גאָר מינינגלאַס.

לויט דעם טעכניק, יעדער טעקסט וועט זיין רעפּריזענטיד דורך אַ פּראָבאַביליסטיק פאַרשפּרייטונג פון סאַבדזשעקץ, און יעדער טעמע דורך אַ פּראָבאַביליסטיק פאַרשפּרייטונג פון ווערטער.

ניט-נעגאַטיוו מאַטריץ פאַקטאָריזאַטיאָן (נמף)

מאַטריץ מיט נאָן-נעגאַטיוו וואַלועס פאַקטאָריזאַטיאָן איז אַ קאַטינג-ברעג שטריך יקסטראַקשאַן צוגאַנג.

ווען עס זענען פילע מידות און די אַטריביוץ זענען ווייג אָדער האָבן אַ שלעכט פּרידיקטאַביליטי, NMF איז וווילטויק. NMF קענען דזשענערייט באַטייַטיק פּאַטערנז, סאַבדזשעקץ אָדער טעמעס דורך קאַמביינינג קעראַקטעריסטיקס.

ניט-נעגאַטיוו מאַטריץ פאַקטאָריזאַטיאָן

NMF דזשענערייץ יעדער שטריך ווי אַ לינעאַר קאָמבינאַציע פון דער אָריגינעל אַטריביוט שטעלן.

יעדער שטריך כּולל אַ סכום פון קאָואַפישאַנץ וואָס רעפּראַזענץ די וויכטיקייט פון יעדער אַטריביוט אויף די שטריך. יעדער נומעריקאַל אַטריביוט און יעדער ווערט פון יעדער קאַטעגאָריע אַטריביוט האט זייַן אייגענע קאָואַפישאַנט.

אַלע קאָואַפישאַנץ זענען positive.

לייטאַנט סעמאַנטיק אַנאַליסיס

עס איז אן אנדער אַנסופּערווייזד לערנען אופֿן געניצט צו עקסטראַקט אַסאָוסייישאַנז צווישן ווערטער אין אַ סכום פון דאָקומענטן איז לייטאַנט סעמאַנטיק אַנאַליסיס.

דאָס העלפּס אונדז צו קלייַבן די רעכט דאָקומענטן. זייַן ערשטיק פֿונקציע איז צו רעדוצירן די דימענשאַנאַליטי פון די ריזיק קאָרפּוס פון טעקסט דאַטן.

די ומנייטיק דאַטן דינען ווי הינטערגרונט ראַש אין אַקוויירינג די נייטיק ינסייץ פון די דאַטן.

לייטאַנט סעמאַנטיק אַנאַליסיס

פּראָבאַביליסטיק לייטאַנט סעמאַנטיק אַנאַליסיס (pLSA)

פּראָבאַביליסטיק לייטאַנט סעמאַנטיק אַנאַליסיס (PLSA), א מאל באקאנט ווי פּראָבאַביליסטיק לייטאַנט סעמאַנטיק ינדעקסינג (PLSI, נאָוטאַבלי אין אינפֿאָרמאַציע ריטריוואַל קרייזן), איז אַ סטאַטיסטיש צוגאַנג פֿאַר אַנאַלייזינג צוויי-מאָדע און קאָ-געשעעניש דאַטן.

אין פאַקט, ענלעך צו לייטאַנט סעמאַנטיק אַנאַליסיס, פֿון וואָס PLSA ימערדזשד, אַ נידעריק-דימענשאַנאַל פאַרטרעטונג פון די באמערקט וועריאַבאַלז קענען זיין דערייווד אין טערמינען פון זייער קירבות צו באַזונדער פאַרבאָרגן וועריאַבאַלז.

פּראָבאַביליסטיק לייטאַנט סענאַנטיק אַנאַליסיס

האַנט-אויף מיט טעמע מאָדעלינג אין פּיטהאָן

איצט, איך וועט פירן איר דורך אַ טעמע מאָדעלינג אַסיינמאַנט מיט די פּיטהאָן פּראָגראַממינג שפּראַך ניצן אַ פאַקטיש-וועלט בייַשפּיל.

איך וועל מאָדעלינג פאָרשונג אַרטיקלען. די דאַטאַסעט איך וועט נוצן דאָ קומט פֿון kaggle.com. איר קענען לייכט באַקומען אַלע די טעקעס וואָס איך נוצן אין דעם אַרבעט פֿון דעם בלאַט.

לאָמיר אָנהייבן מיט טעמע מאָדעלינג ניצן Python דורך ימפּאָרטינג אַלע יקערדיק לייברעריז:

ימפּאָרטינג ליבראַריעס

די פאלגענדע שריט איז צו לייענען אַלע די דאַטאַסעץ וואָס איך וועל נוצן אין דעם אַרבעט:

לייענען די דאַטאַסעט

עקספּלאָראַטאָרי דאַטאַ אַנאַליסיס

EDA (Exploratory Data Analysis) איז אַ סטאַטיסטיש מעטאָד וואָס ניצט וויזשאַוואַל עלעמענטן. עס ניצט סטאַטיסטיש סאַמעריז און גראַפיקאַל רעפּראַזאַנטיישאַנז צו אַנטדעקן טרענדס, פּאַטערנז און פּרובירן אַסאַמפּשאַנז.

איך וועל טאָן עטלעכע יקספּלאָראַטאָרי דאַטן אַנאַליסיס איידער איך אָנהייבן טעמע מאָדעלינג צו זען אויב עס זענען פּאַטערנז אָדער שייכות אין די דאַטן:

געפֿינען נאַל וואַלועס פון באַן דאַטאַסעט

רעזולטאַט פון באַן נול וואַלועס

איצט מיר וועלן געפֿינען די נול וואַלועס פון די פּראָבע דאַטאַסעט:

געפֿינען נאַל וואַלועס פון טעסט דאַטאַסעט

רעזולטאַט פון טעסט נול וואַלועס

איצט איך וועט פּלאַצן אַ כיסטאַגראַם און באָקספּלאָט צו קאָנטראָלירן די באַציונג צווישן די וועריאַבאַלז.

פּלאַטינג

רעזולטאַט פון פּלאַטינג 1

די נומער פון אותיות אין די אַבסטראַקץ פון די באַן שטעלן איז זייער אַנדערש.

אויף דער באַן מיר האָבן אַ מינימום פון 54 און אַ מאַקסימום פון 4551 אותיות. 1065 איז די דורכשניטלעך נומער פון אותיות.

פּלאַטינג 2

רעזולטאַט פון פּלאַטינג 2

דער פּראָבע גאַנג קוקט צו זיין מער טשיקאַווע ווי די טריינינג גאַנג זינט די טעסט גאַנג האט 46 אותיות, בשעת די טריינינג גאַנג האט 2841.

ווי אַ רעזולטאַט, די פּרובירן שטעלן האט אַ מידיאַן פון 1058 אותיות, וואָס איז ענלעך צו די טריינינג שטעלן.

פּלאַטינג 3

רעזולטאַט פון פּלאַטינג 3

די נומער פון ווערטער אין די לערנען שטעלן גייט אַ ענלעך מוסטער צו די נומער פון אותיות.

א מינימום פון 8 ווערטער און אַ מאַקסימום פון 665 ווערטער זענען ערלויבט. ווי אַ רעזולטאַט, די מידיאַן וואָרט ציילן איז 153.

פּלאַטינג 4

רעזולטאַט פון פּלאַטינג 4

א מינימום פון זיבן ווערטער אין אַ אַבסטראַקט און אַ מאַקסימום פון 452 ווערטער אין די פּראָבע שטעלן זענען פארלאנגט.

די מידיאַן, אין דעם פאַל, איז 153, וואָס איז יידעניקאַל צו די מידיאַן אין די טריינינג שטעלן.

ניצן טאַגס פֿאַר טעמע מאָדעלינג

עס זענען עטלעכע טעמע מאָדעלינג סטראַטעגיעס. איך וועט נוצן טאַגס אין דעם געניטונג; לאָמיר זען ווי צו טאָן דאָס דורך ונטערזוכן די טאַגס:

ניצן טאַגס פֿאַר טעמע מאָדעלינג

רעזולטאַט פון טעמע מאָדעלינג

אַפּפּליקאַטיאָנס פון טעמע מאָדעלינג

א טעקסט קיצער קענען ווערן גענוצט צו דערקענען די טעמע פון אַ דאָקומענט אָדער בוך.
עס קענען זיין געניצט צו באַזייַטיקן קאַנדידאַט פאָרורטייל פון יגזאַם סקאָרינג.
טעמע מאָדעלינג קען זיין געניצט צו בויען סעמאַנטיק באַציונגען צווישן ווערטער אין גראַפיק-באזירט מאָדעלס.
עס קענען פאַרבעסערן קונה דינסט דורך דיטעקטינג און ריספּאַנדינג צו טערמינען אין דער אָנפרעג פון דעם קליענט. קאַסטאַמערז וועלן האָבן מער אמונה אין איר זינט איר האָט צוגעשטעלט זיי מיט די הילף זיי דאַרפן אין די צונעמען מאָמענט און אָן פאַרשאַפן זיי קיין כאַסאַל. ווי אַ רעזולטאַט, קליענט לויאַלטי ריסעס דראַמאַטיקלי, און די ווערט פון די פירמע ינקריסיז.

סאָף

טעמע מאָדעלינג איז אַ סאָרט פון סטאַטיסטיש מאָדעלינג געניצט צו ופדעקן אַבסטראַקט "סאַבדזשעקץ" וואָס עקסיסטירן אין אַ זאַמלונג פון טעקסטן.

עס איז אַ פאָרעם פון די סטאַטיסטיש מאָדעל געניצט אין מאַשין וויסן און נאַטירלעך שפּראַך פּראַסעסינג צו ופדעקן אַבסטראַקט קאַנסעפּס וואָס עקסיסטירן אין אַ גאַנג פון טעקסטן.

עס איז אַ טעקסט מיינינג אופֿן וואָס איז וויידלי געניצט צו געפֿינען לייטאַנט סעמאַנטיק פּאַטערנז אין גוף טעקסט.

טעמע מאָדעלינג הקדמה פֿאַר ביגינערז

וואָס איז טעמע מאָדעלינג?