NLP סענטימענט אַנאַליסיס מיט Python

טיש פון קאָנטענץ[באַהאַלטן][ווייַזן]

וואָס איז סענטימענט אַנאַליסיס?
Benefits פון סענטימענט אַנאַליסיס
סענטימענט אַנאַליסיס - פּראָבלעם סטאַטעמענט+-
סאָף

געשעפטן וועלן האָבן מאַסטערד די אַקוואַזישאַן פון קאַנסומער ינטעראַקשאַן דאַטן דורך 2021.

איבער-צוטרוי אויף די דאַטן ווייזט, אויף די אנדערע האַנט, אָפט פירט צו אָרגאַנאַזיישאַנז טרעאַטינג קונה אַרייַנשרייַב ווי אַ סטאַטיסטיק - אַ גאַנץ איין-דימענשאַנאַל צוגאַנג צו צוגעהערט צו דער קונה ס קול.

דער קונה ס קול קענען ניט זיין באַדזשיד אָדער קאָנווערטעד אין אַ נומער.

מען דארף עס לייענען, פארמאכן, און בעיקר פארשטאנען.

דער פאַקט איז אַז קאָמפּאַניעס מוזן אַקטיוולי הערן צו וואָס זייער קאָנסומערס האָבן צו זאָגן אויף יעדער קאַנאַל דורך וואָס זיי ינטעראַקט מיט זיי, צי עס איז דורך טעלעפאָן קאַללס, ימיילז אָדער לעבן שמועסן.

יעדער פירמע זאָל פּרייאָראַטייז מאָניטאָרינג און עוואַלואַטינג קאַנסומער באַמערקונגען סענטימענט, אָבער קאָמפּאַניעס האָבן טראַדישאַנאַלי סטראַגאַלד צו שעפּן די דאַטן און יבערמאַכן עס אין מינינגפאַל סייכל.

דאָס איז ניט מער דער פאַל מיט סענטימענט אַנאַליסיס.

אין דעם טוטאָריאַל, מיר וועלן נעמען אַ נעענטער קוק אין סענטימענט אַנאַליסיס, זייַן אַדוואַנטידזשיז און ווי צו נוצן די NLTK ביבליאָטעק צו טאָן סענטימענט אַנאַליסיס אויף דאַטן.

וואָס איז סענטימענט אַנאַליסיס?

סענטימענט אַנאַליסיס, אָפט באקאנט ווי שמועס מיינינג, איז אַ מעטאָד פֿאַר אַנאַלייזינג מענטשן ס געפילן, געדאנקען און מיינונגען.

סענטימענט אַנאַליסיס אַלאַוז געשעפטן צו באַקומען אַ בעסער פארשטאנד פון זייער קאָנסומערס, פאַרגרעסערן רעוועך און פאַרבעסערן זייער פּראָדוקטן און באַדינונגס באזירט אויף קליענט אַרייַנשרייַב.

דער חילוק צווישן אַ ווייכווארג סיסטעם וואָס איז ביכולת צו אַנאַלייז קונה סענטימענט און אַ פאַרקויפער / קונה דינסט פארשטייער וואָס פּרוּווט צו אַרויספירן עס איז די ערשטע פיייקייט צו באַקומען אָביעקטיוו רעזולטאַטן פון די רוי טעקסט - דאָס איז בפֿרט דערגרייכט דורך נאַטירלעך שפּראַך פּראַסעסינג (NLP) און מאַשין וויסן טעקניקס.

פון עמאָציע לעגיטימאַציע צו טעקסט קאַטאַגעריזיישאַן, סענטימענט אַנאַליסיס האט אַ ברייט קייט פון אַפּלאַקיישאַנז. מיר נוצן סענטימענט אַנאַליסיס אויף טעקסטשאַוואַל דאַטן צו אַרוישעלפן אַ פעסט מאָניטאָר די סענטימענט פון פּראָדוקט יוואַליויישאַנז אָדער קאַנסומער באַמערקונגען.

פאַרשידענע געזעלשאַפטלעך מידיאַ זייטלעך נוצן עס צו אַססעסס די סענטימענט פון פּאָוסטינגז, און אויב די עמאָציע איז צו שטאַרק אָדער היציק, אָדער פאלן אונטער זייער שוועל, די פּאָסטן איז אָדער אויסגעמעקט אָדער פאַרבאָרגן.

סענטימענט אַנאַליסיס קענען ווערן גענוצט פֿאַר אַלץ פון עמאָציע לעגיטימאַציע צו טעקסט קאַטאַגעריזיישאַן.

די מערסט פאָלקס נוצן פון סענטימענט אַנאַליסיס איז אויף טעקסטשאַוואַל דאַטן, ווו עס איז געניצט צו העלפן אַ פירמע אין טראַקינג די סענטימענט פון פּראָדוקט יוואַליויישאַנז אָדער קאַנסומער באַמערקונגען.

פאַרשידענע געזעלשאַפטלעך מידיאַ זייטלעך אויך נוצן עס צו אַססעסס די סענטימענט פון פּאָוסטינגז, און אויב די עמאָציע איז צו שטאַרק אָדער היציק, אָדער פאלן אונטער זייער שוועל, זיי ויסמעקן אָדער באַהאַלטן דעם פּאָסטן.

Benefits פון סענטימענט אַנאַליסיס

די פאלגענדע זענען עטלעכע פון די מערסט וויכטיק בענעפיץ פון סענטימענט אַנאַליסיס וואָס זאָל ניט זיין דיסריגאַרדיד.

הילף צו אַססעסס די מערקונג פון דיין סאָרט צווישן דיין דעמאָגראַפיק ציל.
דירעקט קליענט באַמערקונגען איז צוגעשטעלט צו העלפֿן איר אַנטוויקלען דיין פּראָדוקט.
ינקריסאַז פארקויפונג רעוועך און פּראָספּעקטינג.
אַפּסעלל אַפּערטונאַטיז פֿאַר דיין פּראָדוקט טשאַמפּיאָנס האָבן געוואקסן.
פּראָאַקטיווע קונה דינסט איז אַ פּראַקטיש אָפּציע.

נומערן קענען צושטעלן איר אינפֿאָרמאַציע ווי די רוי פאָרשטעלונג פון אַ פֿאַרקויף קאמפאניע, די סומע פון באַשטעלונג אין אַ פּראָספּעקטינג רופן און די נומער פון טיקיץ פּענדינג אין קונה שטיצן.

אָבער, עס וועט נישט זאָגן איר וואָס אַ ספּעציפיש געשעעניש איז פארגעקומען אָדער וואָס געפֿירט עס. אַנאַליטיקס מכשירים ווי Google און Facebook, למשל, קענען העלפֿן איר אַססעסס די פאָרשטעלונג פון דיין פֿאַרקויף השתדלות.

אָבער זיי טאָן ניט צושטעלן איר מיט אַ טיף וויסן פון וואָס די ספּעציפיש קאמפאניע איז געווען געראָטן.

סענטימענט אַנאַליסיס האט די פּאָטענציעל צו זיין שפּיל-טשאַנגינג אין דעם אַכטונג.

סענטימענט אַנאַליסיס - פּראָבלעם סטאַטעמענט

דער ציל איז צו באַשליסן צי אַ טוועעט האט גינציק, נעגאַטיוו אָדער נייטראַל עמאָציע וועגן זעקס יו. עס. ערליינז באזירט אויף טוועעץ.

דאָס איז אַ נאָרמאַל סופּערווייזד לערנען אַרבעט אין וואָס מיר מוזן קאַטאַגערייז אַ טעקסט שטריקל אין פּרידיטערמינד קאַטעגאָריעס געגעבן אַ טעקסט שטריקל.

באַשייד

מיר וועלן נוצן די נאָרמאַל מאַשין לערנען פּראָצעס צו אַדרעס דעם פּראָבלעם. מיר וועלן אָנהייבן מיט ימפּאָרטינג די נייטיק לייברעריז און דאַטאַסעץ.

דערנאָך מיר וועלן דורכפירן עטלעכע יקספּלאָראַטאָרי דאַטן אַנאַליסיס צו באַשליסן אויב עס זענען פּאַטערנז אין די דאַטן. דערנאָך, מיר וועלן דורכפירן טעקסט פּרעפּראָסעססינג צו ווענדן טעקסטשאַוואַל אַרייַנשרייַב נומעריק דאַטן אַז אַ מאַשין וויסן סיסטעם קענען נוצן.

צום סוף, מיר וועלן באַן און אָפּשאַצן אונדזער סענטימענט אַנאַליסיס מאָדעלס ניצן מאַשין לערנען מעטהאָדס.

1. ימפּאָרטינג ליבראַריעס

לאָדן די נייטיק לייברעריז.

ימפּאָרטינג ליבראַריעס

2. אַרייַנפיר דאַטאַסעט

דער אַרטיקל וועט זיין באזירט אויף אַ דאַטאַסעט וואָס קענען זיין געפֿונען אויף גיטהוב. די דאַטאַטאַס וועט זיין ימפּאָרטיד מיט Pandas 'לייענען CSV פונקציע, ווי געוויזן אונטן:

ימפּאָרטינג דאַטאַסעט

ניצן די קאָפּ () פֿונקציע, ונטערזוכן די ערשטער פינף ראָוז פון די דאַטאַסעט:

קאָפּ דאַטאַסעט

אָוטפּוט:

רעזולטאַט פון די קאָפּ דאַטאַסעט

3. אַנאַליסיס פון די דאַטאַ

זאל אונדז ונטערזוכן די דאַטן צו באַשליסן אויב עס זענען טרענדס. אָבער ערשטער, מיר טוישן די פעליקייַט פּלאַנעווען גרייס צו מאַכן די טשאַרץ מער קענטיק.

אַדזשאַסטינג פּלאַנעווען גרייס

לאָמיר אָנהייבן מיט די נומער פון טוועעץ באקומען דורך יעדער ערליין. מיר וועלן נוצן אַ פּיראָג טשאַרט פֿאַר דעם:

פּיראָג טשאַרט

דער פּראָצענט פון ציבור טוועעץ פֿאַר יעדער ערליין איז געוויזן אין דער רעזולטאַט.

פּיראָג טשאַרט רעזולטאַט

לאָמיר זען ווי די געפילן זענען פונאנדערגעטיילט איבער אַלע טוועעץ.

סעמאַנטיק פּיראָג טשאַרט

אָוטפּוט:

סעמאַנטיק פּיראָג טשאַרט רעזולטאַט

לאָמיר איצט ונטערזוכן די פאַרשפּרייטונג פון סענטימענט פֿאַר יעדער ספּעציפיש ערליין.

לויט די רעזולטאַטן, די מערהייט פון טוועעץ פֿאַר כּמעט אַלע ערליינז זענען אַנפייוועראַבאַל, מיט נייטראַל און גוט טוועעץ נאָך. ווירגין אַמעריקע איז טאָמער די בלויז ערליין ווו די פּראָפּאָרציע פון די דריי געפילן איז פאַרגלייַכלעך.

פאַרשפּרייטונג פון יעדער ערליין

אָוטפּוט:

פאַרשפּרייטונג פון יעדער ערליין רעזולטאַט

צום סוף, מיר וועלן נוצן די Seaborn ביבליאָטעק צו באַקומען די דורכשניטלעך בטחון מדרגה פֿאַר טוועעץ פון דריי סענטימענט קאַטעגאָריעס.

בר פּלאָט

אָוטפּוט:

בר פּלאַנעווען רעזולטאַט

דער רעזולטאַט ווייזט אַז די בטחון מדרגה פֿאַר נעגאַטיוו טוועעץ איז גרעסער ווי פֿאַר positive אָדער נייטראַל טוועעץ.

4. רייניקונג די דאַטן

פילע סלענג טערמינען און פּונקטואַציע מאַרקס קענען זיין געפֿונען אין טוועעץ. איידער מיר קענען באַן די מאַשין לערנען מאָדעל, מיר דאַרפֿן צו ריין אונדזער טוועעץ.

אָבער, איידער מיר אָנהייבן רייניקונג די טוועעץ, מיר זאָל צעטיילן אונדזער דאַטאַסעט אין שטריך און פירמע שטעלט.

פֿעיִקייטן און לאַבעלס

מיר קענען ריין די דאַטן אַמאָל מיר האָבן צעשיידט עס אין פֿעיִקייטן און טריינינג שטעלט. רעגולער אויסדרוקן וועט זיין געניצט צו טאָן דאָס.

רעגולער עקספּרעססיאָן

5. נומעריק פאַרטרעטונג פון טעקסט

צו באַן מאַשין לערנען מאָדעלס, סטאַטיסטיש אַלגערידאַמז נוצן מאטעמאטיק. מאטעמאטיק, אויף די אנדערע האַנט, אַרבעט בלויז מיט נומערן.

מיר מוזן ערשטער יבערמאַכן דעם טעקסט אין נומערן פֿאַר סטאַטיסטיש אַלגערידאַמז צו האַנדלען מיט אים. עס זענען דריי יקערדיק וועגן צו טאָן דאָס: באַג פון ווערטער, TF-IDF און Word2Vec.

צומ גליק, די TfidfVectorizer קלאַס אין Python ס Sikit-Learn מאָדולע קענען ווערן גענוצט צו יבערמאַכן טעקסט פֿעיִקייטן אין TF-IDF שטריך וועקטאָרס.

TF IDF

6. קריייטינג דאַטאַ-געטריבן טראַינינג און טעסט סעץ

צום סוף, מיר מוזן טיילן אונדזער דאַטן אין טריינינג און טעסטינג שטעלט איידער טריינינג אונדזער אַלגערידאַמז.

די טריינינג גאַנג וועט זיין גענוצט צו באַן די אַלגערידאַם, און די פּראָבע גאַנג וועט זיין גענוצט צו אַססעסס די פאָרשטעלונג פון די מאַשין לערנען מאָדעל.

באַן טעסט

7. מאָדעל אַנטוויקלונג

נאָך די דאַטן זענען אפגעשיידט אין טריינינג און פּרובירן שטעלט, מאַשין לערנען טעקניקס זענען געניצט צו לערנען פון די טריינינג דאַטן.

איר קענען נוצן קיין מאַשין לערנען אַלגערידאַם. די ראַנדאָם וואַלד צוגאַנג, אָבער, וועט זיין געוויינט ווייַל פון זיין פיייקייט צו קאָפּע מיט ניט-נאָרמאַלייזד דאַטן.

מאָדעל טראַינינג

8. פּרעדיקטיאָנס און מאָדעל עוואַלואַטיאָן

נאָך די מאָדעל איז טריינד, די לעצט בינע איז צו מאַכן פֿאָרויסזאָגן. צו טאָן דאָס, מיר מוזן צולייגן דעם פאָרויסזאָגן אופֿן צו די RandomForestClassifier קלאַס כייפעץ וואָס מיר טריינד.

מאָדעל פּראָגנאָז

צום סוף, קלאַסאַפאַקיישאַן מיטלען ווי צעמישונג מעטריקס, F1 מיטלען, אַקיעראַסי, און אַזוי אויף קענען זיין געוויינט צו אָפּשאַצן די פאָרשטעלונג פון מאַשין לערנען מאָדעלס.

קלאַסאַפאַקיישאַן מעטריקס

אָוטפּוט:

קלאַסאַפאַקיישאַן מעטריקס רעזולטאַט

אונדזער אַלגערידאַם אַטשיווד אַ אַקיעראַסי פון 75.30, ווי געזען דורך די רעזולטאַטן.

סאָף

סענטימענט אַנאַליסיס איז איינער פון די מערסט אָפט NLP דזשאָבס זינט עס העלפּס צו ידענטיפיצירן די קוילעלדיק ציבור מיינונג אויף אַ ספּעציפיש אַרויסגעבן.

מיר האָבן געזען ווי עטלעכע פּיטהאָן לייברעריז קענען העלפֿן מיט סענטימענט אַנאַליסיס.

מיר האָבן דורכגעקאָכט אַ לערנען פון עפנטלעך טוועעץ וועגן זעקס יו. עס. ערליינז און ריטשט אַ אַקיעראַסי פון בעערעך 75%.

איך וואָלט פֿאָרשלאָגן איר פּרובירן אן אנדער מאַשין לערנען אַלגערידאַם, אַזאַ ווי לאָגיסטיק ראַגרעשאַן, SVM אָדער KNN, צו זען אויב איר קענען דערגרייכן בעסער רעזולטאַטן.

NLP סענטימענט אַנאַליסיס מיט פּיטהאָן

וואָס איז סענטימענט אַנאַליסיס?

Benefits פון סענטימענט אַנאַליסיס