Python - HashDork istifadə edərək NLP Sentiment Analizi

Mündəricat[Gizlət][Göstər]

Sentiment analizi nədir?
Sentiment Analizinin Faydaları
Sentiment Analizi – Problemin Bəyanatı+-
Nəticə

Müəssisələr 2021-ci ilə qədər istehlakçıların qarşılıqlı əlaqə məlumatlarının əldə edilməsini mənimsəmiş olacaqlar.

Digər tərəfdən, bu məlumat nöqtələrinə həddən artıq etibar etmək, təşkilatların müştəri daxiletmələrinə statistik yanaşma kimi yanaşmasına gətirib çıxarır - müştərinin səsini dinləmək üçün kifayət qədər birölçülü yanaşma.

Müştərinin səsi nişanlana və ya nömrəyə çevrilə bilməz.

Onu oxumaq, sıxlaşdırmaq və hər şeydən əvvəl dərk etmək lazımdır.

Fakt budur ki, şirkətlər telefon zəngləri, e-poçt və ya canlı söhbət vasitəsilə əlaqə saxladıqları hər bir kanalda istehlakçılarının dediklərinə fəal şəkildə qulaq asmalıdırlar.

Hər bir şirkət istehlakçıların rəyini izləməyə və qiymətləndirməyə üstünlük verməlidir, lakin şirkətlər ənənəvi olaraq bu məlumatları idarə etmək və onları mənalı kəşfiyyata çevirmək üçün mübarizə aparırlar.

Sentiment Analysis ilə bu, artıq belə deyil.

Bu dərslikdə biz əhval-ruhiyyə təhlilinə, onun üstünlüklərinə və ondan necə istifadə ediləcəyinə daha yaxından nəzər salacağıq. NLTK verilənlər üzərində hiss analizi etmək üçün kitabxana.

Sentiment analizi nədir?

Tez-tez söhbət mədənçiliyi kimi tanınan sentiment təhlili insanların hisslərini, düşüncələrini və baxışlarını təhlil etmək üçün bir üsuldur.

Sentiment təhlili müəssisələrə istehlakçılarını daha yaxşı başa düşməyə, gəlirləri artırmağa və müştərilərin rəyi əsasında məhsul və xidmətlərini təkmilləşdirməyə imkan verir.

Müştəri əhval-ruhiyyəsini təhlil edə bilən proqram təminatı sistemi ilə onu çıxarmağa çalışan satıcı/müştəri xidməti nümayəndəsi arasındakı fərq birincinin xam mətndən obyektiv nəticələr əldə etmək bacarığıdır – bu, ilk növbədə təbii dil emalı (NLP) vasitəsilə həyata keçirilir. maşın təlim üsulları.

Duyğuların identifikasiyasından tutmuş mətnin təsnifatına qədər hiss təhlili geniş tətbiq sahəsinə malikdir. Biz firmaya məhsul qiymətləndirmələri və ya istehlakçı rəyləri ilə bağlı əhval-ruhiyyəni izləməkdə kömək etmək üçün mətn məlumatlarında əhval-ruhiyyə təhlilindən istifadə edirik.

Müxtəlif sosial media saytları bundan postların əhval-ruhiyyəsini qiymətləndirmək üçün istifadə edir və emosiya çox güclü və ya şiddətlidirsə və ya həddən aşağı düşərsə, yazı ya silinir, ya da gizlədilir.

Sentiment təhlili emosiyaların müəyyən edilməsindən tutmuş mətnin təsnifatına qədər hər şey üçün istifadə edilə bilər.

Duyğu təhlilinin ən populyar istifadəsi mətn məlumatlarındadır, burada məhsul qiymətləndirmələrinin və ya istehlakçı şərhlərinin əhval-ruhiyyəsini izləməkdə şirkətə kömək etmək üçün istifadə olunur.

Fərqli sosial media saytları da bundan yazıların əhval-ruhiyyəsini qiymətləndirmək üçün istifadə edir və emosiya çox güclü və ya şiddətlidirsə və ya həddən aşağı düşərsə, postu silir və ya gizlədirlər.

Sentiment Analizinin Faydaları

Aşağıdakılar əhval-ruhiyyə təhlilinin gözardı edilməməli olan ən mühüm faydalarından bəziləridir.

Hədəf demoqrafiyanız arasında markanızın qəbulunu qiymətləndirməyə kömək edin.
Məhsulunuzu inkişaf etdirməyə kömək etmək üçün birbaşa müştəri rəyi verilir.
Satış gəlirlərini və axtarışları artırır.
Məhsulunuzun çempionları üçün satış imkanları artdı.
Proaktiv müştəri xidməti praktiki seçimdir.

Nömrələr sizə marketinq kampaniyasının ilkin performansı, axtarış zəngində iştirakın miqdarı və müştəri dəstəyində gözlənilən biletlərin sayı kimi məlumatları təmin edə bilər.

Bununla belə, konkret bir hadisənin niyə baş verdiyini və ya ona nəyin səbəb olduğunu söyləməyəcək. Məsələn, Google və Facebook kimi analitik alətlər marketinq səylərinizin performansını qiymətləndirməyə kömək edə bilər.

Lakin onlar sizə həmin xüsusi kampaniyanın niyə uğurlu olması barədə ətraflı məlumat vermirlər.

Sentiment Analysis bu baxımdan oyunu dəyişdirmək potensialına malikdir.

Sentiment Analizi – Problemin Bəyanatı

Məqsəd tvitlər əsasında altı ABŞ aviaşirkəti ilə bağlı tvitin müsbət, mənfi və ya neytral emosiyaya malik olub olmadığını müəyyən etməkdir.

Bu, mətn sətirini əvvəlcədən müəyyən edilmiş kateqoriyalara bölməli olduğumuz standart nəzarət edilən öyrənmə işidir.

Həll

Bu problemi həll etmək üçün standart maşın öyrənmə prosesindən istifadə edəcəyik. Lazımi kitabxanaları və verilənlər bazalarını idxal etməklə başlayacağıq.

Sonra verilənlərdə hər hansı nümunələrin olub-olmadığını müəyyən etmək üçün bəzi kəşfiyyat məlumat təhlili aparacağıq. Bundan sonra, mətn daxiletmə rəqəmsal məlumatlarını çevirmək üçün mətnin əvvəlcədən işlənməsini həyata keçirəcəyik maşın təlim sistemi istifadə edə bilər.

Nəhayət, biz maşın öyrənmə metodlarından istifadə edərək hiss analizi modellərimizi öyrədəcək və qiymətləndirəcəyik.

1. Kitabxanaların idxalı

Lazımi kitabxanaları yükləyin.

Kitabxanaların idxalı

2. Dataset idxalı

Bu məqalə tapıla bilən verilənlər bazasına əsaslanacaq Github. Verilənlər dəsti, aşağıda göründüyü kimi Pandaların CSV oxu funksiyasından istifadə etməklə idxal ediləcək:

Dataset idxal olunur

head() funksiyasından istifadə edərək verilənlər bazasının ilk beş sırasını yoxlayın:

Baş məlumat dəsti

Çıxış:

Baş Data Setinin Çıxışı

3. Məlumatların Təhlili

Hər hansı bir tendensiya olub olmadığını müəyyən etmək üçün məlumatları araşdıraq. Ancaq əvvəlcə diaqramları daha görünən etmək üçün standart süjet ölçüsünü dəyişəcəyik.

Süjet ölçüsünün tənzimlənməsi

Hər bir aviaşirkət tərəfindən alınan tvitlərin sayından başlayaq. Bunun üçün pasta diaqramından istifadə edəcəyik:

Pie Chart

Hər bir aviaşirkət üçün ictimai tvitlərin faizi çıxışda göstərilir.

Pie Diaqram Çıxışı

Gəlin bütün tvitlərdə hisslərin necə paylandığına nəzər salaq.

Semantik pasta diaqramı

Çıxış:

Semantik Pie Diaqram Çıxışı

İndi hər bir xüsusi aviaşirkət üçün əhval-ruhiyyənin paylanmasını nəzərdən keçirək.

Nəticələrə görə, demək olar ki, bütün aviaşirkətlər üçün tvitlərin böyük hissəsi əlverişsizdir, neytral və yaxşı tvitlər izləyir. Virgin America, bəlkə də, üç hissin nisbətinin müqayisə oluna biləcəyi yeganə aviaşirkətdir.

Hər Aviaşirkətin Paylanması

Çıxış:

Hər Aviaşirkət Çıxışının Paylanması

Nəhayət, üç hiss kateqoriyasından tvitlər üçün orta inam səviyyəsini əldə etmək üçün Seaborn kitabxanasından istifadə edəcəyik.

Bar Süjeti

Çıxış:

Bar Plot Çıxışı

Nəticə mənfi tvitlərin etimad səviyyəsinin müsbət və ya neytral tvitlərdən daha yüksək olduğunu göstərir.

4. Məlumatların təmizlənməsi

Tvitlərdə çoxlu jarqon terminlər və durğu işarələrinə rast gəlmək olar. Maşın öyrənmə modelini öyrətməzdən əvvəl tvitlərimizi təmizləməliyik.

Bununla belə, tvitləri təmizləməyə başlamazdan əvvəl məlumat dəstimizi xüsusiyyət və etiket dəstlərinə ayırmalıyıq.

Xüsusiyyətlər və Etiketlər

Biz məlumatları xüsusiyyətlərə və təlim dəstlərinə ayırdıqdan sonra onları təmizləyə bilərik. Bunun üçün adi ifadələrdən istifadə olunacaq.

Müntəzəm ifadə

5. Mətnin ədədi təmsili

Maşın öyrənmə modellərini öyrətmək üçün statistik alqoritmlər riyaziyyatdan istifadə edir. Riyaziyyat isə yalnız rəqəmlərlə işləyir.

Statistik alqoritmlərin bununla məşğul olması üçün əvvəlcə mətni rəqəmlərə çevirməliyik. Bunun üç əsas yolu var: Sözlər Çantası, TF-IDF və Word2Vec.

Xoşbəxtlikdən, Python-un Scikit-Learn modulundakı TfidfVectorizer sinfi mətn xüsusiyyətlərini TF-IDF xüsusiyyət vektorlarına çevirmək üçün istifadə edilə bilər.

TF IDF

6. Məlumata əsaslanan təlim və test toplularının yaradılması

Nəhayət, alqoritmlərimizi öyrətməzdən əvvəl məlumatlarımızı təlim və sınaq dəstlərinə bölmək lazımdır.

Təlim dəsti alqoritmi öyrətmək üçün, test dəsti isə maşın öyrənmə modelinin performansını qiymətləndirmək üçün istifadə olunacaq.

Qatar testi

7. Modelin inkişafı

Məlumatlar təlim və test dəstlərinə ayrıldıqdan sonra təlim məlumatlarından öyrənmək üçün maşın öyrənmə üsullarından istifadə edilir.

İstənilən maşın öyrənmə alqoritmindən istifadə edə bilərsiniz. Bununla belə, Təsadüfi Meşə yanaşması normallaşdırılmamış məlumatların öhdəsindən gəlmək qabiliyyətinə görə istifadə olunacaq.

Model Təlimi

8. Proqnozlar və Modelin Qiymətləndirilməsi

Model öyrədildikdən sonra son mərhələ proqnozlar verməkdir. Bunun üçün biz öyrətdiyimiz RandomForestClassifier sinif obyektinə proqnozlaşdırma metodunu tətbiq etməliyik.

Model proqnozu

Nəhayət, çaşqınlıq ölçüləri, F1 ölçüləri, dəqiqlik və s. kimi təsnifat ölçüləri maşın öyrənmə modellərinin performansını qiymətləndirmək üçün istifadə edilə bilər.

Təsnifat Metrikləri

Çıxış:

Təsnifat Metrikləri Çıxışı

Alqoritmimiz nəticələrdən göründüyü kimi 75.30 dəqiqliyə nail oldu.

Nəticə

Sentiment analizi ən çox yayılmış NLP işlərindən biridir, çünki o, müəyyən bir məsələ ilə bağlı ümumi ictimai rəyi müəyyən etməyə kömək edir.

Bir neçə Python kitabxanasının əhval-ruhiyyə təhlilinə necə kömək edə biləcəyini gördük.

Biz altı ABŞ aviaşirkəti haqqında ictimai tvitləri araşdırdıq və təxminən 75% dəqiqliyə çatdıq.

Mən sizə daha yaxşı nəticələr əldə edə biləcəyinizi görmək üçün logistik reqressiya, SVM və ya KNN kimi başqa bir maşın öyrənmə alqoritmini sınamağı təklif edərdim.

Python istifadə edərək NLP Sentiment Analizi

Sentiment analizi nədir?

Sentiment Analizinin Faydaları

Sentiment Analizi – Problemin Bəyanatı