Uchambuzi wa Sentiment wa NLP kwa kutumia Python

Orodha ya Yaliyomo[Ficha][Onyesha]

Uchambuzi wa hisia ni nini?
Faida za Uchambuzi wa Hisia
Uchambuzi wa Hisia - Taarifa ya Tatizo+-
Hitimisho

Biashara zitakuwa zimefanikiwa kupata data ya mwingiliano wa watumiaji kufikia 2021.

Kuegemea kupita kiasi kwa pointi hizi za data, kwa upande mwingine, mara kwa mara husababisha mashirika yanayochukulia mchango wa wateja kama takwimu - mbinu ya mwelekeo mmoja ya kusikiliza sauti ya mteja.

Sauti ya mteja haiwezi kuwekwa beji au kubadilishwa kuwa nambari.

Ni lazima isomwe, ifupishwe, na zaidi ya yote ieleweke.

Ukweli ni kwamba kampuni lazima zisikilize kwa makini kile ambacho wateja wao wanasema kwenye kila chaneli wanayotumia kuingiliana nao, iwe ni kupitia simu, barua pepe, au gumzo la moja kwa moja.

Kila kampuni inapaswa kutanguliza ufuatiliaji na kutathmini maoni ya watumiaji, lakini kampuni zimetatizika kushughulikia data hii na kuibadilisha kuwa akili yenye maana.

Hii sivyo ilivyo tena kwa Uchambuzi wa Hisia.

Katika somo hili, tutaangalia kwa karibu uchambuzi wa hisia, faida zake, na jinsi ya kutumia NLTK maktaba kufanya uchambuzi wa hisia kwenye data.

Uchambuzi wa hisia ni nini?

Uchambuzi wa hisia, ambao mara nyingi hujulikana kama uchimbaji wa mazungumzo, ni njia ya kuchanganua hisia, mawazo na maoni ya watu.

Uchanganuzi wa maoni huruhusu biashara kupata ufahamu bora wa watumiaji wao, kuongeza mapato, na kuboresha bidhaa na huduma zao kulingana na maoni ya mteja.

Tofauti kati ya mfumo wa programu wenye uwezo wa kuchanganua hisia za mteja na muuzaji/mwakilishi wa huduma kwa wateja anayejaribu kubaini kuwa ni uwezo kamili wa mfumo wa zamani wa kupata matokeo ya lengo kutoka kwa maandishi ghafi - hii inakamilishwa kupitia usindikaji wa lugha asilia (NLP) na mashine kujifunza mbinu.

Kutoka kwa utambuzi wa hisia hadi uainishaji wa maandishi, uchanganuzi wa hisia una anuwai ya matumizi. Tunatumia uchanganuzi wa maoni kwenye data ya maandishi ili kusaidia kampuni kufuatilia maoni ya tathmini ya bidhaa au maoni ya watumiaji.

Tovuti tofauti za mitandao ya kijamii huitumia kutathmini hisia za machapisho, na ikiwa hisia ni kali sana au vurugu, au iko chini ya kiwango chao, chapisho hilo hufutwa au kufichwa.

Uchanganuzi wa hisia unaweza kutumika kwa kila kitu kutoka kwa utambuzi wa hisia hadi uainishaji wa maandishi.

Matumizi maarufu zaidi ya uchanganuzi wa hisia ni kwenye data ya maandishi, ambapo hutumiwa kusaidia kampuni katika kufuatilia hisia za tathmini za bidhaa au maoni ya watumiaji.

Tovuti tofauti za mitandao ya kijamii pia huitumia kutathmini hisia za machapisho, na ikiwa hisia ni kali sana au vurugu, au iko chini ya kiwango chao, hufuta au kuficha chapisho.

Faida za Uchambuzi wa Hisia

Zifuatazo ni baadhi ya faida muhimu zaidi za uchanganuzi wa hisia ambazo hazipaswi kupuuzwa.

Msaada katika kutathmini mtazamo wa chapa yako kati ya idadi ya watu unayolenga.
Maoni ya moja kwa moja ya mteja hutolewa ili kukusaidia katika kutengeneza bidhaa yako.
Huongeza mapato ya mauzo na matarajio.
Fursa za kuuza kwa mabingwa wa bidhaa yako zimeongezeka.
Huduma makini kwa wateja ni chaguo la vitendo.

Nambari zinaweza kukupa maelezo kama vile utendakazi ghafi wa kampeni ya uuzaji, kiasi cha kujihusisha katika simu ya utafutaji, na idadi ya tiketi zinazosubiri usaidizi kwa wateja.

Walakini, haitakuambia kwa nini tukio fulani limetokea au ni nini kilisababisha. Zana za uchanganuzi kama vile Google na Facebook, kwa mfano, zinaweza kukusaidia kutathmini utendakazi wa juhudi zako za uuzaji.

Lakini hawakupi ufahamu wa kina wa kwa nini kampeni hiyo mahususi ilifanikiwa.

Uchambuzi wa Hisia una uwezo wa kubadilisha mchezo katika suala hili.

Uchambuzi wa Hisia - Taarifa ya Tatizo

Lengo ni kubainisha ikiwa tweet ina hisia nzuri, hasi, au zisizoegemea upande wowote kuhusu mashirika sita ya ndege ya Marekani kulingana na tweets.

Hii ni kazi ya kawaida ya kujifunza inayosimamiwa ambapo ni lazima tuainishe mfuatano wa maandishi katika kategoria zilizoamuliwa mapema kutokana na mfuatano wa maandishi.

Suluhisho

Tutatumia mchakato wa kawaida wa kujifunza kwa mashine ili kushughulikia tatizo hili. Tutaanza kwa kuleta maktaba na hifadhidata zinazohitajika.

Kisha tutafanya uchambuzi wa data ya uchunguzi ili kubaini kama kuna ruwaza zozote katika data. Kufuatia hilo, tutafanya uchakataji wa awali wa maandishi ili kubadilisha data ya nambari ya maandishi ambayo a mashine kujifunza mfumo unaweza kutumia.

Hatimaye, tutafunza na kutathmini miundo yetu ya uchanganuzi wa maoni kwa kutumia mbinu za mashine za kujifunza.

1. Kuagiza Maktaba

Pakia maktaba zinazohitajika.

Kuagiza Maktaba

2. Leta Seti ya Data

Makala haya yatatokana na mkusanyiko wa data unaoweza kupatikana Github. Seti ya data italetwa kwa kutumia utendakazi wa kusoma wa Pandas, kama inavyoonekana hapa chini:

Inaleta Seti ya Data

Kwa kutumia head() kazi, chunguza safu tano za kwanza za hifadhidata:

Kichwa Dataset

Matokeo:

Pato la Seti ya Data ya Kichwa

3. Uchambuzi wa Takwimu

Wacha tuchunguze data ili kubaini ikiwa kuna mitindo yoyote. Lakini kwanza, tutabadilisha ukubwa wa njama chaguo-msingi ili kufanya chati zionekane zaidi.

Kurekebisha Ukubwa wa Kiwanja

Wacha tuanze na idadi ya tweets zilizopokelewa na kila shirika la ndege. Tutatumia chati ya pai kwa hili:

Chati ya Pie

Asilimia ya tweets za umma kwa kila shirika la ndege huonyeshwa kwenye matokeo.

Pato la Chati ya Pai

Wacha tuangalie jinsi hisia zinavyosambazwa kwenye tweets zote.

Chati ya Pie ya Semantic

Matokeo:

Pato la Chati ya Pai ya Semantiki

Hebu sasa tuchunguze usambazaji wa hisia kwa kila shirika maalum la ndege.

Kulingana na matokeo, idadi kubwa ya tweets kwa karibu mashirika yote ya ndege haifai, huku tweets zisizo na upande na nzuri zikifuata. Virgin America labda ndiyo shirika pekee la ndege ambapo sehemu ya hisia hizo tatu inalinganishwa.

Usambazaji wa Kila Shirika la Ndege

Matokeo:

Usambazaji wa Kila Pato la Shirika la Ndege

Hatimaye, tutatumia maktaba ya Seaborn kupata kiwango cha wastani cha imani kwa tweets kutoka kategoria tatu za maoni.

Kiwanja cha Baa

Matokeo:

Pato la Njama ya Baa

Matokeo yanaonyesha kuwa kiwango cha kujiamini kwa tweets hasi ni kubwa kuliko chanya au chanya.

4. Kusafisha data

Maneno mengi ya misimu na alama za uakifishaji zinaweza kupatikana kwenye twiti. Kabla ya kutoa mafunzo kwa modeli ya kujifunza kwa mashine, tunahitaji kusafisha tweets zetu.

Hata hivyo, kabla ya kuanza kusafisha tweets, tunapaswa kutenganisha mkusanyiko wetu wa data katika vipengele na seti za lebo.

Vipengele Na Lebo

Tunaweza kusafisha data mara tu tunapoitenganisha katika vipengele na seti za mafunzo. Semi za kawaida zitatumika kufanya hivi.

Kujielezea mara kwa mara

5. Uwakilishi wa Nambari wa Maandishi

Ili kutoa mafunzo kwa miundo ya mashine ya kujifunza, algoriti za takwimu hutumia hisabati. Hisabati, kwa upande mwingine, inafanya kazi tu na nambari.

Ni lazima kwanza tubadilishe maandishi kuwa nambari kwa algoriti za takwimu ili kukabiliana nayo. Kuna njia tatu za msingi za kufanya hivyo: Mfuko wa Maneno, TF-IDF, na Word2Vec.

Kwa bahati nzuri, darasa la TfidfVectorizer katika moduli ya Scikit-Learn ya Python inaweza kutumika kubadilisha vipengele vya maandishi kuwa vekta za kipengele cha TF-IDF.

Kitambulisho cha TF

6. Kuunda Mafunzo Yanayoendeshwa na Data na Seti za Mtihani

Hatimaye, ni lazima tugawanye data yetu katika seti za mafunzo na majaribio kabla ya kufunza algoriti zetu.

Seti ya mafunzo itatumika kufunza algoriti, na seti ya majaribio itatumika kutathmini utendakazi wa muundo wa kujifunza kwa mashine.

Mtihani wa Treni

7. Maendeleo ya Mfano

Baada ya data kugawanywa katika seti za mafunzo na majaribio, mbinu za kujifunza kwa mashine hutumiwa kujifunza kutoka kwa data ya mafunzo.

Unaweza kutumia algorithm yoyote ya kujifunza mashine. Mbinu ya Msitu wa Nasibu, hata hivyo, itatumika kwa sababu ya uwezo wake wa kukabiliana na data isiyo ya kawaida.

Mafunzo ya Mfano

8. Utabiri na Tathmini ya Mfano

Baada ya modeli kufundishwa, hatua ya mwisho ni kufanya utabiri. Ili kufanya hivyo, lazima tutumie mbinu ya kutabiri kwa kitu cha darasa cha RandomForestClassifier ambacho tulifunza.

Utabiri wa Mfano

Hatimaye, hatua za uainishaji kama vile vipimo vya mkanganyiko, vipimo vya F1, usahihi na kadhalika vinaweza kutumika kutathmini utendakazi wa miundo ya kujifunza kwa mashine.

Vipimo vya Uainishaji

Matokeo:

Pato la Metriki za Uainishaji

Algorithm yetu ilipata usahihi wa 75.30, kama inavyoonekana na matokeo.

Hitimisho

Uchambuzi wa maoni ni mojawapo ya kazi za mara kwa mara za NLP kwani husaidia kutambua maoni ya umma kwa ujumla kuhusu suala mahususi.

Tuliona jinsi maktaba kadhaa za Python zinaweza kusaidia na uchanganuzi wa maoni.

Tulifanya utafiti wa tweets za umma kuhusu mashirika sita ya ndege ya Marekani na tukafikia usahihi wa takriban 75%.

Ningependekeza kwamba ujaribu algorithm nyingine ya kujifunza mashine, kama vile urekebishaji wa vifaa, SVM, au KNN, ili kuona kama unaweza kupata matokeo bora.

Uchambuzi wa Sentiment wa NLP kwa kutumia Python

Uchambuzi wa hisia ni nini?

Faida za Uchambuzi wa Hisia