NLP Sentiment Analysis gamit ang Python

Talaan ng nilalaman[Tago][Ipakita]

Ano ang pagsusuri ng damdamin?
Mga Pakinabang ng Pagsusuri ng Sentimento
Pagsusuri ng Sentimento – Paglalahad ng Problema+-
Konklusyon

Magagawa na ng mga negosyo ang pagkuha ng data ng pakikipag-ugnayan ng consumer sa 2021.

Sa kabilang banda, ang sobrang pag-asa sa mga punto ng data na ito ay madalas na humahantong sa mga organisasyon na tinatrato ang input ng customer bilang isang istatistika - isang medyo isang-dimensional na diskarte sa pakikinig sa boses ng customer.

Ang boses ng customer ay hindi maaaring ma-badge o ma-convert sa isang numero.

Dapat itong basahin, paikliin, at higit sa lahat, unawain.

Ang katotohanan ay ang mga kumpanya ay dapat aktibong makinig sa kung ano ang sasabihin ng kanilang mga mamimili sa bawat channel kung saan sila nakikipag-ugnayan sa kanila, ito man ay sa pamamagitan ng mga tawag sa telepono, email, o live chat.

Dapat bigyang-priyoridad ng bawat kumpanya ang pagsubaybay at pagsusuri ng sentimento ng feedback ng consumer, ngunit ang mga kumpanya ay tradisyonal na nagpupumilit na pangasiwaan ang data na ito at gawing makabuluhang katalinuhan.

Hindi na ito ang kaso sa Sentiment Analysis.

Sa tutorial na ito, susuriin natin ang pagsusuri ng sentimento, mga pakinabang nito, at kung paano gamitin ang NLTK silid-aklatan upang magsagawa ng pagsusuri ng damdamin sa datos.

Ano ang pagsusuri ng damdamin?

Ang pagsusuri sa damdamin, na kadalasang kilala bilang pagmimina ng pag-uusap, ay isang paraan para sa pagsusuri ng mga damdamin, kaisipan, at pananaw ng mga tao.

Nagbibigay-daan ang pagsusuri ng sentimento sa mga negosyo na magkaroon ng mas mahusay na pag-unawa sa kanilang mga consumer, pataasin ang kita, at pahusayin ang kanilang mga produkto at serbisyo batay sa input ng kliyente.

Ang pagkakaiba sa pagitan ng isang software system na may kakayahang magsuri ng damdamin ng customer at ng isang salesperson/customer service representative na sinusubukang tukuyin ito ay ang lubos na kakayahan ng una na makakuha ng mga layuning resulta mula sa raw text — ito ay pangunahing nagagawa sa pamamagitan ng natural language processing (NLP) at machine learning diskarte.

Mula sa pagkilala sa emosyon hanggang sa pagkategorya ng teksto, ang pagsusuri ng damdamin ay may malawak na hanay ng mga aplikasyon. Gumagamit kami ng pagsusuri ng sentimento sa data ng teksto upang tulungan ang isang kompanya na subaybayan ang damdamin ng mga pagsusuri ng produkto o feedback ng consumer.

Ginagamit ito ng iba't ibang mga site ng social media upang masuri ang damdamin ng mga pag-post, at kung ang emosyon ay masyadong malakas o marahas, o mas mababa sa kanilang limitasyon, ang post ay tatanggalin o itinago.

Maaaring gamitin ang pagsusuri ng damdamin para sa lahat mula sa pagkilala sa emosyon hanggang sa pagkakategorya ng teksto.

Ang pinakasikat na paggamit ng sentiment analysis ay sa textual data, kung saan ito ay ginagamit upang tulungan ang isang kumpanya sa pagsubaybay sa sentimento ng mga pagsusuri sa produkto o mga komento ng consumer.

Ginagamit din ito ng iba't ibang mga social media site upang masuri ang sentimyento ng mga pag-post, at kung ang emosyon ay masyadong malakas o marahas, o mas mababa sa kanilang threshold, tatanggalin o itinatago nila ang post.

Mga Pakinabang ng Pagsusuri ng Sentimento

Ang mga sumusunod ay ilan sa mga pinakamahalagang benepisyo ng pagsusuri ng damdamin na hindi dapat balewalain.

Tumulong sa pagtatasa ng perception ng iyong brand sa iyong target na demograpiko.
Ang direktang feedback ng kliyente ay ibinibigay upang matulungan ka sa pagbuo ng iyong produkto.
Pinapataas ang kita sa mga benta at pag-prospect.
Ang mga pagkakataon sa pag-upsell para sa mga kampeon ng iyong produkto ay tumaas.
Ang aktibong serbisyo sa customer ay isang praktikal na opsyon.

Ang mga numero ay maaaring magbigay sa iyo ng impormasyon tulad ng raw na pagganap ng isang marketing campaign, ang halaga ng pakikipag-ugnayan sa isang prospecting na tawag, at ang bilang ng mga ticket na nakabinbin sa customer support.

Gayunpaman, hindi nito sasabihin sa iyo kung bakit naganap ang isang partikular na kaganapan o kung ano ang sanhi nito. Ang mga tool ng Analytics tulad ng Google at Facebook, halimbawa, ay maaaring makatulong sa iyo na masuri ang pagganap ng iyong mga pagsusumikap sa marketing.

Ngunit hindi ka nila binibigyan ng malalim na kaalaman kung bakit naging matagumpay ang partikular na kampanyang iyon.

Ang Pagsusuri ng Sentiment ay may potensyal na maging laro-pagbabago sa bagay na ito.

Pagsusuri ng Sentimento – Paglalahad ng Problema

Ang layunin ay upang matukoy kung ang isang tweet ay may paborable, negatibo, o neutral na damdamin tungkol sa anim na airline ng US batay sa mga tweet.

Ito ay isang karaniwang pinangangasiwaang trabaho sa pag-aaral kung saan dapat nating ikategorya ang isang text string sa mga paunang natukoy na kategorya na binigyan ng text string.

Solusyon

Gagamitin namin ang karaniwang proseso ng machine learning para tugunan ang problemang ito. Magsisimula tayo sa pamamagitan ng pag-import ng mga kinakailangang library at dataset.

Pagkatapos ay magsasagawa kami ng ilang pagsusuri ng data sa paggalugad upang matukoy kung mayroong anumang mga pattern sa data. Kasunod nito, magsasagawa kami ng text preprocessing upang i-on ang textual input numeric data na a machine learning magagamit ng system.

Sa wakas, sasanayin at susuriin namin ang aming mga modelo ng pagsusuri ng sentimento gamit ang mga pamamaraan ng machine learning.

1. Pag-import ng mga Aklatan

I-load ang mga kinakailangang aklatan.

Pag-import ng Mga Aklatan

2. Mag-import ng Dataset

Ang artikulong ito ay ibabatay sa isang dataset na makikita sa Github. Ii-import ang dataset gamit ang read CSV function ng Pandas, tulad ng nakikita sa ibaba:

Pag-import ng Dataset

Gamit ang head() function, suriin ang unang limang row ng dataset:

Head Dataset

output:

Output Ng Head Dataset

3. Pagsusuri ng Datos

Suriin natin ang data upang matukoy kung mayroong anumang mga uso. Ngunit una, babaguhin natin ang default na laki ng plot upang gawing mas nakikita ang mga chart.

Pagsasaayos ng Laki ng Plot

Magsimula tayo sa bilang ng mga tweet na natanggap ng bawat airline. Gagamit kami ng pie chart para dito:

Pie chart

Ang porsyento ng mga pampublikong tweet para sa bawat airline ay ipinapakita sa output.

Output ng Pie Chart

Tingnan natin kung paano ipinamahagi ang mga damdamin sa lahat ng mga tweet.

Semantic Pie Chart

output:

Output ng Semantic Pie Chart

Suriin natin ngayon ang pamamahagi ng damdamin para sa bawat partikular na airline.

Ayon sa mga resulta, ang karamihan sa mga tweet para sa halos lahat ng mga airline ay hindi pabor, na may neutral at magagandang tweet na sumusunod. Ang Virgin America ay marahil ang tanging airline kung saan ang proporsyon ng tatlong damdamin ay maihahambing.

Pamamahagi Ng Bawat Airline

output:

Pamamahagi ng Bawat Output ng Airline

Panghuli, gagamitin namin ang Seaborn library para makuha ang average na antas ng kumpiyansa para sa mga tweet mula sa tatlong kategorya ng sentimento.

Plot ng Bar

output:

Output ng Bar Plot

Ipinapakita ng resulta na ang antas ng kumpiyansa para sa mga negatibong tweet ay mas malaki kaysa sa mga positibo o neutral na tweet.

4. Paglilinis ng datos

Maraming slang terms at punctuation mark ang makikita sa mga tweet. Bago natin masanay ang modelo ng machine learning, kailangan nating linisin ang ating mga tweet.

Gayunpaman, bago namin simulan ang paglilinis ng mga tweet, dapat naming paghiwalayin ang aming dataset sa mga set ng feature at label.

Mga Tampok At Mga Label

Maaari naming linisin ang data kapag nahati na namin ito sa mga feature at set ng pagsasanay. Gagamitin ang mga regular na expression para gawin ito.

Regular Expression

5. Numeric na Representasyon ng Teksto

Para sanayin ang mga modelo ng machine learning, gumagamit ng matematika ang mga istatistikal na algorithm. Ang matematika, sa kabilang banda, ay gumagana lamang sa mga numero.

Kailangan muna nating baguhin ang teksto sa mga numero para sa mga istatistikal na algorithm upang harapin ito. May tatlong pangunahing paraan ng paggawa nito: Bag of Words, TF-IDF, at Word2Vec.

Sa kabutihang palad, ang klase ng TfidfVectorizer sa Scikit-Learn na module ng Python ay maaaring gamitin upang baguhin ang mga feature ng text sa mga feature vector ng TF-IDF.

TF IDF

6. Paglikha ng Data-Driven Training at Test Sets

Panghuli, dapat naming hatiin ang aming data sa mga set ng pagsasanay at pagsubok bago sanayin ang aming mga algorithm.

Gagamitin ang set ng pagsasanay upang sanayin ang algorithm, at ang set ng pagsubok ay gagamitin upang masuri ang performance ng modelo ng machine learning.

Pagsusulit sa Tren

7. Pagbuo ng Modelo

Matapos ihiwalay ang data sa mga set ng pagsasanay at pagsubok, ginagamit ang mga diskarte sa machine learning para matuto mula sa data ng pagsasanay.

Maaari mong gamitin ang anumang machine learning algorithm. Ang Random Forest approach, gayunpaman, ay gagamitin dahil sa kakayahan nitong makayanan ang hindi na-normalize na data.

Pagsasanay ng Modelo

8. Mga Hula at Pagsusuri ng Modelo

Matapos masanay ang modelo, ang huling yugto ay ang paggawa ng mga hula. Para magawa ito, dapat naming ilapat ang predict method sa RandomForestClassifier class object na aming sinanay.

Hula ng Modelo

Sa wakas, ang mga hakbang sa pag-uuri tulad ng mga sukatan ng pagkalito, mga sukat ng F1, katumpakan, at iba pa ay maaaring gamitin upang suriin ang pagganap ng mga modelo ng machine learning.

Mga Sukat ng Pag-uuri

output:

Output ng Mga Sukatan ng Klasipikasyon

Nakamit ng aming algorithm ang katumpakan na 75.30, tulad ng nakikita ng mga resulta.

Konklusyon

Ang pagsusuri sa damdamin ay isa sa pinakamadalas na trabaho sa NLP dahil nakakatulong ito na matukoy ang pangkalahatang opinyon ng publiko sa isang partikular na isyu.

Nakita namin kung paano makakatulong ang ilang library ng Python sa pagsusuri ng sentimento.

Nagsagawa kami ng pag-aaral ng mga pampublikong tweet tungkol sa anim na airline ng US at naabot namin ang katumpakan ng humigit-kumulang 75%.

Iminumungkahi kong subukan mo ang isa pang machine learning algorithm, gaya ng logistic regression, SVM, o KNN, upang makita kung makakamit mo ang mas magagandang resulta.

NLP Sentiment Analysis gamit ang Python

Ano ang pagsusuri ng damdamin?

Mga Pakinabang ng Pagsusuri ng Sentimento