Pag-analisar sa Sentiment sa NLP gamit ang Python

Kaundan[Itago][Ipakita]

Unsa ang pag-analisa sa sentimento?
Mga Kaayohan sa Pag-analisar sa Sentiment
Pag-analisar sa Sentimento - Pamahayag sa Problema+-
Panapos

Ang mga negosyo mahimong hanas sa pag-angkon sa data sa interaksiyon sa mga konsumedor sa 2021.

Ang sobra nga pagsalig sa kini nga mga punto sa datos, sa laing bahin, kanunay nga nagdala sa mga organisasyon nga nagtratar sa input sa kostumer ingon usa ka estadistika - usa ka medyo usa ka dimensyon nga pamaagi sa pagpaminaw sa tingog sa kustomer.

Ang tingog sa kustomer dili mahimong badged o ma-convert ngadto sa numero.

Kinahanglang basahon kini, pamubuon, ug, labaw sa tanan, sabton.

Ang tinuod mao nga ang mga kompanya kinahanglan nga aktibo nga maminaw kung unsa ang isulti sa ilang mga konsumedor sa matag channel diin sila nakig-uban kanila, bisan pinaagi sa mga tawag sa telepono, email, o live chat.

Ang matag kompanya kinahanglan unahon ang pag-monitor ug pagtimbang-timbang sa sentimento sa feedback sa mga konsumedor, apan ang mga kompanya sa tradisyonal nga nanlimbasug sa pagdumala sa kini nga datos ug pagbag-o kini nga makahuluganon nga paniktik.

Dili na kini ang kaso sa Pag-analisa sa Sentiment.

Niini nga panudlo, atong tan-awon pag-ayo ang pag-analisa sa sentimento, ang mga bentaha niini, ug kung giunsa paggamit ang NLTK librarya sa paghimo sa sentimento analysis sa datos.

Unsa ang pag-analisa sa sentimento?

Ang pag-analisa sa sentimento, nga sagad nailhan nga pagmina sa panag-istoryahanay, usa ka pamaagi sa pag-analisar sa mga pagbati, hunahuna, ug panan-aw sa mga tawo.

Ang pag-analisa sa sentimento nagtugot sa mga negosyo nga makakuha og mas maayo nga pagsabot sa ilang mga konsumidor, pagdugang sa kita, ug pagpauswag sa ilang mga produkto ug serbisyo base sa input sa kliyente.

Ang kalainan tali sa usa ka sistema sa software nga makahimo sa pag-analisar sa sentimento sa kostumer ug sa usa ka salesperson/customer service representative nga misulay sa paghusga niini mao ang bug-os nga abilidad sa kanhi nga makakuha og tumong nga mga resulta gikan sa hilaw nga teksto — kini sa panguna nahimo pinaagi sa natural nga pagproseso sa pinulongan (NLP) ug pagkat-on sa makina mga teknik.

Gikan sa pag-ila sa emosyon hangtod sa pagkategorya sa teksto, ang pag-analisar sa sentimento adunay daghang mga aplikasyon. Gigamit namo ang pag-analisa sa sentimento sa datos sa teksto aron matabangan ang usa ka kompanya nga mamonitor ang sentimento sa mga pagsusi sa produkto o feedback sa mga konsumedor.

Gigamit kini sa lainlaing mga site sa social media aron masusi ang sentimento sa mga pag-post, ug kung ang emosyon kusog kaayo o bayolente, o nahulog sa ilawom sa ilang sukaranan, ang post mahimong matangtang o gitago.

Ang pag-analisa sa sentimento mahimong magamit alang sa tanan gikan sa pag-ila sa emosyon hangtod sa pagkategorya sa teksto.

Ang labing popular nga paggamit sa pag-analisa sa sentimento mao ang datos sa teksto, diin gigamit kini aron matabangan ang usa ka kompanya sa pagsubay sa sentimento sa mga pagtimbang-timbang sa produkto o komento sa mga konsumedor.

Gigamit usab kini sa lainlaing mga site sa social media aron masusi ang sentimento sa mga pag-post, ug kung ang emosyon kusog kaayo o bayolente, o nahulog sa ilawom sa ilang sukaranan, ilang gitangtang o gitago ang post.

Mga Kaayohan sa Pag-analisar sa Sentiment

Ang mosunod mao ang pipila sa labing importante nga mga benepisyo sa pagtuki sa sentimento nga dili angay ibaliwala.

Tabang sa pagtimbang-timbang sa panglantaw sa imong brand taliwala sa imong target nga demograpiko.
Ang direkta nga feedback sa kliyente gihatag aron matabangan ka sa pagpalambo sa imong produkto.
Nagpataas sa kita sa pagbaligya ug pagpangita.
Ang mga oportunidad sa upsell alang sa mga kampeon sa imong produkto midaghan.
Ang aktibo nga serbisyo sa kustomer usa ka praktikal nga kapilian.

Ang mga numero makahatag kanimo og impormasyon sama sa hilaw nga pasundayag sa usa ka kampanya sa pagpamaligya, ang gidaghanon sa pakiglambigit sa usa ka tawag sa pagpangita, ug ang gidaghanon sa mga tiket nga naghulat sa suporta sa kustomer.

Bisan pa, dili kini isulti kanimo kung ngano nga nahitabo ang usa ka piho nga panghitabo o kung unsa ang hinungdan niini. Ang mga himan sa pag-analisa sama sa Google ug Facebook, pananglitan, makatabang kanimo sa pagtimbang-timbang sa nahimo sa imong mga paningkamot sa pagpamaligya.

Apan wala sila maghatag kanimo ug lawom nga kahibalo kung ngano nga nagmalampuson ang piho nga kampanya.

Ang Pag-analisa sa Sentiment adunay potensyal nga magbag-o sa dula niining bahina.

Pag-analisar sa Sentimento - Pamahayag sa Problema

Ang katuyoan mao ang pagtino kung ang usa ka tweet adunay pabor, negatibo, o neyutral nga emosyon bahin sa unom ka mga airline sa US base sa mga tweet.

Kini usa ka sumbanan nga gibantayan nga trabaho sa pagkat-on diin kinahanglan naton i-categorize ang usa ka string sa teksto ngadto sa gitakda nang daan nga mga kategorya nga gihatagan usa ka string sa teksto.

solusyon

Atong gamiton ang standard nga proseso sa pagkat-on sa makina aron matubag kini nga problema. Magsugod kita pinaagi sa pag-import sa gikinahanglan nga mga librarya ug mga dataset.

Dayon maghimo kami ug pipila ka pagsusi sa datos sa pagsuhid aron mahibal-an kung adunay bisan unsang mga sumbanan sa datos. Human niana, atong himoon ang text preprocessing aron ibalik ang textual input numeric data nga a pagkat-on sa makina magamit ang sistema.

Sa katapusan, magbansay kami ug magtimbang-timbang sa among mga modelo sa pagtuki sa sentimento gamit ang mga pamaagi sa pagkat-on sa makina.

1. Pag-import sa mga Librarya

I-load ang gikinahanglan nga mga librarya.

Pag-import sa mga Librarya

2. Import nga Dataset

Kini nga artikulo ibase sa usa ka dataset nga makit-an sa Github. Ang dataset ma-import gamit ang Pandas' read CSV function, ingon sa makita sa ubos:

Pag-import sa Dataset

Gamit ang head() function, susiha ang unang lima ka laray sa dataset:

Head Dataset

Output:

Output Sa Head Dataset

3. Pagtuki sa Data

Atong susihon ang datos aron mahibal-an kung adunay mga uso. Apan una, usbon namo ang default nga gidak-on sa plot aron mas makita ang mga tsart.

Pag-adjust sa Laki sa Plot

Magsugod kita sa gidaghanon sa mga tweet nga nadawat sa matag airline. Atong gamiton ang pie chart alang niini:

Pie Chart

Ang porsyento sa mga publikong tweet alang sa matag airline gipakita sa output.

Output sa Pie Chart

Atong tan-awon kung giunsa ang pag-apod-apod sa mga pagbati sa tanan nga mga tweet.

Semantic Pie Chart

Output:

Semantic Pie Chart Output

Atong susihon karon ang pag-apod-apod sa sentimento alang sa matag piho nga eroplano.

Sumala sa mga resulta, ang kadaghanan sa mga tweet alang sa halos tanan nga mga airline dili pabor, nga adunay neyutral ug maayo nga mga tweet nga nagsunod. Ang Virgin America tingali mao ra ang ayroplano diin ang proporsyon sa tulo nga mga pagbati ikatandi.

Distribusyon sa Matag Airline

Output:

Pag-apod-apod sa Matag Airline Output

Sa katapusan, among gamiton ang librarya sa Seaborn aron makuha ang kasagaran nga lebel sa pagsalig sa mga tweet gikan sa tulo ka mga kategorya sa sentimento.

Plot sa Bar

Output:

Output sa Bar Plot

Ang resulta nagpakita nga ang lebel sa pagsalig alang sa negatibo nga mga tweet mas dako kaysa sa positibo o neyutral nga mga tweet.

4. Paglimpyo sa datos

Daghang slang termino ug punctuation marks ang makit-an sa mga tweet. Sa dili pa nato mabansay ang modelo sa pagkat-on sa makina, kinahanglan natong limpyohan ang atong mga tweet.

Bisan pa, sa dili pa kita magsugod sa paglimpyo sa mga tweet, kinahanglan natong ibulag ang atong dataset ngadto sa feature ug label set.

Mga Feature Ug Mga Label

Mahimo natong limpyohan ang datos sa higayon nga mabulag na nato kini ngadto sa mga feature ug training sets. Regular nga mga ekspresyon ang gamiton sa pagbuhat niini.

Regular nga Pagpahayag

5. Numeric nga Representasyon sa Teksto

Aron mabansay ang mga modelo sa pagkat-on sa makina, ang mga algorithm sa istatistika naggamit sa matematika. Ang matematika, sa laing bahin, nagtrabaho lamang sa mga numero.

Kinahanglan una natong usbon ang teksto ngadto sa mga numero para sa mga istatistikal nga algoritmo sa pag-atubang niini. Adunay tulo ka batakang paagi sa pagbuhat niini: Bag of Words, TF-IDF, ug Word2Vec.

Maayo na lang, ang klase sa TfidfVectorizer sa Scikit-Learn module sa Python mahimong magamit aron mabag-o ang mga feature sa text ngadto sa TF-IDF feature vectors.

TF IDF

6. Paghimo sa Data-Driven Training ug Test Sets

Sa katapusan, kinahanglan namon nga bahinon ang among datos sa mga set sa pagbansay ug pagsulay sa wala pa magbansay sa among mga algorithm.

Ang set sa pagbansay gamiton sa pagbansay sa algorithm, ug ang set sa pagsulay gamiton aron masusi ang pasundayag sa modelo sa pagkat-on sa makina.

Pagsulay sa Tren

7. Pagpalambo sa Modelo

Human mabahin ang datos sa pagbansay ug mga set sa pagsulay, ang mga teknik sa pagkat-on sa makina gigamit aron makakat-on gikan sa datos sa pagbansay.

Mahimo nimong gamiton ang bisan unsang algorithm sa pagkat-on sa makina. Ang pamaagi sa Random Forest, bisan pa, gamiton tungod sa abilidad niini sa pagsagubang sa dili normal nga datos.

Pagbansay sa Modelo

8. Mga Panagna ug Pagtimbang-timbang sa Modelo

Human mabansay ang modelo, ang kataposang yugto mao ang paghimog mga panagna. Aron mahimo kini, kinahanglan natong i-apply ang predict method sa RandomForestClassifier class object nga atong gibansay.

Pagtagna sa Modelo

Sa katapusan, ang mga lakang sa pagklasipikar sama sa mga sukatan sa kalibug, mga lakang sa F1, katukma, ug uban pa mahimong magamit sa pagtimbang-timbang sa nahimo sa mga modelo sa pagkat-on sa makina.

Mga Sukatan sa Klasipikasyon

Output:

Klasipikasyon Sukatan Output

Nakab-ot sa among algorithm ang katukma nga 75.30, ingon sa nakita sa mga resulta.

Panapos

Ang pag-analisa sa sentimento usa sa labing kanunay nga trabaho sa NLP tungod kay makatabang kini nga mahibal-an ang kinatibuk-ang opinyon sa publiko sa usa ka piho nga isyu.

Nakita namon kung giunsa ang daghang mga librarya sa Python makatabang sa pag-analisar sa sentimento.

Naghimo kami usa ka pagtuon sa mga publiko nga tweet bahin sa unom nga mga eroplano sa US ug nakab-ot ang katukma nga halos 75%.

Mosugyot ko nga sulayan nimo ang laing algorithm sa pagkat-on sa makina, sama sa logistic regression, SVM, o KNN, aron masuta kung makab-ot ba nimo ang mas maayong mga resulta.

NLP Sentiment Analysis gamit ang Python

Unsa ang pag-analisa sa sentimento?

Mga Kaayohan sa Pag-analisar sa Sentiment