Analiza e ndjenjave NLP duke përdorur Python

Përmbajtje[Fshih][Shfaqje]

Çfarë është analiza e ndjenjave?
Përfitimet e analizës së ndjenjave
Analiza e ndjenjave – Deklarata e problemit+-
Përfundim

Bizneset do të kenë zotëruar marrjen e të dhënave të ndërveprimit me konsumatorin deri në vitin 2021.

Mbështetja e tepërt në këto pika të të dhënave, nga ana tjetër, shpesh çon në atë që organizatat e trajtojnë kontributin e klientit si një statistikë - një qasje mjaft njëdimensionale për të dëgjuar zërin e klientit.

Zëri i klientit nuk mund të shënohet ose të shndërrohet në numër.

Duhet të lexohet, të përmbledhet dhe, mbi të gjitha, të kuptohet.

Fakti është se kompanitë duhet të dëgjojnë në mënyrë aktive atë që konsumatorët e tyre kanë për të thënë në çdo kanal përmes të cilit ata ndërveprojnë me ta, qoftë përmes telefonatave, emaileve apo bisedave të drejtpërdrejta.

Çdo kompani duhet t'i japë përparësi monitorimit dhe vlerësimit të reagimeve të konsumatorëve, por kompanitë tradicionalisht kanë luftuar për të trajtuar këto të dhëna dhe për t'i transformuar ato në inteligjencë kuptimplote.

Ky nuk është më rasti me Analizën e Ndjesisë.

Në këtë tutorial, ne do të hedhim një vështrim më të afërt në analizën e ndjenjave, avantazhet e saj dhe si të përdorim NLTK biblioteka për të bërë analizën e ndjenjave mbi të dhënat.

Çfarë është analiza e ndjenjave?

Analiza e ndjenjave, e njohur shpesh si minierat e bisedave, është një metodë për të analizuar ndjenjat, mendimet dhe pikëpamjet e njerëzve.

Analiza e ndjenjave u lejon bizneseve të fitojnë një kuptim më të mirë të konsumatorëve të tyre, të rrisin të ardhurat dhe të përmirësojnë produktet dhe shërbimet e tyre bazuar në kontributin e klientit.

Dallimi midis një sistemi softuerësh të aftë për të analizuar ndjenjat e klientit dhe një përfaqësuesi të shitësit/shërbimit të klientit që përpiqet të nxjerrë përfundimin është aftësia e plotë e të parit për të nxjerrë rezultate objektive nga teksti i papërpunuar – kjo realizohet kryesisht përmes përpunimit të gjuhës natyrore (NLP) dhe Mësimi makinë teknikat.

Nga identifikimi i emocioneve deri te kategorizimi i tekstit, analiza e ndjenjave ka një gamë të gjerë aplikimesh. Ne përdorim analizën e ndjenjave në të dhënat tekstuale për të ndihmuar një firmë të monitorojë ndjenjën e vlerësimeve të produktit ose reagimet e konsumatorëve.

Faqe të ndryshme të mediave sociale e përdorin atë për të vlerësuar ndjenjën e postimeve dhe nëse emocioni është shumë i fortë ose i dhunshëm, ose bie nën pragun e tyre, postimi ose fshihet ose fshihet.

Analiza e ndjenjave mund të përdoret për gjithçka, nga identifikimi i emocioneve deri te kategorizimi i tekstit.

Përdorimi më i popullarizuar i analizës së ndjenjave është në të dhënat tekstuale, ku përdoret për të ndihmuar një kompani në gjurmimin e ndjenjës së vlerësimeve të produktit ose komenteve të konsumatorëve.

Faqe të ndryshme të mediave sociale e përdorin atë gjithashtu për të vlerësuar ndjenjën e postimeve dhe nëse emocioni është shumë i fortë ose i dhunshëm, ose bie nën pragun e tyre, ata fshijnë ose fshehin postimin.

Përfitimet e analizës së ndjenjave

Më poshtë janë disa nga përfitimet më të rëndësishme të analizës së ndjenjave që nuk duhen anashkaluar.

Ndihmoni në vlerësimin e perceptimit të markës suaj midis demografisë tuaj të synuar.
Reagimet e drejtpërdrejta të klientit ofrohen për t'ju ndihmuar në zhvillimin e produktit tuaj.
Rrit të ardhurat nga shitjet dhe kërkimet.
Mundësitë e rritjes së shitjes për kampionët e produktit tuaj janë rritur.
Shërbimi proaktiv ndaj klientit është një opsion praktik.

Numrat mund t'ju ofrojnë informacione si performanca e papërpunuar e një fushate marketingu, sasia e angazhimit në një telefonatë kërkimore dhe numri i biletave në pritje në mbështetjen e klientit.

Megjithatë, nuk do t'ju tregojë pse ndodhi një ngjarje specifike ose çfarë e shkaktoi atë. Mjetet e analitikës si Google dhe Facebook, për shembull, mund t'ju ndihmojnë të vlerësoni performancën e përpjekjeve tuaja të marketingut.

Por ata nuk ju ofrojnë një njohuri të thellë se pse ajo fushatë specifike ishte e suksesshme.

Analiza e ndjenjave ka potencialin të ndryshojë lojën në këtë drejtim.

Analiza e ndjenjave – Deklarata e problemit

Qëllimi është të përcaktohet nëse një postim në Twitter ka emocione të favorshme, negative ose neutrale në lidhje me gjashtë linja ajrore amerikane bazuar në tweet-et.

Kjo është një punë standarde e të mësuarit e mbikëqyrur në të cilën ne duhet të kategorizojmë një varg teksti në kategori të paracaktuara, duke pasur parasysh një varg teksti.

Zgjidhje

Ne do të përdorim procesin standard të mësimit të makinerive për të adresuar këtë problem. Do të fillojmë duke importuar bibliotekat dhe grupet e të dhënave të nevojshme.

Më pas do të kryejmë disa analiza eksploruese të të dhënave për të përcaktuar nëse ka ndonjë model në të dhëna. Pas kësaj, ne do të ndërmarrim parapërpunimin e tekstit për të kthyer të dhënat numerike të hyrjes tekstuale që a Mësimi makinë sistemi mund të përdorë.

Më në fund, ne do të trajnojmë dhe vlerësojmë modelet tona të analizës së ndjenjave duke përdorur metoda të mësimit të makinerive.

1. Importimi i Bibliotekave

Ngarkoni bibliotekat e nevojshme.

Importimi i Bibliotekave

2. Importoni grupin e të dhënave

Ky artikull do të bazohet në një grup të dhënash që mund të gjendet në Github. Të dhënat e të dhënave do të importohen duke përdorur funksionin e leximit CSV të Pandas, siç shihet më poshtë:

Importimi i grupit të të dhënave

Duke përdorur funksionin head(), ekzaminoni pesë rreshtat e parë të grupit të të dhënave:

Grupi i të dhënave të kokës

output:

Prodhimi i grupit të të dhënave të kokës

3. Analiza e të dhënave

Le të shqyrtojmë të dhënat për të përcaktuar nëse ka ndonjë tendencë. Por së pari, ne do të ndryshojmë madhësinë e paracaktuar të grafikut për t'i bërë grafikët më të dukshëm.

Rregullimi i madhësisë së parcelës

Le të fillojmë me numrin e tweet-eve të marra nga çdo linjë ajrore. Ne do të përdorim një grafik byrek për këtë:

Grafiku i Pijeve

Përqindja e cicërimave publike për secilën linjë ajrore shfaqet në dalje.

Prodhimi i grafikut me byrek

Le të hedhim një vështrim se si shpërndahen ndjenjat në të gjitha tweet-et.

Grafiku i byrekut semantik

output:

Prodhimi i grafikut të byrekut semantik

Le të shqyrtojmë tani shpërndarjen e ndjenjave për secilën linjë ajrore specifike.

Sipas rezultateve, pjesa më e madhe e tweet-eve për pothuajse të gjitha linjat ajrore janë të pafavorshme, me cicërima neutrale dhe të mira që pasojnë. Virgin America është ndoshta e vetmja linjë ajrore ku përqindja e tre ndjenjave është e krahasueshme.

Shpërndarja e secilës linjë ajrore

output:

Shpërndarja e çdo prodhimi të linjës ajrore

Së fundi, ne do të përdorim bibliotekën Seaborn për të marrë nivelin mesatar të besimit për cicërima nga tre kategori ndjenjash.

Parcela e Barit

output:

Prodhimi i parcelës me shirita

Rezultati tregon se niveli i besimit për tweet-et negative është më i madh se për tweet-et pozitive ose neutrale.

4. Pastrimi i të dhënave

Shumë terma zhargon dhe shenja pikësimi mund të gjenden në tweet. Përpara se të trajnojmë modelin e mësimit të makinerive, duhet të pastrojmë tweet-et tona.

Sidoqoftë, përpara se të fillojmë pastrimin e tweet-eve, duhet të ndajmë të dhënat tona në grupe veçorish dhe etiketash.

Karakteristikat dhe etiketat

Ne mund t'i pastrojmë të dhënat pasi t'i kemi ndarë në veçori dhe grupe trajnimi. Për ta bërë këtë do të përdoren shprehje të rregullta.

Shprehje e rregullt

5. Paraqitja numerike e tekstit

Për të trajnuar modelet e mësimit të makinerive, algoritmet statistikore përdorin matematikën. Matematika, nga ana tjetër, punon vetëm me numra.

Fillimisht duhet ta transformojmë tekstin në numra që algoritmet statistikore ta trajtojnë atë. Ekzistojnë tre mënyra themelore për ta bërë këtë: Bag of Words, TF-IDF dhe Word2Vec.

Për fat të mirë, klasa TfidfVetorizer në modulin Scikit-Learn të Python mund të përdoret për të transformuar veçoritë e tekstit në vektorë të veçorive TF-IDF.

TF IDF

6. Krijimi i grupeve të trajnimit dhe testimit të drejtuar nga të dhënat

Së fundi, ne duhet t'i ndajmë të dhënat tona në grupe trajnimi dhe testimi përpara se të trajnojmë algoritmet tona.

Grupi i trajnimit do të përdoret për të trajnuar algoritmin dhe grupi i testimit do të përdoret për të vlerësuar performancën e modelit të mësimit të makinës.

Testi i trenit

7. Zhvillimi i modelit

Pasi të dhënat janë ndarë në grupe trajnimi dhe testimi, teknikat e mësimit të makinerive përdoren për të mësuar nga të dhënat e trajnimit.

Ju mund të përdorni çdo algoritëm të mësimit të makinës. Megjithatë, qasja Random Forest do të përdoret për shkak të aftësisë së saj për të përballuar të dhënat e panormalizuara.

Trajnim model

8. Parashikimet dhe Vlerësimi i Modelit

Pasi modeli të jetë trajnuar, faza përfundimtare është të bëhen parashikimet. Për ta bërë këtë, ne duhet të aplikojmë metodën e parashikimit në objektin e klasës RandomForestClassifier që kemi trajnuar.

Parashikimi i modelit

Më në fund, masat e klasifikimit si metrikat e konfuzionit, masat F1, saktësia, etj., mund të përdoren për të vlerësuar performancën e modeleve të mësimit të makinerive.

Metrika e Klasifikimit

output:

Prodhimi i metrikës së klasifikimit

Algoritmi ynë arriti një saktësi prej 75.30, siç shihet nga rezultatet.

Përfundim

Analiza e ndjenjave është një nga punët më të shpeshta NLP pasi ndihmon në identifikimin e opinionit të përgjithshëm publik për një çështje specifike.

Ne pamë se si disa biblioteka Python mund të ndihmojnë me analizën e ndjenjave.

Ne kryem një studim të postimeve publike në Twitter rreth gjashtë linjave ajrore amerikane dhe arritëm një saktësi prej afërsisht 75%.

Unë do të sugjeroja që të provoni një algoritëm tjetër të mësimit të makinerive, të tilla si regresioni logjistik, SVM ose KNN, për të parë nëse mund të arrini rezultate më të mira.

Analiza e ndjenjave NLP duke përdorur Python

Çfarë është analiza e ndjenjave?

Përfitimet e analizës së ndjenjave