NLP tilfinningagreining með Python

Efnisyfirlit[Fela][Sýna]

Hvað er tilfinningagreining?
Ávinningur af tilfinningagreiningu
Viðhorfsgreining – Vandamálayfirlýsing+-
Niðurstaða

Fyrirtæki munu hafa náð tökum á öflun gagna um samskipti neytenda árið 2021.

Of traust á þessum gagnapunktum leiðir aftur á móti oft til þess að fyrirtæki líta á inntak viðskiptavina sem tölfræði – frekar einvídd nálgun til að hlusta á rödd viðskiptavinarins.

Ekki er hægt að merkja rödd viðskiptavinarins eða breyta í númer.

Það verður að lesa hana, draga saman og umfram allt skilja.

Staðreyndin er sú að fyrirtæki verða að hlusta með virkum hætti á það sem neytendur þeirra hafa að segja á hverri rás sem þeir hafa samskipti við þá, hvort sem það er í gegnum símtöl, tölvupóst eða lifandi spjall.

Sérhver fyrirtæki ættu að forgangsraða eftirliti og mati á viðbrögðum neytenda, en fyrirtæki hafa jafnan átt í erfiðleikum með að meðhöndla þessi gögn og umbreyta þeim í þýðingarmikla upplýsingaöflun.

Þetta er ekki lengur raunin með tilfinningagreiningu.

Í þessari kennslu munum við skoða tilfinningagreiningu, kosti hennar og hvernig á að nota NLTK bókasafn til að gera tilfinningagreiningu á gögnum.

Hvað er tilfinningagreining?

Tilfinningagreining, oft þekkt sem samtalsnám, er aðferð til að greina tilfinningar, hugsanir og skoðanir fólks.

Viðhorfsgreining gerir fyrirtækjum kleift að öðlast betri skilning á neytendum sínum, auka tekjur og auka vörur sínar og þjónustu byggt á inntaki viðskiptavina.

Munurinn á hugbúnaðarkerfi sem er fær um að greina viðhorf viðskiptavina og sölumanni/þjónustufulltrúa sem reynir að álykta um það er hæfileiki þess fyrrnefnda til að draga hlutlægar niðurstöður úr hráum texta - þetta er fyrst og fremst gert með náttúrulegri málvinnslu (NLP) og vél nám tækni.

Frá tilfinningagreiningu til textaflokkunar, tilfinningagreining hefur breitt úrval af forritum. Við notum viðhorfsgreiningu á textagögnum til að aðstoða fyrirtæki við að fylgjast með viðhorfi vörumats eða endurgjöf neytenda.

Mismunandi samfélagsmiðlar nota það til að meta viðhorf pósta og ef tilfinningin er of sterk eða ofbeldisfull, eða fer undir viðmiðunarmörk þeirra er færslunni annað hvort eytt eða falið.

Tilfinningagreiningu er hægt að nota fyrir allt frá tilfinningagreiningu til textaflokkunar.

Vinsælasta notkunin á tilfinningagreiningu er á textagögnum, þar sem þau eru notuð til að hjálpa fyrirtæki við að rekja viðhorf vörumats eða athugasemda neytenda.

Mismunandi samfélagsmiðlar nota það einnig til að meta viðhorf pósta og ef tilfinningin er of sterk eða ofbeldisfull, eða fer undir viðmiðunarmörk þeirra, eyða þeir eða leyna færslunni.

Ávinningur af tilfinningagreiningu

Eftirfarandi eru nokkrir af mikilvægustu kostunum við tilfinningagreiningu sem ekki ætti að hunsa.

Hjálpaðu til við að meta skynjun vörumerkisins þíns meðal lýðfræðilegra markhópa.
Bein endurgjöf viðskiptavina er veitt til að hjálpa þér við að þróa vöruna þína.
Eykur sölutekjur og leit.
Uppsölutækifæri fyrir meistara vörunnar þinnar hafa aukist.
Fyrirbyggjandi þjónusta við viðskiptavini er hagnýtur kostur.

Tölur geta veitt þér upplýsingar eins og hráan árangur markaðsherferðar, magn þátttöku í leitarsímtali og fjölda miða sem bíða í þjónustuveri.

Hins vegar mun það ekki segja þér hvers vegna tiltekinn atburður átti sér stað eða hvað olli því. Greiningarverkfæri eins og Google og Facebook, til dæmis, geta hjálpað þér að meta árangur markaðsaðgerða þinna.

En þeir veita þér ekki ítarlega þekkingu á því hvers vegna þessi tiltekna herferð bar árangur.

Viðhorfsgreining hefur tilhneigingu til að breyta leik í þessu sambandi.

Viðhorfsgreining – Vandamálayfirlýsing

Markmiðið er að ákvarða hvort tíst hefur jákvæðar, neikvæðar eða hlutlausar tilfinningar gagnvart sex bandarískum flugfélögum byggt á tístum.

Þetta er staðlað nám undir eftirliti þar sem við verðum að flokka textastreng í fyrirfram ákveðna flokka með textastreng.

lausn

Við munum nota staðlaða vélanámsferlið til að takast á við þetta vandamál. Við byrjum á því að flytja inn nauðsynleg bókasöfn og gagnasöfn.

Síðan munum við framkvæma könnunargagnagreiningu til að ákvarða hvort það sé einhver mynstur í gögnunum. Í kjölfarið munum við taka að okkur forvinnslu texta til að breyta tölulegum textainnsláttargögnum sem a vél nám kerfið getur notað.

Að lokum munum við þjálfa og meta tilfinningagreiningarlíkön okkar með því að nota vélanámsaðferðir.

1. Flytja inn bókasöfn

Hlaða niður nauðsynlegum bókasöfnum.

Flytja inn bókasöfn

2. Flytja inn gagnasett

Þessi grein verður byggð á gagnasafni sem hægt er að finna á GitHub. Gagnapakkinn verður fluttur inn með því að nota lestrar CSV aðgerð Pandas, eins og sést hér að neðan:

Flytur inn gagnasett

Notaðu head() aðgerðina, skoðaðu fyrstu fimm línur gagnasafnsins:

Gagnasett höfuðs

Output:

Úttak gagnasetts höfuðsins

3. Greining gagna

Við skulum skoða gögnin til að ákvarða hvort það sé einhver þróun. En fyrst breytum við sjálfgefnum lóðarstærð til að gera töflurnar sýnilegri.

Aðlaga lóðarstærð

Við skulum byrja á fjölda kvakanna sem hvert flugfélag hefur fengið. Við munum nota kökurit fyrir þetta:

Kökurit

Hlutfall opinberra kvak fyrir hvert flugfélag er birt í úttakinu.

Framleiðsla skífurits

Við skulum skoða hvernig tilfinningunum er dreift yfir öll tíst.

Merkingarfræðilegt kökurit

Output:

Merkingarfræðilegt skífuritsúttak

Við skulum nú skoða dreifingu viðhorfa fyrir hvert tiltekið flugfélag.

Samkvæmt niðurstöðunum er megnið af tístum fyrir næstum öll flugfélög óhagstætt, með hlutlausum og góðum tístum í kjölfarið. Virgin America er kannski eina flugfélagið þar sem hlutfall tilfinninganna þriggja er sambærilegt.

Dreifing hvers flugfélags

Output:

Dreifing hvers flugfélagsúttaks

Að lokum munum við nota Seaborn bókasafnið til að fá meðalöryggisstig fyrir tíst úr þremur tilfinningaflokkum.

Bar Plot

Output:

Bar Plot Output

Niðurstaðan sýnir að sjálfstraust fyrir neikvæð tíst er hærra en fyrir jákvæð eða hlutlaus tíst.

4. Þrif á gögnum

Mörg slangurorð og greinarmerki má finna í tístum. Áður en við getum þjálfað vélnámslíkanið þurfum við að þrífa tíst okkar.

Hins vegar, áður en við byrjum að þrífa tíst, ættum við að aðgreina gagnasafnið okkar í eiginleika- og merkisett.

Eiginleikar og merkingar

Við getum hreinsað gögnin þegar við höfum skipt þeim í eiginleika og þjálfunarsett. Regluleg orðasambönd verða notuð til að gera þetta.

Venjuleg tjáning

5. Töluleg framsetning texta

Til að þjálfa vélanámslíkön nota tölfræðileg reiknirit stærðfræði. Stærðfræði vinnur aftur á móti eingöngu með tölur.

Við verðum fyrst að umbreyta textanum í tölur til að tölfræðilegar reiknirit geti ráðið við hann. Það eru þrjár helstu leiðir til að gera það: Bag of Words, TF-IDF og Word2Vec.

Sem betur fer er hægt að nota TfidfVectorizer bekkinn í Scikit-Learn mát Python til að umbreyta textaeiginleikum í TF-IDF eiginleikavektora.

TF IDF

6. Að búa til gagnastýrð þjálfunar- og prófunarsett

Að lokum verðum við að skipta gögnum okkar í þjálfunar- og prófunarsett áður en við þjálfum reiknirit okkar.

Þjálfunarsettið verður notað til að þjálfa reikniritið og prófunarsettið verður notað til að meta frammistöðu vélanámslíkans.

Lestarpróf

7. Módelþróun

Eftir að gögnin hafa verið aðskilin í þjálfunar- og prófunarsett eru vélanámsaðferðir notaðar til að læra af þjálfunargögnunum.

Þú getur notað hvaða vélræna reiknirit sem er. Random Forest nálgunin verður hins vegar notuð vegna getu hennar til að takast á við óeðlileg gögn.

Módelþjálfun

8. Spár og líkanamat

Eftir að líkanið hefur verið þjálfað er lokastigið að gera spár. Til að gera þetta verðum við að beita spáaðferðinni á RandomForestClassifier flokkshlutinn sem við þjálfuðum.

Líkanspá

Að lokum er hægt að nota flokkunarmælingar eins og ruglingsmælingar, F1 mælikvarða, nákvæmni og svo framvegis til að meta frammistöðu vélanámslíkana.

Flokkunarmælingar

Output:

Úttak flokkunarmælinga

Reikniritið okkar náði nákvæmninni 75.30, eins og sést á niðurstöðunum.

Niðurstaða

Viðhorfsgreining er eitt algengasta NLP starfið þar sem það hjálpar til við að bera kennsl á almennt almenningsálit á tilteknu málefni.

Við sáum hvernig nokkur Python bókasöfn geta hjálpað til við tilfinningagreiningu.

Við gerðum rannsókn á opinberum tístum um sex bandarísk flugfélög og náðum nákvæmni upp á um það bil 75%.

Ég myndi mæla með því að þú prófir annað vélrænt reiknirit, eins og logistic regression, SVM eða KNN, til að sjá hvort þú getur náð betri árangri.

NLP tilfinningagreining með Python

Hvað er tilfinningagreining?

Ávinningur af tilfinningagreiningu