Dadansoddiad Sentiment NLP gan ddefnyddio Python

Tabl Cynnwys[Cuddio][Dangos]

Beth yw dadansoddi teimladau?
Manteision Dadansoddi Teimladau
Dadansoddi Teimladau – Datganiad Problem+-
Casgliad

Bydd busnesau wedi meistroli caffael data rhyngweithio defnyddwyr erbyn 2021.

Ar y llaw arall, mae gorddibyniaeth ar y pwyntiau data hyn, ar y llaw arall, yn aml yn arwain at sefydliadau yn trin mewnbwn cwsmeriaid fel ystadegyn - agwedd braidd yn un dimensiwn at wrando ar lais y cwsmer.

Ni ellir rhoi bathodyn ar lais y cwsmer na'i drawsnewid yn rhif.

Rhaid ei ddarllen, ei gywasgu, ac, yn anad dim, ei ddeall.

Y ffaith yw bod yn rhaid i gwmnïau wrando'n weithredol ar yr hyn sydd gan eu defnyddwyr i'w ddweud ar bob sianel y maent yn rhyngweithio â nhw drwyddi, boed hynny trwy alwadau ffôn, e-byst, neu sgwrs fyw.

Dylai pob cwmni flaenoriaethu monitro a gwerthuso teimlad adborth defnyddwyr, ond yn draddodiadol mae cwmnïau wedi cael trafferth trin y data hwn a'i drawsnewid yn wybodaeth ystyrlon.

Nid yw hyn yn wir bellach gyda Dadansoddiad Sentiment.

Yn y tiwtorial hwn, byddwn yn edrych yn agosach ar ddadansoddiad teimlad, ei fanteision, a sut i ddefnyddio'r NLTK llyfrgell i wneud dadansoddiad teimlad ar ddata.

Beth yw dadansoddi teimladau?

Mae dadansoddi teimlad, a elwir yn aml yn gloddio am sgwrs, yn ddull o ddadansoddi teimladau, meddyliau a safbwyntiau pobl.

Mae dadansoddi teimlad yn galluogi busnesau i gael gwell dealltwriaeth o'u defnyddwyr, cynyddu refeniw, a gwella eu cynhyrchion a'u gwasanaethau yn seiliedig ar fewnbwn cleientiaid.

Y gwahaniaeth rhwng system feddalwedd sy'n gallu dadansoddi teimlad cwsmeriaid a gwerthwr/cynrychiolydd gwasanaeth cwsmeriaid yn ceisio ei ddiddwytho yw gallu pur y cyntaf i gael canlyniadau gwrthrychol o'r testun crai - cyflawnir hyn yn bennaf trwy brosesu iaith naturiol (NLP) a dysgu peiriant technegau.

O adnabod emosiwn i gategoreiddio testun, mae gan ddadansoddiad teimlad ystod eang o gymwysiadau. Rydym yn dadansoddi teimladau ar ddata testunol i gynorthwyo cwmni i fonitro teimladau gwerthusiadau cynnyrch neu adborth defnyddwyr.

Mae gwahanol wefannau cyfryngau cymdeithasol yn ei ddefnyddio i asesu teimlad postiadau, ac os yw'r emosiwn yn rhy gryf neu'n dreisgar, neu'n disgyn o dan eu trothwy, mae'r post naill ai'n cael ei ddileu neu ei guddio.

Gellir defnyddio dadansoddiad teimlad ar gyfer popeth o adnabod emosiwn i gategoreiddio testun.

Mae'r defnydd mwyaf poblogaidd o ddadansoddi teimlad ar ddata testunol, lle caiff ei ddefnyddio i helpu cwmni i olrhain teimlad gwerthusiadau cynnyrch neu sylwadau defnyddwyr.

Mae gwahanol wefannau cyfryngau cymdeithasol hefyd yn ei ddefnyddio i asesu teimlad postiadau, ac os yw'r emosiwn yn rhy gryf neu'n dreisgar, neu'n disgyn o dan eu trothwy, maen nhw'n dileu neu'n cuddio'r post.

Manteision Dadansoddi Teimladau

Mae'r canlynol yn rhai o fanteision pwysicaf dadansoddi teimlad na ddylid eu diystyru.

Helpwch i asesu canfyddiad eich brand ymhlith eich demograffig targed.
Darperir adborth uniongyrchol gan gleientiaid i'ch helpu i ddatblygu eich cynnyrch.
Yn cynyddu refeniw gwerthiant a chwilota.
Mae cyfleoedd uwchwerthu ar gyfer hyrwyddwyr eich cynnyrch wedi cynyddu.
Mae gwasanaeth cwsmeriaid rhagweithiol yn opsiwn ymarferol.

Gall niferoedd roi gwybodaeth i chi fel perfformiad amrwd ymgyrch farchnata, faint o ymgysylltiad â galwad chwilota, a nifer y tocynnau sy'n aros am gymorth cwsmeriaid.

Fodd bynnag, ni fydd yn dweud wrthych pam y digwyddodd digwyddiad penodol na beth a'i achosodd. Gall offer dadansoddeg fel Google a Facebook, er enghraifft, eich helpu i asesu perfformiad eich ymdrechion marchnata.

Ond nid ydynt yn rhoi gwybodaeth fanwl i chi ynghylch pam y bu'r ymgyrch benodol honno'n llwyddiannus.

Mae gan Ddadansoddi Teimladau'r potensial i newid y sefyllfa yn hyn o beth.

Dadansoddi Teimladau – Datganiad Problem

Y nod yw penderfynu a oes gan drydariad emosiwn ffafriol, negyddol neu niwtral ynghylch chwe chwmni hedfan o'r UD yn seiliedig ar drydariadau.

Mae hon yn swydd ddysgu safonol dan oruchwyliaeth lle mae'n rhaid i ni gategoreiddio llinyn testun yn gategorïau a bennwyd ymlaen llaw o gael llinyn testun.

Ateb

Byddwn yn defnyddio'r broses ddysgu peiriant safonol i fynd i'r afael â'r broblem hon. Byddwn yn dechrau trwy fewnforio'r llyfrgelloedd a'r setiau data angenrheidiol.

Yna byddwn yn gwneud rhywfaint o ddadansoddi data archwiliadol i benderfynu a oes unrhyw batrymau yn y data. Yn dilyn hynny, byddwn yn cynnal rhagbrosesu testun i droi data rhifol mewnbwn testunol a dysgu peiriant gall system ddefnyddio.

Yn olaf, byddwn yn hyfforddi ac yn gwerthuso ein modelau dadansoddi teimlad gan ddefnyddio dulliau dysgu peirianyddol.

1. Mewnforio Llyfrgelloedd

Llwythwch y llyfrgelloedd angenrheidiol.

Mewnforio Llyfrgelloedd

2. Mewnforio Set Ddata

Bydd yr erthygl hon yn seiliedig ar set ddata y gellir ei chanfod ar Github. Bydd y set ddata yn cael ei fewnforio gan ddefnyddio swyddogaeth CSV darllenedig Pandas, fel y gwelir isod:

Mewnforio Set Ddata

Gan ddefnyddio'r ffwythiant pen (), archwiliwch bum rhes gyntaf y set ddata:

Set Ddata Pen

Allbwn:

Allbwn Y Set Ddata Pen

3. Dadansoddiad o'r Data

Gadewch inni archwilio'r data i benderfynu a oes unrhyw dueddiadau. Ond yn gyntaf, byddwn yn newid maint y plot rhagosodedig i wneud y siartiau'n fwy gweladwy.

Addasu Maint y Llain

Gadewch inni ddechrau gyda nifer y trydariadau a dderbyniwyd gan bob cwmni hedfan. Byddwn yn defnyddio siart cylch ar gyfer hyn:

Siart cylch

Dangosir canran y trydariadau cyhoeddus ar gyfer pob cwmni hedfan yn yr allbwn.

Allbwn Siart Cylch

Gadewch i ni gael golwg ar sut mae'r teimladau'n cael eu dosbarthu dros bob un o'r trydariadau.

Siart Cylch Semantig

Allbwn:

Allbwn Siart Cylch Semantig

Gadewch inni nawr archwilio dosbarthiad teimlad ar gyfer pob cwmni hedfan penodol.

Yn ôl y canlyniadau, mae mwyafrif y trydariadau ar gyfer bron pob cwmni hedfan yn anffafriol, gyda thrydariadau niwtral a da yn dilyn. Efallai mai Virgin America yw'r unig gwmni hedfan lle mae cyfran y tri theimlad yn gymaradwy.

Dosbarthiad pob cwmni hedfan

Allbwn:

Dosbarthiad Pob Allbwn Cwmni Hedfan

Yn olaf, byddwn yn defnyddio llyfrgell Seaborn i gael y lefel hyder gyfartalog ar gyfer trydariadau o dri chategori teimlad.

Plot Bar

Allbwn:

Allbwn Plot y Bar

Mae'r canlyniad yn dangos bod y lefel hyder ar gyfer trydariadau negyddol yn uwch nag ar gyfer trydariadau cadarnhaol neu niwtral.

4. Glanhau'r data

Gellir dod o hyd i lawer o dermau bratiaith a marciau atalnodi mewn trydariadau. Cyn y gallwn hyfforddi'r model dysgu peiriant, mae angen inni lanhau ein trydariadau.

Fodd bynnag, cyn i ni ddechrau glanhau'r trydariadau, dylem wahanu ein set ddata yn setiau nodwedd a labeli.

Nodweddion A Labeli

Gallwn lanhau'r data unwaith y byddwn wedi ei wahanu'n nodweddion a setiau hyfforddi. Defnyddir ymadroddion rheolaidd i wneud hyn.

Mynegiant Rheolaidd

5. Cynrychioliad Rhifol y Testun

Er mwyn hyfforddi modelau dysgu peirianyddol, mae algorithmau ystadegol yn defnyddio mathemateg. Mae mathemateg, ar y llaw arall, yn gweithio gyda rhifau yn unig.

Rhaid i ni yn gyntaf drawsnewid y testun yn rhifau er mwyn i algorithmau ystadegol ymdrin ag ef. Mae tair ffordd sylfaenol o wneud hynny: Bag of Words, TF-IDF, a Word2Vec.

Yn ffodus, gellir defnyddio'r dosbarth TfidfVectorizer ym modiwl Scikit-Learn Python i drawsnewid nodweddion testun yn fectorau nodwedd TF-IDF.

TF IDF

6. Creu Hyfforddiant a Gyrrir gan Ddata a Setiau Prawf

Yn olaf, rhaid inni rannu ein data yn setiau hyfforddi a phrofi cyn hyfforddi ein halgorithmau.

Defnyddir y set hyfforddi i hyfforddi'r algorithm, a defnyddir y set brawf i asesu perfformiad y model dysgu peiriant.

Prawf Trên

7. Datblygu Model

Ar ôl i'r data gael ei wahanu'n setiau hyfforddi a phrofi, defnyddir technegau dysgu peiriant i ddysgu o'r data hyfforddi.

Gallwch ddefnyddio unrhyw algorithm dysgu peiriant. Fodd bynnag, bydd y dull Random Forest yn cael ei ddefnyddio oherwydd ei allu i ymdopi â data nad yw wedi'i normaleiddio.

Hyfforddiant Model

8. Rhagfynegiadau a Gwerthusiad Model

Ar ôl i'r model gael ei hyfforddi, y cam olaf yw gwneud rhagfynegiadau. I wneud hyn, rhaid inni gymhwyso'r dull rhagfynegi i'r gwrthrych dosbarth RandomForestClassifier a hyfforddwyd gennym.

Rhagfynegiad Model

Yn olaf, gellir defnyddio mesurau dosbarthu fel metrigau dryswch, mesurau F1, cywirdeb, ac yn y blaen i werthuso perfformiad modelau dysgu peiriannau.

Metrigau Dosbarthiad

Allbwn:

Allbwn Metrigau Dosbarthiad

Cyflawnodd ein algorithm cywirdeb o 75.30, fel y gwelir gan y canlyniadau.

Casgliad

Dadansoddiad teimlad yw un o'r swyddi NLP mwyaf cyffredin gan ei fod yn helpu i nodi barn gyffredinol y cyhoedd ar fater penodol.

Gwelsom sut y gall sawl llyfrgell Python helpu gyda dadansoddi teimladau.

Fe wnaethom gynnal astudiaeth o drydariadau cyhoeddus tua chwe chwmni hedfan o'r UD a chyrraedd cywirdeb o tua 75%.

Byddwn yn awgrymu eich bod yn rhoi cynnig ar algorithm dysgu peiriant arall, fel atchweliad logistaidd, SVM, neu KNN, i weld a allwch chi gyflawni canlyniadau gwell.

Dadansoddiad Sentiment NLP gan ddefnyddio Python

Beth yw dadansoddi teimladau?

Manteision Dadansoddi Teimladau

Dadansoddi Teimladau – Datganiad Problem