NLP sentimenduen analisia Python erabiliz

Edukien aurkibidea[Ezkutatu][Erakutsi]

Zer da sentimenduen analisia?
Sentimenduen analisiaren onurak
Sentimenduen analisia - Problemaren adierazpena+-
Ondorioa

Enpresek kontsumitzaileen interakzio-datuak eskuratzea menderatuko dute 2021erako.

Datu-puntu horietan gehiegizko konfiantzak, bestalde, maiz erakundeek bezeroen sarrera estatistiko gisa tratatzera eramaten dute, bezeroaren ahotsa entzuteko dimentsio bakarreko ikuspegia.

Bezeroaren ahotsa ezin da txapa edo zenbaki batean bihurtu.

Irakurri, kondentsatu eta, batez ere, ulertu egin behar da.

Kontua da enpresek aktiboki entzun behar dutela kontsumitzaileek esaten dutena haiekin elkarreragin duten kanal guztietan, dela telefono deien, mezu elektronikoen edo zuzeneko txataren bidez.

Enpresa bakoitzak kontsumitzaileen iritzia kontrolatzeari eta ebaluatzeari lehentasuna eman beharko lioke, baina enpresek, tradizionalki, kosta egin zaie datu horiek kudeatu eta adimen esanguratsu bihurtzeko.

Hau ez da jada Sentimenduen Analisiaren kasua.

Tutorial honetan, sentimenduen analisia, bere abantailak eta nola erabili aztertuko ditugu NLTK liburutegia datuei buruzko sentimenduen analisia egiteko.

Zer da sentimenduen analisia?

Sentimenduen analisia, askotan elkarrizketa meatzaritza gisa ezagutzen dena, pertsonen sentimenduak, pentsamenduak eta ikuspuntuak aztertzeko metodo bat da.

Sentimenduen analisiak enpresei beren kontsumitzaileak hobeto ulertzeko, diru-sarrerak handitzeko eta bezeroen ekarpenen arabera produktuak eta zerbitzuak hobetu ditzakete.

Bezeroen sentimendua aztertzeko gai den software-sistema baten eta hori ondorioztatzen saiatzen den saltzaile/bezero-zerbitzuaren ordezkari baten arteko aldea lehenak testu gordinetik emaitza objektiboak ateratzeko duen gaitasun hutsa da; hau, batez ere, hizkuntza naturalaren prozesamenduaren (NLP) bidez lortzen da. makina ikaskuntza teknikak.

Emozioen identifikaziotik testuen kategorizaziora arte, sentimenduen analisiak aplikazio ugari ditu. Testu-datuetan sentimendu-analisia erabiltzen dugu enpresa bati produktuen ebaluazioen edo kontsumitzaileen iritzien sentimendua kontrolatzeko.

Sare sozialetako gune ezberdinek bidalketen sentimendua ebaluatzeko erabiltzen dute, eta emozioa indartsuegia edo bortitza bada, edo haien atalasearen azpitik jaisten bada, argitalpena ezabatu edo ezkutatu egiten da.

Sentimenduen analisia edozertarako erabil daiteke emozioen identifikaziotik hasi eta testuen kategorizaziora arte.

Sentimenduen analisiaren erabilerarik ezagunena testu-datuak dira, non enpresa bati produktuen ebaluazioen edo kontsumitzaileen iruzkinen sentimenduaren jarraipena egiten laguntzeko.

Sare sozial ezberdinek bidalketen sentimendua ebaluatzeko ere erabiltzen dute, eta emozioa indartsuegia edo bortitza bada, edo haien atalasearen azpitik jaisten bada, argitalpena ezabatu edo ezkutatzen dute.

Sentimenduen analisiaren onurak

Honako hauek dira alde batera utzi behar ez diren sentimenduen analisiaren onura garrantzitsuenetako batzuk.

Laguntza zure markaren pertzepzioa zure xede demografikoaren artean ebaluatzen.
Zuzeneko bezeroen iritzia ematen da zure produktua garatzen laguntzeko.
Salmenten diru-sarrerak eta prospekzioa handitzen ditu.
Zure produktuaren txapeldunentzako saltzeko aukerak handitu egin dira.
Bezeroarentzako arreta proaktiboa aukera praktikoa da.

Zenbakiek informazioa eman diezazuke, hala nola marketin-kanpaina baten errendimendu gordina, prospekzio-dei bateko konpromiso-kopurua eta bezeroarentzako arretarako zain dauden txartel kopurua.

Hala ere, ez du esango gertaera zehatz bat zergatik gertatu den edo zerk eragin duen. Google eta Facebook bezalako analisi-tresnek, adibidez, zure marketin-ahaleginen errendimendua ebaluatzen lagun zaitzake.

Baina ez dizute kanpaina zehatz horrek arrakasta izan zuenaren ezagutza sakonik ematen.

Sentimenduen analisiak joko-aldaketak izateko aukera du zentzu honetan.

Sentimenduen analisia - Problemaren adierazpena

Helburua da zehaztea txio batek aldeko, negatibo edo neutroko emozioa duen ala ez AEBko sei aire konpainiaren txioetan oinarrituta.

Gainbegiratutako ikaskuntza-lan estandarra da, non testu-kate bat aldez aurretik zehaztutako kategorietan sailkatu behar dugu testu-kate bat emanda.

Irtenbidea

Ikasketa automatikoko prozesu estandarra erabiliko dugu arazo honi aurre egiteko. Beharrezko liburutegiak eta datu multzoak inportatzen hasiko gara.

Ondoren, datuen azterketa esploratzaile batzuk egingo ditugu datuetan eredurik dagoen zehazteko. Horren ostean, testu-aurreprozesatzeari ekingo diogu testu-sarrerako zenbakizko datuak a makina ikaskuntza sistemak erabil ditzake.

Azkenik, gure sentimenduen analisiaren ereduak trebatu eta ebaluatuko ditugu ikaskuntza automatikoko metodoak erabiliz.

1. Liburutegiak inportatzea

Kargatu beharrezko liburutegiak.

Liburutegiak inportatzea

2. Inportatu datu multzoa

Artikulu hau aurki daitekeen datu multzo batean oinarrituko da Github. Datu-multzoa Pandas-en irakurketa CSV funtzioa erabiliz inportatuko da, behean ikusten den moduan:

Datu multzoa inportatzen

Head() funtzioa erabiliz, aztertu datu-multzoaren lehen bost errenkadak:

Buruko datu multzoa

Irteera:

Buruko datu multzoaren irteera

3. Datuen analisia

Azter ditzagun datuak joerarik dagoen zehazteko. Baina lehenik eta behin, grafikoen tamaina lehenetsia aldatuko dugu diagramak ikusgarriagoak izan daitezen.

Lursailaren tamaina doitzea

Has gaitezen aire konpainia bakoitzak jasotako txio kopuruarekin. Horretarako, zirkula-diagrama bat erabiliko dugu:

Pie diagrama

Irteeran bistaratzen da aire konpainia bakoitzaren txio publikoen ehunekoa.

Tarta-diagramako irteera

Ikus dezagun nola banatzen diren sentimenduak txio guztietan.

Diagrama Semantikoa

Irteera:

Diagrama Semantikoa Irteera

Azter dezagun orain aire-konpainia zehatz bakoitzaren sentimenduaren banaketa.

Emaitzen arabera, ia aire-konpainia guztien txioen zatirik handiena desegokia da, txio neutro eta onak jarraituz. Virgin America da agian hiru sentimenduen proportzioa parekoa den aire konpainia bakarra.

Aire konpainia bakoitzaren banaketa

Irteera:

Aire konpainiaren irteera bakoitzaren banaketa

Azkenik, Seaborn liburutegia erabiliko dugu hiru sentimendu kategorietako txioen batez besteko konfiantza-maila lortzeko.

Taberna Lursaila

Irteera:

Bar Plot Irteera

Emaitzek erakusten dute txio negatiboen konfiantza maila handiagoa dela txio positibo edo neutroena baino.

4. Datuak garbitzea

Argot termino eta puntuazio ikur asko txioetan aurki daitezke. Ikaskuntza automatikoaren eredua entrenatu aurretik, gure txioak garbitu behar ditugu.

Hala ere, txioak garbitzen hasi aurretik, gure datu-multzoa ezaugarri eta etiketa multzoetan bereizi beharko genuke.

Ezaugarriak Eta Etiketak

Datuak garbitu ditzakegu eginbideetan eta prestakuntza multzoetan banatuta. Adierazpen erregularrak erabiliko dira horretarako.

Adierazpen erregularra

5. Testuaren Zenbakizko Adierazpena

Ikaskuntza automatikoko ereduak trebatzeko, algoritmo estatistikoek matematika erabiltzen dute. Matematikak, berriz, zenbakiekin soilik lan egiten du.

Lehenik eta behin testua zenbaki bihurtu behar dugu algoritmo estatistikoek horri aurre egiteko. Horretarako oinarrizko hiru modu daude: Bag of Words, TF-IDF eta Word2Vec.

Zorionez, Python-en Scikit-Learn moduluko TfidfVectorizer klasea testu-ezaugarriak TF-IDF ezaugarri-bektore bihurtzeko erabil daiteke.

TF IDF

6. Datuetan oinarritutako prestakuntza eta proba multzoak sortzea

Azkenik, gure datuak entrenamendu eta proba multzoetan banatu behar ditugu gure algoritmoak entrenatu aurretik.

Entrenamendu-multzoa algoritmoa entrenatzeko erabiliko da, eta proba-multzoa ikasketa automatikoaren ereduaren errendimendua ebaluatzeko.

Tren proba

7. Ereduaren Garapena

Datuak entrenamendu eta proba multzoetan banatu ondoren, ikaskuntza automatikoko teknikak erabiltzen dira prestakuntza datuetatik ikasteko.

Ikaskuntza automatikoko edozein algoritmo erabil dezakezu. Random Forest ikuspegia, ordea, normalizatu gabeko datuei aurre egiteko duen gaitasunagatik erabiliko da.

Ereduen Prestakuntza

8. Iragarpenak eta Ereduaren Ebaluazioa

Eredua trebatu ondoren, azken fasea iragarpenak egitea da. Horretarako, entrenatu dugun RandomForestClassifier klaseko objektuari aurreikusteko metodoa aplikatu behar diogu.

Ereduaren iragarpena

Azkenik, nahasmen-neurriak, F1 neurriak, zehaztasuna eta abar bezalako sailkapen-neurriak erabil daitezke ikaskuntza automatikoko ereduen errendimendua ebaluatzeko.

Sailkapen-neurriak

Irteera:

Sailkapen-Metrikoak Irteera

Gure algoritmoak 75.30eko zehaztasuna lortu zuen, emaitzek ikusten dutenez.

Ondorioa

Sentimenduen analisia NLP lan ohikoenetako bat da, gai zehatz bati buruzko iritzi publiko orokorra identifikatzen laguntzen baitu.

Hainbat Python liburutegiek sentimenduen analisian nola lagun dezaketen ikusi genuen.

AEBetako sei airelinei buruzko txio publikoen azterketa egin genuen eta gutxi gorabehera %75eko zehaztasuna lortu genuen.

Ikaskuntza automatikoko beste algoritmo bat probatzea gomendatuko nuke, hala nola, erregresio logistikoa, SVM edo KNN, emaitza hobeak lor ditzakezun ikusteko.

NLP sentimenduen analisia Python erabiliz

Zer da sentimenduen analisia?

Sentimenduen analisiaren onurak