Analîza Hestiyariya NLP bi karanîna Python

Table of Contents[Veşartin][Rêdan]

Analîzkirina hestê çi ye?
Feydeyên Analîza Hestiyê
Analîziya Hestê - Daxuyaniya Pirsgirêkê+- Ji
Xelasî

Karsaz dê heya sala 2021-ê bi destxistina daneyên danûstendina xerîdar serwer bibin.

Ji hêla din ve, pêbaweriya zêde li ser van nuqteyên daneyê, bi gelemperî rê dide ku rêxistinan têketina xerîdar wekî statîstîkek binirxînin - nêzîkatiyek pir yekalî ji bo guhdarîkirina dengê xerîdar.

Dengê xerîdar nayê binavkirin an veguheztina hejmarê.

Pêdivî ye ku ew were xwendin, komkirin û, berî her tiştî, were fam kirin.

Rastî ev e ku pargîdan pêdivî ye ku bi rengek çalak guh bidin ka xerîdarên wan li ser her kanalek ku ew bi wan re têkilî daynin, çi bi têlefonê, e-nameyê, an danûstendina zindî be, çi dibêjin.

Pêdivî ye ku her pargîdanî pêşî li çavdêrîkirin û nirxandina hestiyariya berteka xerîdar bigire, lê pargîdan bi kevneşopî têdikoşin ku van daneyan bi rê ve bibin û wê veguherînin îstîxbarata watedar.

Ev yek êdî bi Analîza Hestiyê re derbas nabe.

Di vê dersê de, em ê ji nêz ve li analîza hestê, avantajên wê, û çawaniya karanîna NLTK pirtûkxane ku li ser daneyan analîza hestan dike.

Analîzkirina hestê çi ye?

Analîzkirina hestê, ku bi gelemperî wekî mêtingeriya axaftinê tê zanîn, rêbazek ji bo analîzkirina hest, raman û dîtinên mirovan e.

Analîzkirina hestê dihêle ku karsazî ji xerîdarên xwe çêtir têgihiştinek bidest bixin, dahatê zêde bikin, û hilber û karûbarên xwe li ser bingeha têketina xerîdar zêde bikin.

Cûdahiya di navbera pergalek nermalavê de ku bikaribe hestê xerîdar analîz bike û nûnerê firoşkar / karûbarê xerîdar ku hewl dide wê derxîne de jêhatîbûna paşîn e ku encamên objektîf ji nivîsa xav derxîne - ev di serî de bi navgîniya pêvajoyek zimanê xwezayî (NLP) pêk tê û fêrbûna makîneyê teknîkî

Ji nasnameya hestê bigire heya kategorîzekirina nivîsê, analîza hestyarî xwedan cûrbecûr serlêdanan e. Em analîza hestê li ser daneyên nivîsê bi kar tînin da ku ji pargîdaniyek re bibin alîkar ku hesta nirxandinên hilberê an bertekên xerîdar bişopîne.

Malperên cihêreng ên medyaya civakî wê bikar tînin da ku hestiyariya şandinan binirxînin, û heke hest pir bi hêz an tundî be, an jî li binê sînorê wan dakeve, post an tê jêbirin an jî veşartî.

Analîzkirina hestê dikare ji bo her tiştî ji nasnameya hestê bigire heya kategorîzekirina nivîsê were bikar anîn.

Bikaranîna herî populer a analîza hestê li ser daneyên nivîsê ye, ku ew ji bo arîkariya pargîdaniyek di şopandina hesta nirxandinên hilberê an şîroveyên xerîdar de tê bikar anîn.

Malperên cihêreng ên medyaya civakî jî wê bikar tînin da ku hestiyariya şandinan binirxînin, û heke hest pir bi hêz an tundûtûj be, an jî di binê sînorê wan de be, ew postê jêbirin an veşêrin.

Feydeyên Analîza Hestiyê

Li jêr hin feydeyên herî girîng ên analîza hestê hene ku divê neyên paşguh kirin.

Di nirxandina têgihîştina marqeya xwe de di nav demografya hedefa we de bibin alîkar.
Bersiva rasterast a xerîdar tê peyda kirin ku ji we re bibe alîkar ku hûn hilbera xwe pêşve bibin.
Dahata firotanê û lêgerînê zêde dike.
Derfetên firotanê yên ji bo şampiyonên hilberê we zêde bûne.
Karûbarê xerîdar a proaktîf vebijarkek pratîkî ye.

Hêjmar dikarin agahdariya mîna performansa xav a kampanyayek kirrûbirrê, hêjmara tevlêbûna bangek lêgerînê, û hejmara bilêtên ku di piştgiriya xerîdar de li bendê ne, ji we re peyda bikin.

Lêbelê, ew ê ji we re nebêje ka çima bûyerek taybetî qewimî an sedema wê çi bû. Mînakî, amûrên Analytics ên mîna Google û Facebook, dikarin ji we re bibin alîkar ku hûn performansa hewildanên kirrûbirra xwe binirxînin.

Lê ew ji we re zanînek kûr peyda nakin ka çima ew kampanyaya taybetî serketî bû.

Analîza Hestê di vî warî de xwedan potansiyela lîstokê ye.

Analîziya Hestê - Daxuyaniya Pirsgirêkê

Armanc ev e ku were destnîşankirin ka tweetek li ser bingeha tweetan di derheqê şeş firokeyên Dewletên Yekbûyî de hestek erênî, neyînî an bêalî heye.

Ev karekî fêrbûna çavdêrîkirî ya standard e ku tê de divê em rêzika nivîsê li kategoriyên pêşwextkirî yên ku rêzek nivîsê dane kategorîze bikin.

Çare

Em ê pêvajoya fêrbûna makîneya standard bikar bînin ku vê pirsgirêkê çareser bikin. Em ê bi îtxalkirina pirtûkxane û danûstendinên pêwîst dest pê bikin.

Dûv re em ê hin analîzên daneya keşfê bikin da ku diyar bikin ka di daneyan de nimûne hene. Dûv re, em ê pêşdibistanên nivîsê bikin da ku daneyên jimareyî yên têketina nivîsê veguherînin ku a fêrbûna makîneyê sîstem dikare bikar bîne.

Di dawiyê de, em ê modelên analîza hestiyariya xwe bi karanîna rêbazên fêrbûna makîneyê perwerde bikin û binirxînin.

1. Pirtûkxaneyên Import

Pirtûkxaneyên pêwîst barkirin.

Importing Pirtûkxane

2. Dataset Import

Ev gotar dê li ser bingeha danûstendinek ku dikare li ser were dîtin pêk were Github. Danûstendin dê bi karanîna fonksiyona CSV ya xwendinê ya Pandas ve were şandin, wekî ku li jêr tê dîtin:

Importing Dataset

Bi karanîna fonksiyona head() re, pênc rêzên pêşîn ên daneyê bikolin:

Serî Dataset

Karûabr:

Derketina Daneyên Serê

3. Analîz Daneyên

Ka em daneyan lêkolîn bikin da ku diyar bikin ka meyl hene yan na. Lê pêşî, em ê mezinahiya nexşeya xwerû biguhezînin da ku nexşeyan diyartir bikin.

Eyarkirina Plot Size

Ka em bi hejmara tweetên ku ji hêla her firokexaneyê ve hatine wergirtin dest pê bikin. Em ê ji bo vê nexşeyek pie bikar bînin:

Chart Pie

Rêjeya tweetên giştî ji bo her firokexaneyê di encam de tê xuyang kirin.

Pie Chart Output

Ka em binihêrin ka hest çawa li ser hemî tweetan têne belav kirin.

Chart Pie Semantic

Karûabr:

Derketina Chart Pie Semantic

Ka em naha dabeşkirina hestê ji bo her balafirgehek taybetî lêkolîn bikin.

Li gorî encaman, piraniya tweetan ji bo hema hema hemî firokexaneyên nebaş in, bi tweetên bêalî û baş li pey têne. Virgin America belkî tenê firokexaneya ku rêjeya sê hestan tê de hevber e.

Belavkirina Her Airline

Karûabr:

Belavkirina Her Output Airline

Di dawiyê de, em ê pirtûkxaneya Seaborn bikar bînin da ku asta pêbaweriya navîn ji bo tweetên ji sê kategoriyên hestyarî bistînin.

Bar Plot

Karûabr:

Bar Plot Output

Encam nîşan dide ku asta pêbaweriya tweetên neyînî ji tweetên erênî an bêalî mezintir e.

4. Paqijkirina daneyan

Gelek peyvên zargotinê û xalbendî di tweetan de têne dîtin. Berî ku em modela fêrbûna makîneyê perwerde bikin, pêdivî ye ku em tweetên xwe paqij bikin.

Lêbelê, berî ku em dest bi paqijkirina tweet-an bikin, divê em databasa xwe li komên taybetmendî û etîketê veqetînin.

Taybetmendî Û Nîşan

Gava ku me ew di nav taybetmendî û komên perwerdehiyê de veqetandin, em dikarin daneyan paqij bikin. Ji bo vê yekê dê bêjeyên birêkûpêk werin bikar anîn.

Vegotina Rêkûpêk

5. Nûnertiya Jimarî ya Nivîsê

Ji bo perwerdekirina modelên fêrbûna makîneyê, algorîtmayên îstatîstîkî matematîkê bikar tînin. Matematîk, ji hêla din ve, tenê bi hejmaran re dixebite.

Ji bo ku algorîtmayên îstatîstîkî pê re mijûl bibin divê em pêşî nivîsê veguherînin jimareyan. Sê awayên bingehîn ên vê yekê hene: Bag of Words, TF-IDF, û Word2Vec.

Xwezî, çîna TfidfVectorizer di modula Scikit-Learn ya Python de dikare were bikar anîn da ku taybetmendiyên nivîsê veguherîne vektorên taybetmendiya TF-IDF.

TF IDF

6. Afirandina Daneyên Perwerdehiyê û Komên Testê

Di dawiyê de, divê em berî ku algorîtmayên xwe perwerde bikin, daneyên xwe li komên perwerdehî û ceribandinê dabeş bikin.

Koma perwerdehiyê dê ji bo perwerdekirina algorîtmê were bikar anîn, û koma testê dê ji bo nirxandina performansa modela fêrbûna makîneyê were bikar anîn.

Testa Trênê

7. Pêşveçûna Modelê

Piştî ku dane di nav komên perwerdehî û ceribandinê de têne veqetandin, teknîkên fêrbûna makîneyê têne bikar anîn da ku ji daneyên perwerdehiyê fêr bibin.

Hûn dikarin her algorîtmaya fêrbûna makîneyê bikar bînin. Lêbelê, nêzîkatiya Daristana Random, dê ji ber kapasîteya wê ya ku bi daneyên ne-normalîzekirî re mijûl bibe were bikar anîn.

Perwerdehiya Modelê

8. Pêşbîniyên û Nirxandina Model

Piştî ku model hat perwerde kirin, qonaxa dawîn çêkirina pêşbîniyan e. Ji bo kirina vê yekê, divê em rêbaza pêşbînîkirinê li cîhê pola RandomForestClassifier ku me perwerde kiriye bicîh bikin.

Pêşbîniya Modelê

Di dawiyê de, tedbîrên dabeşkirinê yên wekî metrîkên tevliheviyê, tedbîrên F1, rastbûn, û hwd dikarin werin bikar anîn da ku performansa modelên fêrbûna makîneyê binirxînin.

Classification Metrics

Karûabr:

Classification Metrics Output

Wekî ku ji hêla encaman ve tê dîtin, algorîtmaya me rastiyek 75.30 bi dest xist.

Xelasî

Analîziya hestyarî yek ji karên NLP-ê yên herî pir caran ye ji ber ku ew alîkariya naskirina raya giştî ya giştî li ser mijarek taybetî dike.

Me dît ku çend pirtûkxaneyên Python çawa dikarin bi analîzkirina hestê re bibin alîkar.

Me lêkolînek li ser tweetên giştî li ser şeş xetên hewayî yên Dewletên Yekbûyî kir û gihîştiye rastiyek bi qasî 75%.

Ez ê pêşniyar bikim ku hûn algorîtmayek fêrbûna makîneyê ya din biceribînin, wekî regresyona lojîstîkî, SVM, an KNN, da ku bibînin ka hûn dikarin encamên çêtir bi dest bixin.

Analîza Hestiyariya NLP bi karanîna Python

Analîzkirina hestê çi ye?

Feydeyên Analîza Hestiyê

Analîziya Hestê - Daxuyaniya Pirsgirêkê