Table of Contents[Veşartin][Rêdan]
Karsaz dê heya sala 2021-ê bi destxistina daneyên danûstendina xerîdar serwer bibin.
Ji hêla din ve, pêbaweriya zêde li ser van nuqteyên daneyê, bi gelemperî rê dide ku rêxistinan têketina xerîdar wekî statîstîkek binirxînin - nêzîkatiyek pir yekalî ji bo guhdarîkirina dengê xerîdar.
Dengê xerîdar nayê binavkirin an veguheztina hejmarê.
Pêdivî ye ku ew were xwendin, komkirin û, berî her tiştî, were fam kirin.
Rastî ev e ku pargîdan pêdivî ye ku bi rengek çalak guh bidin ka xerîdarên wan li ser her kanalek ku ew bi wan re têkilî daynin, çi bi têlefonê, e-nameyê, an danûstendina zindî be, çi dibêjin.
Pêdivî ye ku her pargîdanî pêşî li çavdêrîkirin û nirxandina hestiyariya berteka xerîdar bigire, lê pargîdan bi kevneşopî têdikoşin ku van daneyan bi rê ve bibin û wê veguherînin îstîxbarata watedar.
Ev yek êdî bi Analîza Hestiyê re derbas nabe.
Di vê dersê de, em ê ji nêz ve li analîza hestê, avantajên wê, û çawaniya karanîna NLTK pirtûkxane ku li ser daneyan analîza hestan dike.
Analîzkirina hestê çi ye?
Analîzkirina hestê, ku bi gelemperî wekî mêtingeriya axaftinê tê zanîn, rêbazek ji bo analîzkirina hest, raman û dîtinên mirovan e.
Analîzkirina hestê dihêle ku karsazî ji xerîdarên xwe çêtir têgihiştinek bidest bixin, dahatê zêde bikin, û hilber û karûbarên xwe li ser bingeha têketina xerîdar zêde bikin.
Cûdahiya di navbera pergalek nermalavê de ku bikaribe hestê xerîdar analîz bike û nûnerê firoşkar / karûbarê xerîdar ku hewl dide wê derxîne de jêhatîbûna paşîn e ku encamên objektîf ji nivîsa xav derxîne - ev di serî de bi navgîniya pêvajoyek zimanê xwezayî (NLP) pêk tê û fêrbûna makîneyê teknîkî
Ji nasnameya hestê bigire heya kategorîzekirina nivîsê, analîza hestyarî xwedan cûrbecûr serlêdanan e. Em analîza hestê li ser daneyên nivîsê bi kar tînin da ku ji pargîdaniyek re bibin alîkar ku hesta nirxandinên hilberê an bertekên xerîdar bişopîne.
Malperên cihêreng ên medyaya civakî wê bikar tînin da ku hestiyariya şandinan binirxînin, û heke hest pir bi hêz an tundî be, an jî li binê sînorê wan dakeve, post an tê jêbirin an jî veşartî.
Analîzkirina hestê dikare ji bo her tiştî ji nasnameya hestê bigire heya kategorîzekirina nivîsê were bikar anîn.
Bikaranîna herî populer a analîza hestê li ser daneyên nivîsê ye, ku ew ji bo arîkariya pargîdaniyek di şopandina hesta nirxandinên hilberê an şîroveyên xerîdar de tê bikar anîn.
Malperên cihêreng ên medyaya civakî jî wê bikar tînin da ku hestiyariya şandinan binirxînin, û heke hest pir bi hêz an tundûtûj be, an jî di binê sînorê wan de be, ew postê jêbirin an veşêrin.
Feydeyên Analîza Hestiyê
Li jêr hin feydeyên herî girîng ên analîza hestê hene ku divê neyên paşguh kirin.
- Di nirxandina têgihîştina marqeya xwe de di nav demografya hedefa we de bibin alîkar.
- Bersiva rasterast a xerîdar tê peyda kirin ku ji we re bibe alîkar ku hûn hilbera xwe pêşve bibin.
- Dahata firotanê û lêgerînê zêde dike.
- Derfetên firotanê yên ji bo şampiyonên hilberê we zêde bûne.
- Karûbarê xerîdar a proaktîf vebijarkek pratîkî ye.
Hêjmar dikarin agahdariya mîna performansa xav a kampanyayek kirrûbirrê, hêjmara tevlêbûna bangek lêgerînê, û hejmara bilêtên ku di piştgiriya xerîdar de li bendê ne, ji we re peyda bikin.
Lêbelê, ew ê ji we re nebêje ka çima bûyerek taybetî qewimî an sedema wê çi bû. Mînakî, amûrên Analytics ên mîna Google û Facebook, dikarin ji we re bibin alîkar ku hûn performansa hewildanên kirrûbirra xwe binirxînin.
Lê ew ji we re zanînek kûr peyda nakin ka çima ew kampanyaya taybetî serketî bû.
Analîza Hestê di vî warî de xwedan potansiyela lîstokê ye.
Analîziya Hestê - Daxuyaniya Pirsgirêkê
Armanc ev e ku were destnîşankirin ka tweetek li ser bingeha tweetan di derheqê şeş firokeyên Dewletên Yekbûyî de hestek erênî, neyînî an bêalî heye.
Ev karekî fêrbûna çavdêrîkirî ya standard e ku tê de divê em rêzika nivîsê li kategoriyên pêşwextkirî yên ku rêzek nivîsê dane kategorîze bikin.
Çare
Em ê pêvajoya fêrbûna makîneya standard bikar bînin ku vê pirsgirêkê çareser bikin. Em ê bi îtxalkirina pirtûkxane û danûstendinên pêwîst dest pê bikin.
Dûv re em ê hin analîzên daneya keşfê bikin da ku diyar bikin ka di daneyan de nimûne hene. Dûv re, em ê pêşdibistanên nivîsê bikin da ku daneyên jimareyî yên têketina nivîsê veguherînin ku a fêrbûna makîneyê sîstem dikare bikar bîne.
Di dawiyê de, em ê modelên analîza hestiyariya xwe bi karanîna rêbazên fêrbûna makîneyê perwerde bikin û binirxînin.
1. Pirtûkxaneyên Import
Pirtûkxaneyên pêwîst barkirin.
2. Dataset Import
Ev gotar dê li ser bingeha danûstendinek ku dikare li ser were dîtin pêk were Github. Danûstendin dê bi karanîna fonksiyona CSV ya xwendinê ya Pandas ve were şandin, wekî ku li jêr tê dîtin:
Bi karanîna fonksiyona head() re, pênc rêzên pêşîn ên daneyê bikolin:
Karûabr:
3. Analîz Daneyên
Ka em daneyan lêkolîn bikin da ku diyar bikin ka meyl hene yan na. Lê pêşî, em ê mezinahiya nexşeya xwerû biguhezînin da ku nexşeyan diyartir bikin.
Ka em bi hejmara tweetên ku ji hêla her firokexaneyê ve hatine wergirtin dest pê bikin. Em ê ji bo vê nexşeyek pie bikar bînin:
Rêjeya tweetên giştî ji bo her firokexaneyê di encam de tê xuyang kirin.
Ka em binihêrin ka hest çawa li ser hemî tweetan têne belav kirin.
Karûabr:
Ka em naha dabeşkirina hestê ji bo her balafirgehek taybetî lêkolîn bikin.
Li gorî encaman, piraniya tweetan ji bo hema hema hemî firokexaneyên nebaş in, bi tweetên bêalî û baş li pey têne. Virgin America belkî tenê firokexaneya ku rêjeya sê hestan tê de hevber e.
Karûabr:
Di dawiyê de, em ê pirtûkxaneya Seaborn bikar bînin da ku asta pêbaweriya navîn ji bo tweetên ji sê kategoriyên hestyarî bistînin.
Karûabr:
Encam nîşan dide ku asta pêbaweriya tweetên neyînî ji tweetên erênî an bêalî mezintir e.
4. Paqijkirina daneyan
Gelek peyvên zargotinê û xalbendî di tweetan de têne dîtin. Berî ku em modela fêrbûna makîneyê perwerde bikin, pêdivî ye ku em tweetên xwe paqij bikin.
Lêbelê, berî ku em dest bi paqijkirina tweet-an bikin, divê em databasa xwe li komên taybetmendî û etîketê veqetînin.
Gava ku me ew di nav taybetmendî û komên perwerdehiyê de veqetandin, em dikarin daneyan paqij bikin. Ji bo vê yekê dê bêjeyên birêkûpêk werin bikar anîn.
5. Nûnertiya Jimarî ya Nivîsê
Ji bo perwerdekirina modelên fêrbûna makîneyê, algorîtmayên îstatîstîkî matematîkê bikar tînin. Matematîk, ji hêla din ve, tenê bi hejmaran re dixebite.
Ji bo ku algorîtmayên îstatîstîkî pê re mijûl bibin divê em pêşî nivîsê veguherînin jimareyan. Sê awayên bingehîn ên vê yekê hene: Bag of Words, TF-IDF, û Word2Vec.
Xwezî, çîna TfidfVectorizer di modula Scikit-Learn ya Python de dikare were bikar anîn da ku taybetmendiyên nivîsê veguherîne vektorên taybetmendiya TF-IDF.
6. Afirandina Daneyên Perwerdehiyê û Komên Testê
Di dawiyê de, divê em berî ku algorîtmayên xwe perwerde bikin, daneyên xwe li komên perwerdehî û ceribandinê dabeş bikin.
Koma perwerdehiyê dê ji bo perwerdekirina algorîtmê were bikar anîn, û koma testê dê ji bo nirxandina performansa modela fêrbûna makîneyê were bikar anîn.
7. Pêşveçûna Modelê
Piştî ku dane di nav komên perwerdehî û ceribandinê de têne veqetandin, teknîkên fêrbûna makîneyê têne bikar anîn da ku ji daneyên perwerdehiyê fêr bibin.
Hûn dikarin her algorîtmaya fêrbûna makîneyê bikar bînin. Lêbelê, nêzîkatiya Daristana Random, dê ji ber kapasîteya wê ya ku bi daneyên ne-normalîzekirî re mijûl bibe were bikar anîn.
8. Pêşbîniyên û Nirxandina Model
Piştî ku model hat perwerde kirin, qonaxa dawîn çêkirina pêşbîniyan e. Ji bo kirina vê yekê, divê em rêbaza pêşbînîkirinê li cîhê pola RandomForestClassifier ku me perwerde kiriye bicîh bikin.
Di dawiyê de, tedbîrên dabeşkirinê yên wekî metrîkên tevliheviyê, tedbîrên F1, rastbûn, û hwd dikarin werin bikar anîn da ku performansa modelên fêrbûna makîneyê binirxînin.
Karûabr:
Wekî ku ji hêla encaman ve tê dîtin, algorîtmaya me rastiyek 75.30 bi dest xist.
Xelasî
Analîziya hestyarî yek ji karên NLP-ê yên herî pir caran ye ji ber ku ew alîkariya naskirina raya giştî ya giştî li ser mijarek taybetî dike.
Me dît ku çend pirtûkxaneyên Python çawa dikarin bi analîzkirina hestê re bibin alîkar.
Me lêkolînek li ser tweetên giştî li ser şeş xetên hewayî yên Dewletên Yekbûyî kir û gihîştiye rastiyek bi qasî 75%.
Ez ê pêşniyar bikim ku hûn algorîtmayek fêrbûna makîneyê ya din biceribînin, wekî regresyona lojîstîkî, SVM, an KNN, da ku bibînin ka hûn dikarin encamên çêtir bi dest bixin.
Leave a Reply