Bidh gnìomhachasan air maighstireachd fhaighinn air dàta eadar-obrachadh luchd-cleachdaidh fhaighinn ro 2021.
Air an làimh eile, bidh cus earbsa anns na puingean dàta sin gu tric a’ leantainn gu buidhnean a’ làimhseachadh cuir a-steach teachdaiche mar staitistig - dòigh caran aon-thaobhach airson èisteachd ri guth an neach-ceannach.
Chan urrainnear guth an neach-ceannach a bhràisteadh no atharrachadh gu àireamh.
Feumaidh e a bhith air a leughadh, air a dhlùthadh, agus, os cionn a h-uile càil, air a thuigsinn.
Is e an fhìrinn gum feum companaidhean èisteachd gu gnìomhach ris na tha aig an luchd-cleachdaidh aca ri ràdh air a h-uile seanal tron bheil iad ag eadar-obrachadh leotha, ge bith an ann tro fhiosan fòn, puist-d no cabadaich bheò.
Bu chòir do gach companaidh prìomhachas a thoirt do sgrùdadh agus measadh faireachdainn fios air ais bho luchd-cleachdaidh, ach gu traidiseanta tha companaidhean air a bhith a’ strì gus an dàta seo a làimhseachadh agus a thionndadh gu fiosrachadh brìoghmhor.
Chan eil seo fìor tuilleadh le Mion-sgrùdadh Mothachadh.
San oideachadh seo, bheir sinn sùil nas mionaidiche air mion-sgrùdadh faireachdainn, na buannachdan a th’ ann, agus mar a chleachdas tu am faidhle NLTK leabharlann gus mion-sgrùdadh faireachdainn a dhèanamh air dàta.
Dè a th’ ann an mion-sgrùdadh faireachdainn?
Tha mion-sgrùdadh faireachdainn, ris an canar gu tric mèinneadh còmhraidh, na dhòigh air mion-sgrùdadh a dhèanamh air faireachdainnean, smuaintean agus beachdan dhaoine.
Tha mion-sgrùdadh faireachdainn a’ leigeil le gnìomhachasan tuigse nas fheàrr fhaighinn air an luchd-cleachdaidh aca, teachd-a-steach àrdachadh, agus na toraidhean agus na seirbheisean aca adhartachadh stèidhichte air cuir a-steach teachdaichean.
Is e an eadar-dhealachadh eadar siostam bathar-bog a tha comasach air faireachdainn teachdaiche a mhion-sgrùdadh agus neach-reic / riochdaire seirbheis teachdaiche a tha a’ feuchainn ri faighinn a-mach an comas dìreach a th’ aig a’ chiad fhear toraidhean amas fhaighinn bhon teacsa amh - tha seo gu sònraichte air a choileanadh tro ghiollachd cànain nàdarra (NLP) agus ionnsachadh innealan dòighean-obrach.
Bho chomharrachadh faireachdainn gu seòrsachadh teacsa, tha raon farsaing de thagraidhean aig mion-sgrùdadh faireachdainn. Bidh sinn a’ cleachdadh mion-sgrùdadh faireachdainn air dàta teacsa gus companaidh a chuideachadh gus sùil a chumail air faireachdainn measaidhean toraidh no fios air ais bho luchd-cleachdaidh.
Bidh diofar làraich meadhanan sòisealta ga chleachdadh gus measadh a dhèanamh air faireachdainn postachd, agus ma tha am faireachdainn ro làidir no fòirneartach, no ma thuiteas tu fon ìre aca, thèid am post a dhubhadh às no fhalach.
Faodar mion-sgrùdadh faireachdainn a chleachdadh airson a h-uile càil bho comharrachadh faireachdainn gu seòrsachadh teacsa.
Tha an cleachdadh as mòr-chòrdte de mhion-sgrùdadh faireachdainn air dàta teacsa, far a bheil e air a chleachdadh gus companaidh a chuideachadh ann a bhith a’ cumail sùil air faireachdainn measaidhean toraidh no beachdan luchd-cleachdaidh.
Bidh diofar làraich meadhanan sòisealta cuideachd ga chleachdadh gus measadh a dhèanamh air faireachdainn postachd, agus ma tha am faireachdainn ro làidir no fòirneartach, no ma thuiteas iad fon ìre aca, bidh iad a’ sguabadh às no a’ falach am post.
Buannachdan Mion-sgrùdadh Mothachadh
Is iad na leanas cuid de na buannachdan as cudromaiche bho mhion-sgrùdadh faireachdainn nach bu chòir a bhith air an dì-meas.
- Cuidich le bhith a’ measadh tuigse do bhrand am measg an deamografach targaid agad.
- Tha fios air ais dìreach bho luchd-cleachdaidh air a thoirt seachad gus do chuideachadh le bhith a’ leasachadh an toraidh agad.
- A’ meudachadh teachd-a-steach reic agus lorg.
- Tha cothroman upsell airson curaidhean an toraidh agad air a dhol suas.
- Tha seirbheis teachdaiche for-ghnìomhach na roghainn practaigeach.
Faodaidh àireamhan fiosrachadh a thoirt dhut leithid coileanadh amh iomairt margaidheachd, an ìre de dhol an sàs ann an gairm seallaidh, agus an àireamh de thiocaidean a tha a’ feitheamh ri taic teachdaiche.
Ach, chan innis e dhut carson a thachair tachartas sònraichte no dè a dh'adhbhraich e. Faodaidh innealan anailis leithid Google agus Facebook, mar eisimpleir, do chuideachadh gus coileanadh nan oidhirpean margaidheachd agad a mheasadh.
Ach chan eil iad a’ toirt dhut eòlas domhainn air carson a bha an iomairt shònraichte sin soirbheachail.
Tha comas aig Mion-sgrùdadh Mothachadh a bhith ag atharrachadh geama a thaobh seo.
Mion-sgrùdadh Sentiment - Aithris duilgheadas
Is e an t-amas faighinn a-mach a bheil faireachdainn fàbharach, àicheil no neodrach aig tweet a thaobh sia companaidhean-adhair na SA stèidhichte air tweets.
Is e obair ionnsachaidh àbhaisteach fo stiùir a tha seo anns am feum sinn sreang teacsa a sheòrsachadh ann an roinnean ro-shuidhichte le sreang teacsa.
Solution
Cleachdaidh sinn am pròiseas ionnsachaidh inneal àbhaisteach gus dèiligeadh ris an duilgheadas seo. Tòisichidh sinn le bhith a’ toirt a-steach na leabharlannan agus na stòran-dàta riatanach.
An uairsin nì sinn mion-sgrùdadh dàta rannsachail gus faighinn a-mach a bheil pàtrain sam bith san dàta. Às deidh sin, nì sinn ro-phròiseasadh teacsa gus dàta àireamhach cuir a-steach teacsa a thionndadh a tha a ionnsachadh innealan faodar an siostam a chleachdadh.
Mu dheireadh, bidh sinn a’ trèanadh agus a’ luachadh ar modalan mion-sgrùdadh faireachdainn a’ cleachdadh dòighean ionnsachaidh inneal.
1. Leabharlainn a thoirt a-steach
Luchdaich a-nuas an leabharlann riatanach.
2. Import Dataset
Bidh an artaigil seo stèidhichte air stòr-dàta a gheibhear air GitHub. Thèid an dàta a thoirt a-steach a’ cleachdadh gnìomh CSV leughaidh Pandas, mar a chithear gu h-ìosal:
A’ cleachdadh a’ ghnìomh ceann (), dèan sgrùdadh air a’ chiad còig sreathan den t-seata:
Toraidhean:
3. Mion-sgrùdadh air an Dàta
Leig dhuinn sgrùdadh a dhèanamh air an dàta gus faighinn a-mach a bheil gluasadan ann. Ach an toiseach, atharraichidh sinn meud àbhaisteach a’ phlota gus na clàran a dhèanamh nas fhaicsinniche.
Feuch an tòisich sinn leis an àireamh de thweets a fhuair gach companaidh-adhair. Cleachdaidh sinn clàr-cearcaill airson seo:
Tha an àireamh sa cheud de thweets poblach airson gach companaidh-adhair air a thaisbeanadh anns an toradh.
Bheir sinn sùil air mar a tha na faireachdainnean air an sgaoileadh thairis air na tweets gu lèir.
Toraidhean:
Leig dhuinn a-nis sgrùdadh a dhèanamh air cuairteachadh faireachdainn airson gach companaidh-adhair sònraichte.
A rèir nan toraidhean, tha a’ mhòr-chuid de thweets airson cha mhòr a h-uile companaidh-adhair mì-fhàbharach, le tweets neodrach agus math a’ leantainn. Is dòcha gur e Virgin America an aon chompanaidh-adhair far a bheil a’ chuibhreann de na trì faireachdainnean coimeasach.
Toraidhean:
Mu dheireadh, cleachdaidh sinn leabharlann Seaborn gus an ìre misneachd cuibheasach fhaighinn airson tweets bho thrì roinnean faireachdainn.
Toraidhean:
Tha an toradh a 'sealltainn gu bheil an ìre misneachd airson tweets àicheil nas àirde na airson tweets dearbhach no neodrach.
4. Glanadh an dàta
Tha mòran bhriathran slang agus comharran puingeachaidh rim faighinn ann an tweets. Mus urrainn dhuinn am modal ionnsachaidh inneal a thrèanadh, feumaidh sinn na tweets againn a ghlanadh.
Ach, mus tòisich sinn air na tweets a ghlanadh, bu chòir dhuinn an stòr-dàta againn a sgaradh gu seataichean feart agus leubail.
Is urrainn dhuinn an dàta a ghlanadh aon uair ‘s gu bheil sinn air a sgaradh gu feartan agus seataichean trèanaidh. Thèid abairtean cunbhalach a chleachdadh airson seo a dhèanamh.
5. Riochdachadh àireamhach Teacs
Gus modalan ionnsachaidh inneal a thrèanadh, bidh algorithms staitistigeil a’ cleachdadh matamataig. Tha matamataig, air an làimh eile, ag obair le àireamhan a-mhàin.
Feumaidh sinn an toiseach an teacsa atharrachadh gu àireamhan airson algoirmean staitistigeil gus dèiligeadh ris. Tha trì dòighean bunaiteach ann sin a dhèanamh: Bag of Words, TF-IDF, agus Word2Vec.
Gu fortanach, faodar an clas TfidfVectorizer ann am modal Scikit-Learn Python a chleachdadh gus feartan teacsa a thionndadh gu vectaran feart TF-IDF.
6. Cruthachadh Seataichean Trèanaidh is Deuchainn air a stiùireadh le Dàta
Mu dheireadh, feumaidh sinn ar dàta a roinn ann an seataichean trèanaidh is deuchainn mus trèanadh sinn ar n-algorithms.
Thèid an seata trèanaidh a chleachdadh gus an algairim a thrèanadh, agus thèid an seata deuchainn a chleachdadh gus coileanadh a’ mhodail ionnsachaidh inneal a mheasadh.
7. Leasachadh Modail
Às deidh an dàta a bhith air a sgaradh ann an seataichean trèanaidh is deuchainn, thathas a’ cleachdadh dòighean ionnsachaidh inneal gus ionnsachadh bhon dàta trèanaidh.
Faodaidh tu algairim ionnsachaidh inneal sam bith a chleachdadh. Thèid an dòigh-obrach Random Forest, ge-tà, a chleachdadh air sgàth cho comasach ‘s a tha e air dèiligeadh ri dàta neo-àbhaisteach.
8. Ro-innsean agus Measadh Modail
Às deidh don mhodail a bhith air a thrèanadh, is e an ìre mu dheireadh ro-innse a dhèanamh. Gus seo a dhèanamh, feumaidh sinn an dòigh ro-innse a chuir an sàs anns an nì clas RandomForestClassifier a rinn sinn trèanadh.
Mu dheireadh, faodar ceumannan seòrsachaidh leithid meatrach troimh-chèile, ceumannan F1, cruinneas, agus mar sin air adhart a chleachdadh gus coileanadh mhodalan ionnsachaidh inneal a mheasadh.
Toraidhean:
Choilean an algairim againn cruinneas de 75.30, mar a chithear leis na toraidhean.
Co-dhùnadh
Is e mion-sgrùdadh faireachdainn aon de na h-obraichean NLP as trice leis gu bheil e a’ cuideachadh le bhith a’ comharrachadh beachd poblach san fharsaingeachd air cùis shònraichte.
Chunnaic sinn mar as urrainn do ghrunn leabharlannan Python cuideachadh le mion-sgrùdadh faireachdainn.
Rinn sinn sgrùdadh air tweets poblach mu shia companaidhean-adhair na SA agus ràinig sinn cruinneas timcheall air 75%.
Mholainn dhut algairim ionnsachaidh inneal eile fheuchainn, leithid ais-tharraing loidsigeach, SVM, no KNN, gus faicinn an urrainn dhut toraidhean nas fheàrr a choileanadh.
Leave a Reply