Մինչև 2021 թվականը ձեռնարկությունները կյուրացնեն սպառողների փոխազդեցության տվյալների ձեռքբերումը։
Մյուս կողմից, այս տվյալների կետերի վրա չափազանց մեծ կախվածությունը հաճախ հանգեցնում է նրան, որ կազմակերպությունները հաճախորդների ներածությունը համարում են վիճակագրություն՝ հաճախորդի ձայնը լսելու բավականին միաչափ մոտեցում:
Հաճախորդի ձայնը չի կարող նշանակվել կամ վերածվել թվի:
Այն պետք է կարդալ, խտացնել և, առաջին հերթին, ըմբռնել։
Փաստն այն է, որ ընկերությունները պետք է ակտիվորեն լսեն, թե ինչ պետք է ասեն իրենց սպառողները յուրաքանչյուր ալիքի վրա, որի միջոցով նրանք շփվում են նրանց հետ, լինի դա հեռախոսազանգերի, էլ. նամակների կամ ուղիղ զրույցի միջոցով:
Յուրաքանչյուր ընկերություն պետք է առաջնահերթություն դնի սպառողների հետադարձ կապի տրամադրման մոնիտորինգին և գնահատմանը, սակայն ընկերությունները ավանդաբար պայքարում են այս տվյալները մշակելու և դրանք իմաստալից հետախուզության վերածելու համար:
Սա այլևս չի կարելի ասել Սենտիմենտի վերլուծության դեպքում:
Այս ձեռնարկում մենք ավելի մանրամասն կանդրադառնանք տրամադրությունների վերլուծությանը, դրա առավելություններին և ինչպես օգտագործել NLTK գրադարան՝ տվյալների վրա տրամադրությունների վերլուծություն կատարելու համար:
Ի՞նչ է զգացմունքների վերլուծությունը:
Զգացմունքների վերլուծությունը, որը հաճախ հայտնի է որպես խոսակցությունների մայնինգ, մարդկանց զգացմունքների, մտքերի և հայացքների վերլուծության մեթոդ է:
Զգացմունքների վերլուծությունը թույլ է տալիս ձեռնարկություններին ավելի լավ պատկերացում կազմել իրենց սպառողների մասին, ավելացնել եկամուտը և բարելավել իրենց ապրանքներն ու ծառայությունները՝ հիմնվելով հաճախորդների տվյալների վրա:
Հաճախորդի տրամադրությունները վերլուծելու ունակ ծրագրային համակարգի և վաճառողի/հաճախորդների սպասարկման ներկայացուցչի միջև տարբերությունը, որը փորձում է եզրակացնել, որ առաջինը հում տեքստից օբյեկտիվ արդյունքներ ստանալն է. սա հիմնականում իրականացվում է բնական լեզվի մշակման (NLP) միջոցով և Machine Learning տեխնիկան:
Զգացմունքների նույնականացումից մինչև տեքստի դասակարգում, զգացմունքների վերլուծությունը կիրառությունների լայն շրջանակ ունի: Մենք կիրառում ենք տրամադրությունների վերլուծություն տեքստային տվյալների վրա՝ օգնելու ընկերությանը վերահսկել արտադրանքի գնահատման տրամադրությունները կամ սպառողների կարծիքը:
Տարբեր սոցիալական մեդիա կայքեր այն օգտագործում են՝ գնահատելու գրառումների տրամադրությունը, և եթե զգացմունքները չափազանց ուժեղ են կամ բռնի, կամ ընկնում են դրանց շեմից ցածր, գրառումը կա՛մ ջնջվում է, կա՛մ թաքցվում:
Զգացմունքների վերլուծությունը կարող է օգտագործվել ամեն ինչի համար՝ զգացմունքների նույնականացումից մինչև տեքստի դասակարգում:
Զգացմունքների վերլուծության ամենատարածված օգտագործումը տեքստային տվյալների վրա է, որտեղ այն օգտագործվում է ընկերությանը օգնելու համար հետևել արտադրանքի գնահատման կամ սպառողների մեկնաբանությունների տրամադրությանը:
Տարբեր սոցիալական մեդիա կայքեր նաև օգտագործում են այն՝ գնահատելու հրապարակումների տրամադրությունը, և եթե զգացմունքները չափազանց ուժեղ են կամ բռնի, կամ ընկնում են իրենց շեմից ցածր, նրանք ջնջում կամ թաքցնում են գրառումը:
Զգացմունքների վերլուծության առավելությունները
Ստորև բերված են տրամադրությունների վերլուծության ամենակարևոր առավելությունները, որոնք չպետք է անտեսվեն:
- Օգնեք գնահատել ձեր ապրանքանիշի ընկալումը ձեր թիրախային ժողովրդագրության մեջ:
- Հաճախորդների անմիջական արձագանքները տրամադրվում են՝ օգնելու ձեզ զարգացնել ձեր արտադրանքը:
- Բարձրացնում է վաճառքի եկամուտը և հետախուզումը:
- Աճել են ձեր արտադրանքի չեմպիոնների վաճառքի հնարավորությունները:
- Հաճախորդների ակտիվ սպասարկումը գործնական տարբերակ է:
Համարները կարող են ձեզ տրամադրել այնպիսի տեղեկատվություն, ինչպիսին է մարքեթինգային արշավի չմշակված կատարողականը, հետախուզման զանգի մեջ ներգրավվածության չափը և հաճախորդների սպասարկման սպասվող տոմսերի քանակը:
Այնուամենայնիվ, այն ձեզ չի ասի, թե ինչու է տեղի ունեցել կոնկրետ իրադարձություն կամ ինչն է այն առաջացրել: Վերլուծության գործիքները, ինչպիսիք են Google-ը և Facebook-ը, օրինակ, կարող են օգնել ձեզ գնահատել ձեր մարքեթինգային ջանքերի արդյունավետությունը:
Բայց նրանք ձեզ չեն տալիս խորը գիտելիքներ, թե ինչու էր այդ կոնկրետ քարոզարշավը հաջողված:
Զգացմունքների վերլուծությունը այս առումով խաղի փոփոխության ներուժ ունի:
Զգացմունքների վերլուծություն - խնդրի հայտարարություն
Նպատակն է պարզել, թե արդյոք թվիթը ունի բարենպաստ, բացասական կամ չեզոք զգացմունքներ ԱՄՆ վեց ավիաընկերությունների վերաբերյալ թվիթերի հիման վրա:
Սա ստանդարտ վերահսկվող ուսումնական աշխատանք է, որտեղ մենք պետք է դասակարգենք տեքստային տողը նախապես որոշված կատեգորիաների՝ տրված տեքստային տողի համար:
լուծում
Այս խնդիրը լուծելու համար մենք կօգտագործենք մեքենայական ուսուցման ստանդարտ գործընթացը: Մենք կսկսենք ներմուծել անհրաժեշտ գրադարաններն ու տվյալների հավաքածուները:
Այնուհետև մենք կիրականացնենք որոշ հետախուզական տվյալների վերլուծություն՝ որոշելու, թե արդյոք տվյալների մեջ կան որևէ օրինաչափություն: Դրանից հետո մենք կիրականացնենք տեքստի նախնական մշակում՝ տեքստային մուտքագրման թվային տվյալները վերածելու համար, որոնք ա Machine Learning համակարգը կարող է օգտագործել:
Վերջապես, մենք կսովորեցնենք և կգնահատենք մեր տրամադրությունների վերլուծության մոդելները՝ օգտագործելով մեքենայական ուսուցման մեթոդները:
1. Գրադարանների ներմուծում
Բեռնել անհրաժեշտ գրադարանները:
2. Ներմուծեք տվյալների հավաքածու
Այս հոդվածը հիմնված կլինի տվյալների բազայի վրա, որը կարելի է գտնել Github. Տվյալների հավաքածուն կներմուծվի՝ օգտագործելով Pandas-ի կարդալու CSV ֆունկցիան, ինչպես երևում է ստորև.
Օգտագործելով head() ֆունկցիան՝ ուսումնասիրեք տվյալների հավաքածուի առաջին հինգ տողերը.
Արդյունք:
3. Տվյալների վերլուծություն
Եկեք ուսումնասիրենք տվյալները՝ պարզելու, թե արդյոք կան միտումներ: Բայց նախ, մենք կփոխենք լռելյայն սյուժեի չափը՝ գծապատկերներն ավելի տեսանելի դարձնելու համար:
Եկեք սկսենք յուրաքանչյուր ավիաընկերության կողմից ստացված թվիթերի քանակից: Դրա համար մենք կօգտագործենք կարկանդակ աղյուսակ.
Յուրաքանչյուր ավիաընկերության հրապարակային թվիթերի տոկոսը ցուցադրվում է արդյունքում:
Եկեք նայենք, թե ինչպես են զգացմունքները բաշխվում բոլոր թվիթերում:
Արդյունք:
Եկեք այժմ ուսումնասիրենք տրամադրությունների բաշխումը յուրաքանչյուր կոնկրետ ավիաընկերության համար:
Արդյունքների համաձայն, գրեթե բոլոր ավիաընկերությունների թվիթների մեծ մասը անբարենպաստ է, հետևում են չեզոք և լավ թվիթներ: Virgin America-ն թերևս միակ ավիաընկերությունն է, որտեղ երեք զգացմունքների համամասնությունը համեմատելի է:
Արդյունք:
Վերջապես, մենք կօգտագործենք Seaborn գրադարանը՝ երեք տրամադրությունների կատեգորիաներից թվիթերի միջին վստահության մակարդակը ստանալու համար:
Արդյունք:
Արդյունքը ցույց է տալիս, որ բացասական թվիթների վստահության մակարդակն ավելի մեծ է, քան դրական կամ չեզոք թվիթերի համար:
4. Տվյալների մաքրում
Շատ ժարգոնային տերմիններ և կետադրական նշաններ կարելի է գտնել թվիթերում: Նախքան մեքենայական ուսուցման մոդելը վարժեցնելը, մենք պետք է մաքրենք մեր թվիթերը:
Այնուամենայնիվ, նախքան թվիթերի մաքրումը սկսելը, մենք պետք է բաժանենք մեր տվյալների հավաքածուն՝ ըստ հատկանիշների և պիտակների հավաքածուների:
Մենք կարող ենք մաքրել տվյալները, երբ դրանք առանձնացնենք գործառույթների և ուսուցման խմբերի: Դա անելու համար կօգտագործվեն կանոնավոր արտահայտություններ:
5. Տեքստի թվային ներկայացում
Մեքենայի ուսուցման մոդելներ պատրաստելու համար վիճակագրական ալգորիթմներն օգտագործում են մաթեմատիկա: Մյուս կողմից, մաթեմատիկան աշխատում է միայն թվերի հետ:
Մենք նախ պետք է տեքստը վերածենք թվերի, որպեսզի վիճակագրական ալգորիթմները զբաղվեն դրանով: Դա անելու երեք հիմնական եղանակ կա՝ Բառերի տոպրակ, TF-IDF և Word2Vec:
Բարեբախտաբար, Python-ի Scikit-Learn մոդուլի TfidfVectorizer դասը կարող է օգտագործվել տեքստային հատկանիշները TF-IDF հատկանիշի վեկտորների փոխակերպելու համար։
6. Տվյալների վրա հիմնված ուսուցման և թեստային հավաքածուների ստեղծում
Ի վերջո, մենք պետք է մեր տվյալները բաժանենք վերապատրաստման և փորձարկման խմբերի, նախքան մեր ալգորիթմները վարժեցնելը:
Ուսուցման հավաքածուն կօգտագործվի ալգորիթմը վարժեցնելու համար, իսկ թեստային հավաքածուն՝ մեքենայական ուսուցման մոդելի աշխատանքը գնահատելու համար:
7. Մոդելի մշակում
Տվյալները վերապատրաստման և փորձարկման խմբերի բաժանվելուց հետո մեքենայական ուսուցման տեխնիկան օգտագործվում է վերապատրաստման տվյալներից սովորելու համար:
Դուք կարող եք օգտագործել ցանկացած մեքենայական ուսուցման ալգորիթմ: Այնուամենայնիվ, Random Forest-ի մոտեցումը կկիրառվի չնորմալացված տվյալների հետ հաղթահարելու ունակության պատճառով:
8. Կանխատեսումներ և մոդելի գնահատում
Մոդելի վերապատրաստումից հետո վերջնական փուլը կանխատեսումներ անելն է: Դա անելու համար մենք պետք է կիրառենք կանխատեսման մեթոդը RandomForestClassifier դասի օբյեկտի վրա, որը մենք վարժեցրել ենք:
Վերջապես, դասակարգման միջոցները, ինչպիսիք են շփոթության չափումները, F1 չափումները, ճշգրտությունը և այլն, կարող են օգտագործվել մեքենայական ուսուցման մոդելների կատարողականությունը գնահատելու համար:
Արդյունք:
Մեր ալգորիթմը հասել է 75.30 ճշգրտության, ինչպես երևում է արդյունքներից:
Եզրափակում
Զգացմունքների վերլուծությունը NLP-ի ամենահաճախ հանդիպող աշխատանքներից մեկն է, քանի որ այն օգնում է բացահայտել ընդհանուր հասարակական կարծիքը կոնկրետ խնդրի վերաբերյալ:
Մենք տեսանք, թե ինչպես Python-ի մի քանի գրադարաններ կարող են օգնել տրամադրությունների վերլուծությանը:
Մենք ԱՄՆ վեց ավիաընկերությունների մասին հրապարակային թվիթերի ուսումնասիրություն ենք անցկացրել և հասել ենք մոտավորապես 75% ճշգրտության։
Ես կառաջարկեի փորձել մեքենայական ուսուցման մեկ այլ ալգորիթմ, ինչպիսին է լոգիստիկ ռեգրեսիան, SVM-ը կամ KNN-ը, որպեսզի տեսնեք, թե արդյոք կարող եք ավելի լավ արդյունքների հասնել:
Թողնել գրառում