NLP տրամադրությունների վերլուծություն Python-ի միջոցով՝ HashDork

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է զգացմունքների վերլուծությունը:
Զգացմունքների վերլուծության առավելությունները
Զգացմունքների վերլուծություն - խնդրի հայտարարություն+-
Եզրափակում

Մինչև 2021 թվականը ձեռնարկությունները կյուրացնեն սպառողների փոխազդեցության տվյալների ձեռքբերումը։

Մյուս կողմից, այս տվյալների կետերի վրա չափազանց մեծ կախվածությունը հաճախ հանգեցնում է նրան, որ կազմակերպությունները հաճախորդների ներածությունը համարում են վիճակագրություն՝ հաճախորդի ձայնը լսելու բավականին միաչափ մոտեցում:

Հաճախորդի ձայնը չի կարող նշանակվել կամ վերածվել թվի:

Այն պետք է կարդալ, խտացնել և, առաջին հերթին, ըմբռնել։

Փաստն այն է, որ ընկերությունները պետք է ակտիվորեն լսեն, թե ինչ պետք է ասեն իրենց սպառողները յուրաքանչյուր ալիքի վրա, որի միջոցով նրանք շփվում են նրանց հետ, լինի դա հեռախոսազանգերի, էլ. նամակների կամ ուղիղ զրույցի միջոցով:

Յուրաքանչյուր ընկերություն պետք է առաջնահերթություն դնի սպառողների հետադարձ կապի տրամադրման մոնիտորինգին և գնահատմանը, սակայն ընկերությունները ավանդաբար պայքարում են այս տվյալները մշակելու և դրանք իմաստալից հետախուզության վերածելու համար:

Սա այլևս չի կարելի ասել Սենտիմենտի վերլուծության դեպքում:

Այս ձեռնարկում մենք ավելի մանրամասն կանդրադառնանք տրամադրությունների վերլուծությանը, դրա առավելություններին և ինչպես օգտագործել NLTK գրադարան՝ տվյալների վրա տրամադրությունների վերլուծություն կատարելու համար:

Ի՞նչ է զգացմունքների վերլուծությունը:

Զգացմունքների վերլուծությունը, որը հաճախ հայտնի է որպես խոսակցությունների մայնինգ, մարդկանց զգացմունքների, մտքերի և հայացքների վերլուծության մեթոդ է:

Զգացմունքների վերլուծությունը թույլ է տալիս ձեռնարկություններին ավելի լավ պատկերացում կազմել իրենց սպառողների մասին, ավելացնել եկամուտը և բարելավել իրենց ապրանքներն ու ծառայությունները՝ հիմնվելով հաճախորդների տվյալների վրա:

Հաճախորդի տրամադրությունները վերլուծելու ունակ ծրագրային համակարգի և վաճառողի/հաճախորդների սպասարկման ներկայացուցչի միջև տարբերությունը, որը փորձում է եզրակացնել, որ առաջինը հում տեքստից օբյեկտիվ արդյունքներ ստանալն է. սա հիմնականում իրականացվում է բնական լեզվի մշակման (NLP) միջոցով և Machine Learning տեխնիկան:

Զգացմունքների նույնականացումից մինչև տեքստի դասակարգում, զգացմունքների վերլուծությունը կիրառությունների լայն շրջանակ ունի: Մենք կիրառում ենք տրամադրությունների վերլուծություն տեքստային տվյալների վրա՝ օգնելու ընկերությանը վերահսկել արտադրանքի գնահատման տրամադրությունները կամ սպառողների կարծիքը:

Տարբեր սոցիալական մեդիա կայքեր այն օգտագործում են՝ գնահատելու գրառումների տրամադրությունը, և եթե զգացմունքները չափազանց ուժեղ են կամ բռնի, կամ ընկնում են դրանց շեմից ցածր, գրառումը կա՛մ ջնջվում է, կա՛մ թաքցվում:

Զգացմունքների վերլուծությունը կարող է օգտագործվել ամեն ինչի համար՝ զգացմունքների նույնականացումից մինչև տեքստի դասակարգում:

Զգացմունքների վերլուծության ամենատարածված օգտագործումը տեքստային տվյալների վրա է, որտեղ այն օգտագործվում է ընկերությանը օգնելու համար հետևել արտադրանքի գնահատման կամ սպառողների մեկնաբանությունների տրամադրությանը:

Տարբեր սոցիալական մեդիա կայքեր նաև օգտագործում են այն՝ գնահատելու հրապարակումների տրամադրությունը, և եթե զգացմունքները չափազանց ուժեղ են կամ բռնի, կամ ընկնում են իրենց շեմից ցածր, նրանք ջնջում կամ թաքցնում են գրառումը:

Զգացմունքների վերլուծության առավելությունները

Ստորև բերված են տրամադրությունների վերլուծության ամենակարևոր առավելությունները, որոնք չպետք է անտեսվեն:

Օգնեք գնահատել ձեր ապրանքանիշի ընկալումը ձեր թիրախային ժողովրդագրության մեջ:
Հաճախորդների անմիջական արձագանքները տրամադրվում են՝ օգնելու ձեզ զարգացնել ձեր արտադրանքը:
Բարձրացնում է վաճառքի եկամուտը և հետախուզումը:
Աճել են ձեր արտադրանքի չեմպիոնների վաճառքի հնարավորությունները:
Հաճախորդների ակտիվ սպասարկումը գործնական տարբերակ է:

Համարները կարող են ձեզ տրամադրել այնպիսի տեղեկատվություն, ինչպիսին է մարքեթինգային արշավի չմշակված կատարողականը, հետախուզման զանգի մեջ ներգրավվածության չափը և հաճախորդների սպասարկման սպասվող տոմսերի քանակը:

Այնուամենայնիվ, այն ձեզ չի ասի, թե ինչու է տեղի ունեցել կոնկրետ իրադարձություն կամ ինչն է այն առաջացրել: Վերլուծության գործիքները, ինչպիսիք են Google-ը և Facebook-ը, օրինակ, կարող են օգնել ձեզ գնահատել ձեր մարքեթինգային ջանքերի արդյունավետությունը:

Բայց նրանք ձեզ չեն տալիս խորը գիտելիքներ, թե ինչու էր այդ կոնկրետ քարոզարշավը հաջողված:

Զգացմունքների վերլուծությունը այս առումով խաղի փոփոխության ներուժ ունի:

Զգացմունքների վերլուծություն - խնդրի հայտարարություն

Նպատակն է պարզել, թե արդյոք թվիթը ունի բարենպաստ, բացասական կամ չեզոք զգացմունքներ ԱՄՆ վեց ավիաընկերությունների վերաբերյալ թվիթերի հիման վրա:

Սա ստանդարտ վերահսկվող ուսումնական աշխատանք է, որտեղ մենք պետք է դասակարգենք տեքստային տողը նախապես որոշված կատեգորիաների՝ տրված տեքստային տողի համար:

լուծում

Այս խնդիրը լուծելու համար մենք կօգտագործենք մեքենայական ուսուցման ստանդարտ գործընթացը: Մենք կսկսենք ներմուծել անհրաժեշտ գրադարաններն ու տվյալների հավաքածուները:

Այնուհետև մենք կիրականացնենք որոշ հետախուզական տվյալների վերլուծություն՝ որոշելու, թե արդյոք տվյալների մեջ կան որևէ օրինաչափություն: Դրանից հետո մենք կիրականացնենք տեքստի նախնական մշակում՝ տեքստային մուտքագրման թվային տվյալները վերածելու համար, որոնք ա Machine Learning համակարգը կարող է օգտագործել:

Վերջապես, մենք կսովորեցնենք և կգնահատենք մեր տրամադրությունների վերլուծության մոդելները՝ օգտագործելով մեքենայական ուսուցման մեթոդները:

1. Գրադարանների ներմուծում

Բեռնել անհրաժեշտ գրադարանները:

Գրադարանների ներմուծում

2. Ներմուծեք տվյալների հավաքածու

Այս հոդվածը հիմնված կլինի տվյալների բազայի վրա, որը կարելի է գտնել Github. Տվյալների հավաքածուն կներմուծվի՝ օգտագործելով Pandas-ի կարդալու CSV ֆունկցիան, ինչպես երևում է ստորև.

Տվյալների հավաքածուի ներմուծում

Օգտագործելով head() ֆունկցիան՝ ուսումնասիրեք տվյալների հավաքածուի առաջին հինգ տողերը.

Գլխի տվյալների հավաքածու

Արդյունք:

Գլխի տվյալների հավաքակազմի ելք

3. Տվյալների վերլուծություն

Եկեք ուսումնասիրենք տվյալները՝ պարզելու, թե արդյոք կան միտումներ: Բայց նախ, մենք կփոխենք լռելյայն սյուժեի չափը՝ գծապատկերներն ավելի տեսանելի դարձնելու համար:

Հողամասի չափի ճշգրտում

Եկեք սկսենք յուրաքանչյուր ավիաընկերության կողմից ստացված թվիթերի քանակից: Դրա համար մենք կօգտագործենք կարկանդակ աղյուսակ.

Կարկանդակ աղյուսակը

Յուրաքանչյուր ավիաընկերության հրապարակային թվիթերի տոկոսը ցուցադրվում է արդյունքում:

Կարկանդակ գծապատկերի արդյունք

Եկեք նայենք, թե ինչպես են զգացմունքները բաշխվում բոլոր թվիթերում:

Իմաստային կարկանդակ աղյուսակ

Արդյունք:

Semantic Pie Chart Output

Եկեք այժմ ուսումնասիրենք տրամադրությունների բաշխումը յուրաքանչյուր կոնկրետ ավիաընկերության համար:

Արդյունքների համաձայն, գրեթե բոլոր ավիաընկերությունների թվիթների մեծ մասը անբարենպաստ է, հետևում են չեզոք և լավ թվիթներ: Virgin America-ն թերևս միակ ավիաընկերությունն է, որտեղ երեք զգացմունքների համամասնությունը համեմատելի է:

Յուրաքանչյուր ավիաընկերության բաշխում

Արդյունք:

Յուրաքանչյուր ավիաընկերության արտադրանքի բաշխում

Վերջապես, մենք կօգտագործենք Seaborn գրադարանը՝ երեք տրամադրությունների կատեգորիաներից թվիթերի միջին վստահության մակարդակը ստանալու համար:

Բար հողամաս

Արդյունք:

Բար հողամաս Արդյունք

Արդյունքը ցույց է տալիս, որ բացասական թվիթների վստահության մակարդակն ավելի մեծ է, քան դրական կամ չեզոք թվիթերի համար:

4. Տվյալների մաքրում

Շատ ժարգոնային տերմիններ և կետադրական նշաններ կարելի է գտնել թվիթերում: Նախքան մեքենայական ուսուցման մոդելը վարժեցնելը, մենք պետք է մաքրենք մեր թվիթերը:

Այնուամենայնիվ, նախքան թվիթերի մաքրումը սկսելը, մենք պետք է բաժանենք մեր տվյալների հավաքածուն՝ ըստ հատկանիշների և պիտակների հավաքածուների:

Հատկանիշներ և պիտակներ

Մենք կարող ենք մաքրել տվյալները, երբ դրանք առանձնացնենք գործառույթների և ուսուցման խմբերի: Դա անելու համար կօգտագործվեն կանոնավոր արտահայտություններ:

Կանոնավոր արտահայտություն

5. Տեքստի թվային ներկայացում

Մեքենայի ուսուցման մոդելներ պատրաստելու համար վիճակագրական ալգորիթմներն օգտագործում են մաթեմատիկա: Մյուս կողմից, մաթեմատիկան աշխատում է միայն թվերի հետ:

Մենք նախ պետք է տեքստը վերածենք թվերի, որպեսզի վիճակագրական ալգորիթմները զբաղվեն դրանով: Դա անելու երեք հիմնական եղանակ կա՝ Բառերի տոպրակ, TF-IDF և Word2Vec:

Բարեբախտաբար, Python-ի Scikit-Learn մոդուլի TfidfVectorizer դասը կարող է օգտագործվել տեքստային հատկանիշները TF-IDF հատկանիշի վեկտորների փոխակերպելու համար։

TF IDF

6. Տվյալների վրա հիմնված ուսուցման և թեստային հավաքածուների ստեղծում

Ի վերջո, մենք պետք է մեր տվյալները բաժանենք վերապատրաստման և փորձարկման խմբերի, նախքան մեր ալգորիթմները վարժեցնելը:

Ուսուցման հավաքածուն կօգտագործվի ալգորիթմը վարժեցնելու համար, իսկ թեստային հավաքածուն՝ մեքենայական ուսուցման մոդելի աշխատանքը գնահատելու համար:

Գնացքի թեստ

7. Մոդելի մշակում

Տվյալները վերապատրաստման և փորձարկման խմբերի բաժանվելուց հետո մեքենայական ուսուցման տեխնիկան օգտագործվում է վերապատրաստման տվյալներից սովորելու համար:

Դուք կարող եք օգտագործել ցանկացած մեքենայական ուսուցման ալգորիթմ: Այնուամենայնիվ, Random Forest-ի մոտեցումը կկիրառվի չնորմալացված տվյալների հետ հաղթահարելու ունակության պատճառով:

Մոդելների ուսուցում

8. Կանխատեսումներ և մոդելի գնահատում

Մոդելի վերապատրաստումից հետո վերջնական փուլը կանխատեսումներ անելն է: Դա անելու համար մենք պետք է կիրառենք կանխատեսման մեթոդը RandomForestClassifier դասի օբյեկտի վրա, որը մենք վարժեցրել ենք:

Մոդելի կանխատեսում

Վերջապես, դասակարգման միջոցները, ինչպիսիք են շփոթության չափումները, F1 չափումները, ճշգրտությունը և այլն, կարող են օգտագործվել մեքենայական ուսուցման մոդելների կատարողականությունը գնահատելու համար:

Դասակարգման չափումներ

Արդյունք:

Դասակարգման չափման արդյունք

Մեր ալգորիթմը հասել է 75.30 ճշգրտության, ինչպես երևում է արդյունքներից:

Եզրափակում

Զգացմունքների վերլուծությունը NLP-ի ամենահաճախ հանդիպող աշխատանքներից մեկն է, քանի որ այն օգնում է բացահայտել ընդհանուր հասարակական կարծիքը կոնկրետ խնդրի վերաբերյալ:

Մենք տեսանք, թե ինչպես Python-ի մի քանի գրադարաններ կարող են օգնել տրամադրությունների վերլուծությանը:

Մենք ԱՄՆ վեց ավիաընկերությունների մասին հրապարակային թվիթերի ուսումնասիրություն ենք անցկացրել և հասել ենք մոտավորապես 75% ճշգրտության։

Ես կառաջարկեի փորձել մեքենայական ուսուցման մեկ այլ ալգորիթմ, ինչպիսին է լոգիստիկ ռեգրեսիան, SVM-ը կամ KNN-ը, որպեսզի տեսնեք, թե արդյոք կարող եք ավելի լավ արդյունքների հասնել:

NLP զգացմունքների վերլուծություն Python-ի միջոցով

Ի՞նչ է զգացմունքների վերլուծությունը:

Զգացմունքների վերլուծության առավելությունները