فهرست مندرجات[پنهان شدن][نمایش]
کسب و کارها تا سال 2021 بر کسب داده های تعامل با مصرف کننده تسلط خواهند داشت.
از سوی دیگر، اتکای بیش از حد به این نقاط داده، اغلب منجر به این میشود که سازمانها با ورودی مشتری به عنوان یک آمار برخورد کنند - رویکردی نسبتاً تک بعدی برای گوش دادن به صدای مشتری.
صدای مشتری را نمی توان نشان داد یا به شماره تبدیل کرد.
باید خوانده شود، فشرده شود، و مهمتر از همه، درک شود.
واقعیت این است که شرکتها باید در هر کانالی که از طریق آن با آنها ارتباط برقرار میکنند، چه از طریق تماسهای تلفنی، ایمیل یا چت زنده، به طور فعال به حرفهای مشتریانشان گوش دهند.
هر شرکتی باید نظارت و ارزیابی احساسات بازخورد مصرفکننده را در اولویت قرار دهد، اما شرکتها به طور سنتی برای مدیریت این دادهها و تبدیل آن به اطلاعات معنادار تلاش میکنند.
این دیگر در مورد تجزیه و تحلیل احساسات صدق نمی کند.
در این آموزش، نگاهی دقیق تر به تحلیل احساسات، مزایای آن و نحوه استفاده از آن خواهیم داشت. NLTK کتابخانه برای انجام تجزیه و تحلیل احساسات بر روی داده ها.
تحلیل احساسات چیست؟
تجزیه و تحلیل احساسات، که اغلب به عنوان مکالمه کاوی شناخته می شود، روشی برای تجزیه و تحلیل احساسات، افکار و دیدگاه های افراد است.
تجزیه و تحلیل احساسات به کسب و کارها این امکان را می دهد که درک بهتری از مصرف کنندگان خود به دست آورند، درآمد را افزایش دهند و محصولات و خدمات خود را بر اساس ورودی مشتری افزایش دهند.
تفاوت بین یک سیستم نرم افزاری که قادر به تجزیه و تحلیل احساسات مشتری است و یک نماینده فروشنده/خدمت مشتری که تلاش می کند آن را استنباط کند، توانایی محض اولی برای استخراج نتایج عینی از متن خام است - این در درجه اول از طریق پردازش زبان طبیعی (NLP) انجام می شود و فراگیری ماشین تکنیک.
از شناسایی احساسات گرفته تا دسته بندی متن، تحلیل احساسات طیف وسیعی از کاربردها را دارد. ما از تجزیه و تحلیل احساسات بر روی داده های متنی استفاده می کنیم تا به یک شرکت کمک کنیم تا احساسات ارزیابی محصول یا بازخورد مصرف کننده را نظارت کند.
سایتهای مختلف رسانههای اجتماعی از آن برای ارزیابی احساسات پستها استفاده میکنند، و اگر این احساس خیلی قوی یا خشونتآمیز باشد یا کمتر از آستانه آنها باشد، پست حذف یا پنهان میشود.
تجزیه و تحلیل احساسات را می توان برای همه چیز از شناسایی احساسات گرفته تا دسته بندی متن استفاده کرد.
محبوب ترین استفاده از تجزیه و تحلیل احساسات روی داده های متنی است، جایی که برای کمک به شرکت در ردیابی احساسات ارزیابی محصول یا نظرات مصرف کننده استفاده می شود.
سایتهای مختلف رسانههای اجتماعی نیز از آن برای ارزیابی احساسات پستها استفاده میکنند و اگر این احساس خیلی قوی یا خشونتآمیز باشد، یا کمتر از آستانه آنها باشد، پست را حذف یا پنهان میکنند.
مزایای تجزیه و تحلیل احساسات
موارد زیر برخی از مهمترین مزایای تحلیل احساسات است که نباید نادیده گرفته شوند.
- به ارزیابی درک برند خود در میان جمعیت شناسی هدف کمک کنید.
- بازخورد مستقیم مشتری برای کمک به شما در توسعه محصول ارائه می شود.
- درآمد فروش و جستجو را افزایش می دهد.
- فرصت های فروش بالا برای قهرمانان محصول شما افزایش یافته است.
- خدمات مشتری فعال یک گزینه عملی است.
شماره ها می توانند اطلاعاتی مانند عملکرد خام یک کمپین بازاریابی، میزان مشارکت در یک تماس جستجوگر، و تعداد بلیط های معلق در پشتیبانی مشتری را در اختیار شما قرار دهند.
با این حال، به شما نمی گوید که چرا یک رویداد خاص رخ داده است یا چه چیزی باعث آن شده است. به عنوان مثال، ابزارهای تجزیه و تحلیل مانند گوگل و فیس بوک می توانند به شما در ارزیابی عملکرد تلاش های بازاریابی خود کمک کنند.
اما آنها به شما دانش عمیقی در مورد اینکه چرا آن کمپین خاص موفق بوده است، ارائه نمی دهند.
تجزیه و تحلیل احساسات این پتانسیل را دارد که در این زمینه بازی را تغییر دهد.
تجزیه و تحلیل احساسات - بیان مسئله
هدف این است که مشخص شود آیا یک توییت دارای احساسات مثبت، منفی یا خنثی در مورد شش شرکت هواپیمایی ایالات متحده بر اساس توییت است.
این یک کار یادگیری نظارت شده استاندارد است که در آن باید یک رشته متن را به دسته های از پیش تعیین شده با توجه به یک رشته متن دسته بندی کنیم.
راه حل
ما از فرآیند یادگیری ماشین استاندارد برای رفع این مشکل استفاده خواهیم کرد. ما با وارد کردن کتابخانه ها و مجموعه داده های لازم شروع می کنیم.
سپس برخی از تجزیه و تحلیل داده های اکتشافی را برای تعیین اینکه آیا الگوهایی در داده ها وجود دارد انجام می دهیم. پس از آن، ما پیش پردازش متن را برای تبدیل داده های عددی ورودی متنی انجام خواهیم داد فراگیری ماشین سیستم می تواند استفاده کند.
در نهایت، مدلهای تحلیل احساسات خود را با استفاده از روشهای یادگیری ماشین آموزش و ارزیابی میکنیم.
1. واردات کتابخانه ها
کتابخانه های لازم را بارگیری کنید.
2. وارد کردن مجموعه داده
این مقاله بر اساس مجموعه داده ای است که در آن یافت می شود گیتهاب. مجموعه داده با استفاده از تابع خواندن CSV پاندا وارد می شود، همانطور که در زیر مشاهده می کنید:
با استفاده از تابع head() پنج ردیف اول مجموعه داده را بررسی کنید:
خروجی:
3. تجزیه و تحلیل داده ها
اجازه دهید داده ها را بررسی کنیم تا مشخص کنیم آیا روندی وجود دارد یا خیر. اما ابتدا اندازه طرح پیش فرض را تغییر می دهیم تا نمودارها بیشتر دیده شوند.
اجازه دهید با تعداد توییت های دریافت شده توسط هر شرکت هواپیمایی شروع کنیم. برای این کار از نمودار دایره ای استفاده می کنیم:
درصد توییت های عمومی برای هر شرکت هواپیمایی در خروجی نمایش داده می شود.
بیایید نگاهی بیندازیم که چگونه احساسات در تمام توییتها توزیع میشوند.
خروجی:
اجازه دهید اکنون توزیع احساسات را برای هر خط هوایی خاص بررسی کنیم.
بر اساس نتایج، اکثر توئیتها برای تقریباً همه خطوط هوایی نامطلوب هستند و توییتهای خنثی و خوب دنبال میشوند. ویرجین آمریکا شاید تنها ایرلاینی باشد که نسبت این سه احساس قابل مقایسه است.
خروجی:
در نهایت، از کتابخانه Seaborn برای دریافت میانگین سطح اطمینان برای توییتها از سه دسته احساسات استفاده میکنیم.
خروجی:
نتیجه نشان می دهد که سطح اطمینان برای توییت های منفی بیشتر از توییت های مثبت یا خنثی است.
4. پاک کردن داده ها
بسیاری از اصطلاحات عامیانه و علائم نگارشی را می توان در توییت ها یافت. قبل از اینکه بتوانیم مدل یادگیری ماشینی را آموزش دهیم، باید توییت های خود را پاک کنیم.
با این حال، قبل از شروع تمیز کردن توییتها، باید مجموعه دادههای خود را به مجموعههای ویژگی و برچسب جدا کنیم.
زمانی که دادهها را به ویژگیها و مجموعههای آموزشی تفکیک کردیم، میتوانیم آنها را پاک کنیم. برای این کار از عبارات منظم استفاده می شود.
5. نمایش عددی متن
برای آموزش مدلهای یادگیری ماشین، الگوریتمهای آماری از ریاضیات استفاده میکنند. از طرف دیگر، ریاضیات فقط با اعداد کار می کند.
ابتدا باید متن را به اعداد تبدیل کنیم تا الگوریتم های آماری با آن مقابله کنند. سه راه اساسی برای انجام این کار وجود دارد: Bag of Words، TF-IDF، و Word2Vec.
خوشبختانه، کلاس TfidfVetorizer در ماژول Scikit-Learn پایتون می تواند برای تبدیل ویژگی های متن به بردارهای ویژگی TF-IDF استفاده شود.
6. ایجاد مجموعه های آموزشی و آزمایشی مبتنی بر داده
در نهایت، ما باید قبل از آموزش الگوریتم های خود، داده های خود را به مجموعه های آموزشی و آزمایشی تقسیم کنیم.
مجموعه آموزشی برای آموزش الگوریتم و مجموعه تست برای ارزیابی عملکرد مدل یادگیری ماشین استفاده خواهد شد.
7. توسعه مدل
پس از تفکیک داده ها به مجموعه های آموزشی و آزمایشی، از تکنیک های یادگیری ماشینی برای یادگیری از داده های آموزشی استفاده می شود.
شما می توانید از هر الگوریتم یادگیری ماشینی استفاده کنید. رویکرد جنگل تصادفی، با این حال، به دلیل توانایی آن برای مقابله با داده های غیر عادی استفاده خواهد شد.
8. پیش بینی ها و ارزیابی مدل
پس از آموزش مدل، مرحله نهایی پیش بینی است. برای این کار باید متد predict را روی شی کلاس RandomForestClassifier که آموزش دادیم اعمال کنیم.
در نهایت، معیارهای طبقهبندی مانند معیارهای سردرگمی، معیارهای F1، دقت و غیره میتوانند برای ارزیابی عملکرد مدلهای یادگیری ماشین استفاده شوند.
خروجی:
همانطور که در نتایج مشاهده می شود، الگوریتم ما به دقت 75.30 دست یافت.
نتیجه
تجزیه و تحلیل احساسات یکی از رایج ترین مشاغل NLP است زیرا به شناسایی افکار عمومی کلی در مورد یک موضوع خاص کمک می کند.
ما دیدیم که چگونه چندین کتابخانه پایتون می توانند به تجزیه و تحلیل احساسات کمک کنند.
ما مطالعهای روی توییتهای عمومی در مورد شش شرکت هواپیمایی ایالات متحده انجام دادیم و به دقت تقریباً 75٪ رسیدیم.
پیشنهاد میکنم الگوریتم یادگیری ماشین دیگری مانند رگرسیون لجستیک، SVM یا KNN را امتحان کنید تا ببینید آیا میتوانید به نتایج بهتری برسید.
پاسخ دهید