पायथन का उपयोग करते हुए एनएलपी सेंटीमेंट एनालिसिस

विषय - सूची[छिपाना][प्रदर्शन]

भावना विश्लेषण क्या है?
भावना विश्लेषण के लाभ
सेंटीमेंट एनालिसिस - प्रॉब्लम स्टेटमेंट+-
निष्कर्ष

व्यवसाय 2021 तक उपभोक्ता संपर्क डेटा के अधिग्रहण में महारत हासिल कर लेंगे।

दूसरी ओर, इन डेटा बिंदुओं पर अत्यधिक निर्भरता, अक्सर संगठनों को ग्राहक इनपुट को एक आंकड़े के रूप में मानती है - ग्राहक की आवाज़ को सुनने के लिए एक आयामी दृष्टिकोण।

ग्राहक की आवाज को बैज या नंबर में परिवर्तित नहीं किया जा सकता है।

इसे पढ़ा जाना चाहिए, संघनित किया जाना चाहिए, और सबसे बढ़कर, समझा जाना चाहिए।

तथ्य यह है कि कंपनियों को सक्रिय रूप से सुनना चाहिए कि उनके उपभोक्ताओं को हर चैनल पर क्या कहना है, जिसके माध्यम से वे उनके साथ बातचीत करते हैं, चाहे वह फोन कॉल, ईमेल या लाइव चैट के माध्यम से हो।

प्रत्येक कंपनी को उपभोक्ता प्रतिक्रिया भावना की निगरानी और मूल्यांकन को प्राथमिकता देनी चाहिए, लेकिन कंपनियों ने पारंपरिक रूप से इस डेटा को संभालने और इसे सार्थक बुद्धिमत्ता में बदलने के लिए संघर्ष किया है।

सेंटीमेंट एनालिसिस के मामले में अब ऐसा नहीं है।

इस ट्यूटोरियल में, हम भावना विश्लेषण, इसके फायदे, और इसका उपयोग कैसे करें, इस पर करीब से नज़र डालेंगे एनएलटीके डेटा पर भावना विश्लेषण करने के लिए पुस्तकालय।

भावना विश्लेषण क्या है?

सेंटीमेंट एनालिसिस, जिसे अक्सर कन्वर्सेशन माइनिंग के रूप में जाना जाता है, लोगों की भावनाओं, विचारों और विचारों का विश्लेषण करने का एक तरीका है।

भावना विश्लेषण व्यवसायों को अपने उपभोक्ताओं की बेहतर समझ हासिल करने, राजस्व बढ़ाने और क्लाइंट इनपुट के आधार पर अपने उत्पादों और सेवाओं को बढ़ाने की अनुमति देता है।

ग्राहक भावना का विश्लेषण करने में सक्षम एक सॉफ्टवेयर सिस्टम और इसे निकालने का प्रयास करने वाले एक विक्रेता / ग्राहक सेवा प्रतिनिधि के बीच का अंतर कच्चे पाठ से उद्देश्य परिणाम प्राप्त करने की पूर्व की सरासर क्षमता है - यह मुख्य रूप से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से पूरा किया जाता है और यंत्र अधिगम तकनीक।

भावना की पहचान से लेकर पाठ वर्गीकरण तक, भावना विश्लेषण में अनुप्रयोगों की एक विस्तृत श्रृंखला है। हम उत्पाद मूल्यांकन या उपभोक्ता प्रतिक्रिया की भावना की निगरानी करने में फर्म की सहायता के लिए टेक्स्ट डेटा पर भावना विश्लेषण को नियोजित करते हैं।

विभिन्न सोशल मीडिया साइट्स पोस्टिंग की भावना का आकलन करने के लिए इसका उपयोग करती हैं, और यदि भावना बहुत मजबूत या हिंसक है, या उनकी सीमा से नीचे आती है, तो पोस्ट को या तो हटा दिया जाता है या छिपा दिया जाता है।

भावना विश्लेषण से लेकर पाठ वर्गीकरण तक हर चीज के लिए सेंटीमेंट एनालिसिस का इस्तेमाल किया जा सकता है।

भावना विश्लेषण का सबसे लोकप्रिय उपयोग टेक्स्ट डेटा पर होता है, जहां इसका उपयोग किसी कंपनी को उत्पाद मूल्यांकन या उपभोक्ता टिप्पणियों की भावना को ट्रैक करने में मदद करने के लिए किया जाता है।

विभिन्न सोशल मीडिया साइट्स भी पोस्टिंग की भावना का आकलन करने के लिए इसका उपयोग करती हैं, और यदि भावना बहुत मजबूत या हिंसक है, या उनकी सीमा से नीचे आती है, तो वे पोस्ट को हटा देते हैं या छुपा देते हैं।

भावना विश्लेषण के लाभ

भावना विश्लेषण के कुछ सबसे महत्वपूर्ण लाभ निम्नलिखित हैं जिनकी अवहेलना नहीं की जानी चाहिए।

अपने लक्षित जनसांख्यिकीय के बीच अपने ब्रांड की धारणा का आकलन करने में सहायता करें।
आपके उत्पाद को विकसित करने में आपकी सहायता के लिए प्रत्यक्ष ग्राहक प्रतिक्रिया प्रदान की जाती है।
बिक्री राजस्व और पूर्वेक्षण बढ़ाता है।
आपके उत्पाद के चैंपियन के लिए अपसेल के अवसर बढ़ गए हैं।
सक्रिय ग्राहक सेवा एक व्यावहारिक विकल्प है।

नंबर आपको मार्केटिंग अभियान के कच्चे प्रदर्शन, पूर्वेक्षण कॉल में जुड़ाव की मात्रा और ग्राहक सहायता में लंबित टिकटों की संख्या जैसी जानकारी प्रदान कर सकते हैं।

हालांकि, यह आपको यह नहीं बताएगा कि कोई विशिष्ट घटना क्यों हुई या इसके कारण क्या हुआ। उदाहरण के लिए, Google और Facebook जैसे एनालिटिक्स टूल आपके मार्केटिंग प्रयासों के प्रदर्शन का आकलन करने में आपकी मदद कर सकते हैं।

लेकिन वे आपको इस बात की गहन जानकारी नहीं देते हैं कि वह विशिष्ट अभियान क्यों सफल हुआ।

इस संबंध में सेंटीमेंट एनालिसिस में गेम-चेंजिंग होने की क्षमता है।

सेंटीमेंट एनालिसिस - प्रॉब्लम स्टेटमेंट

इसका उद्देश्य यह निर्धारित करना है कि ट्वीट के आधार पर छह अमेरिकी एयरलाइनों के संबंध में एक ट्वीट में अनुकूल, नकारात्मक या तटस्थ भावना है या नहीं।

यह एक मानक पर्यवेक्षित शिक्षण कार्य है जिसमें हमें टेक्स्ट स्ट्रिंग को दिए गए टेक्स्ट स्ट्रिंग को पूर्व निर्धारित श्रेणियों में वर्गीकृत करना चाहिए।

उपाय

हम इस समस्या का समाधान करने के लिए मानक मशीन सीखने की प्रक्रिया का उपयोग करेंगे। हम आवश्यक पुस्तकालयों और डेटासेट को आयात करके शुरू करेंगे।

फिर हम यह निर्धारित करने के लिए कुछ खोजपूर्ण डेटा विश्लेषण करेंगे कि डेटा में कोई पैटर्न है या नहीं। उसके बाद, हम टेक्स्ट इनपुट न्यूमेरिक डेटा को चालू करने के लिए टेक्स्ट प्रीप्रोसेसिंग करेंगे जो कि a यंत्र अधिगम प्रणाली का उपयोग कर सकते हैं।

अंत में, हम मशीन लर्निंग विधियों का उपयोग करके अपने भावना विश्लेषण मॉडल को प्रशिक्षित और मूल्यांकन करेंगे।

1. पुस्तकालय आयात करना

आवश्यक पुस्तकालयों को लोड करें।

पुस्तकालयों का आयात करना

2. डेटासेट आयात करें

यह लेख एक ऐसे डेटासेट पर आधारित होगा जो इस पर पाया जा सकता है Github. जैसा कि नीचे देखा गया है, पंडों के रीड सीएसवी फ़ंक्शन का उपयोग करके डेटासेट आयात किया जाएगा:

डेटासेट आयात करना

हेड () फ़ंक्शन का उपयोग करके, डेटासेट की पहली पाँच पंक्तियों की जाँच करें:

हेड डेटासेट

आउटपुट:

हेड डेटासेट का आउटपुट

3. डेटा का विश्लेषण

आइए यह निर्धारित करने के लिए डेटा की जांच करें कि क्या कोई रुझान है। लेकिन पहले, हम चार्ट को अधिक दृश्यमान बनाने के लिए डिफ़ॉल्ट प्लॉट आकार को बदल देंगे।

प्लॉट का आकार समायोजित करना

आइए प्रत्येक एयरलाइन द्वारा प्राप्त ट्वीट्स की संख्या से शुरुआत करें। हम इसके लिए एक पाई चार्ट का उपयोग करेंगे:

पाई चार्ट

प्रत्येक एयरलाइन के लिए सार्वजनिक ट्वीट्स का प्रतिशत आउटपुट में प्रदर्शित होता है।

पाई चार्ट आउटपुट

आइए देखें कि सभी ट्वीट्स पर भावनाओं को कैसे वितरित किया जाता है।

सिमेंटिक पाई चार्ट

आउटपुट:

सिमेंटिक पाई चार्ट आउटपुट

आइए अब हम प्रत्येक विशिष्ट एयरलाइन के लिए भावना के वितरण की जांच करें।

परिणामों के अनुसार, लगभग सभी एयरलाइनों के लिए अधिकांश ट्वीट्स प्रतिकूल हैं, जिनमें तटस्थ और अच्छे ट्वीट्स निम्नलिखित हैं। वर्जिन अमेरिका शायद एकमात्र एयरलाइन है जहां तीनों भावनाओं का अनुपात तुलनीय है।

प्रत्येक एयरलाइन का वितरण

आउटपुट:

प्रत्येक एयरलाइन आउटपुट का वितरण

अंत में, हम तीन भावना श्रेणियों से ट्वीट के लिए औसत आत्मविश्वास स्तर प्राप्त करने के लिए सीबॉर्न लाइब्रेरी का उपयोग करेंगे।

बार प्लॉट

आउटपुट:

बार प्लॉट आउटपुट

परिणाम से पता चलता है कि नकारात्मक ट्वीट्स के लिए आत्मविश्वास का स्तर सकारात्मक या तटस्थ ट्वीट्स की तुलना में अधिक है।

4. डेटा की सफाई

कई कठबोली शब्द और विराम चिह्न ट्वीट्स में पाए जा सकते हैं। इससे पहले कि हम मशीन लर्निंग मॉडल को प्रशिक्षित कर सकें, हमें अपने ट्वीट्स को साफ करने की जरूरत है।

हालांकि, इससे पहले कि हम ट्वीट्स को साफ करना शुरू करें, हमें अपने डेटासेट को फीचर और लेबल सेट में अलग कर देना चाहिए।

सुविधाएँ और लेबल

एक बार जब हम डेटा को सुविधाओं और प्रशिक्षण सेटों में अलग कर लेते हैं, तो हम उसे साफ़ कर सकते हैं। ऐसा करने के लिए नियमित अभिव्यक्तियों का उपयोग किया जाएगा।

नियमित अभिव्यक्ति

5. पाठ का संख्यात्मक प्रतिनिधित्व

मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए, सांख्यिकीय एल्गोरिदम गणित को नियोजित करते हैं। दूसरी ओर, गणित केवल संख्याओं के साथ काम करता है।

इससे निपटने के लिए हमें पहले सांख्यिकीय एल्गोरिदम के लिए पाठ को संख्याओं में बदलना होगा। ऐसा करने के तीन बुनियादी तरीके हैं: बैग ऑफ़ वर्ड्स, TF-IDF, और Word2Vec।

सौभाग्य से, पायथन के स्किकिट-लर्न मॉड्यूल में TfidfVectorizer वर्ग का उपयोग टेक्स्ट सुविधाओं को TF-IDF फीचर वैक्टर में बदलने के लिए किया जा सकता है।

टीएफ आईडीएफ

6. डेटा-संचालित प्रशिक्षण और परीक्षण सेट बनाना

अंत में, हमें अपने एल्गोरिदम को प्रशिक्षित करने से पहले अपने डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करना होगा।

प्रशिक्षण सेट का उपयोग एल्गोरिथम को प्रशिक्षित करने के लिए किया जाएगा, और परीक्षण सेट का उपयोग मशीन लर्निंग मॉडल के प्रदर्शन का आकलन करने के लिए किया जाएगा।

ट्रेन टेस्ट

7. मॉडल विकास

डेटा को प्रशिक्षण और परीक्षण सेट में अलग करने के बाद, प्रशिक्षण डेटा से सीखने के लिए मशीन लर्निंग तकनीकों का उपयोग किया जाता है।

आप किसी भी मशीन लर्निंग एल्गोरिदम का उपयोग कर सकते हैं। हालांकि, यादृच्छिक वन दृष्टिकोण का उपयोग गैर-सामान्यीकृत डेटा से निपटने की क्षमता के कारण किया जाएगा।

मॉडल प्रशिक्षण

8. भविष्यवाणियां और मॉडल मूल्यांकन

मॉडल को प्रशिक्षित करने के बाद, अंतिम चरण भविष्यवाणियां करना है। ऐसा करने के लिए, हमें हमारे द्वारा प्रशिक्षित RandomForestClassifier क्लास ऑब्जेक्ट के लिए प्रेडिक्ट मेथड को लागू करना होगा।

मॉडल भविष्यवाणी

अंत में, मशीन लर्निंग मॉडल के प्रदर्शन का मूल्यांकन करने के लिए भ्रम मैट्रिक्स, F1 उपाय, सटीकता, आदि जैसे वर्गीकरण उपायों का उपयोग किया जा सकता है।

वर्गीकरण मेट्रिक्स

आउटपुट:

वर्गीकरण मेट्रिक्स आउटपुट

हमारे एल्गोरिथ्म ने 75.30 की सटीकता हासिल की, जैसा कि परिणामों से देखा गया।

निष्कर्ष

सेंटीमेंट एनालिसिस सबसे आम एनएलपी नौकरियों में से एक है क्योंकि यह किसी विशिष्ट मुद्दे पर समग्र जनमत की पहचान करने में मदद करता है।

हमने देखा कि कितने पायथन पुस्तकालय भावना विश्लेषण में मदद कर सकते हैं।

हमने छह अमेरिकी एयरलाइनों के बारे में सार्वजनिक ट्वीट्स का अध्ययन किया और लगभग 75% की सटीकता तक पहुंचे।

मेरा सुझाव है कि आप एक और मशीन लर्निंग एल्गोरिदम, जैसे लॉजिस्टिक रिग्रेशन, एसवीएम, या केएनएन को आजमाएं, यह देखने के लिए कि क्या आप बेहतर परिणाम प्राप्त कर सकते हैं।

पायथन का उपयोग करते हुए एनएलपी सेंटीमेंट एनालिसिस

भावना विश्लेषण क्या है?

भावना विश्लेषण के लाभ

सेंटीमेंट एनालिसिस - प्रॉब्लम स्टेटमेंट