विषय - सूची[छिपाना][प्रदर्शन]
व्यवसाय 2021 तक उपभोक्ता संपर्क डेटा के अधिग्रहण में महारत हासिल कर लेंगे।
दूसरी ओर, इन डेटा बिंदुओं पर अत्यधिक निर्भरता, अक्सर संगठनों को ग्राहक इनपुट को एक आंकड़े के रूप में मानती है - ग्राहक की आवाज़ को सुनने के लिए एक आयामी दृष्टिकोण।
ग्राहक की आवाज को बैज या नंबर में परिवर्तित नहीं किया जा सकता है।
इसे पढ़ा जाना चाहिए, संघनित किया जाना चाहिए, और सबसे बढ़कर, समझा जाना चाहिए।
तथ्य यह है कि कंपनियों को सक्रिय रूप से सुनना चाहिए कि उनके उपभोक्ताओं को हर चैनल पर क्या कहना है, जिसके माध्यम से वे उनके साथ बातचीत करते हैं, चाहे वह फोन कॉल, ईमेल या लाइव चैट के माध्यम से हो।
प्रत्येक कंपनी को उपभोक्ता प्रतिक्रिया भावना की निगरानी और मूल्यांकन को प्राथमिकता देनी चाहिए, लेकिन कंपनियों ने पारंपरिक रूप से इस डेटा को संभालने और इसे सार्थक बुद्धिमत्ता में बदलने के लिए संघर्ष किया है।
सेंटीमेंट एनालिसिस के मामले में अब ऐसा नहीं है।
इस ट्यूटोरियल में, हम भावना विश्लेषण, इसके फायदे, और इसका उपयोग कैसे करें, इस पर करीब से नज़र डालेंगे एनएलटीके डेटा पर भावना विश्लेषण करने के लिए पुस्तकालय।
भावना विश्लेषण क्या है?
सेंटीमेंट एनालिसिस, जिसे अक्सर कन्वर्सेशन माइनिंग के रूप में जाना जाता है, लोगों की भावनाओं, विचारों और विचारों का विश्लेषण करने का एक तरीका है।
भावना विश्लेषण व्यवसायों को अपने उपभोक्ताओं की बेहतर समझ हासिल करने, राजस्व बढ़ाने और क्लाइंट इनपुट के आधार पर अपने उत्पादों और सेवाओं को बढ़ाने की अनुमति देता है।
ग्राहक भावना का विश्लेषण करने में सक्षम एक सॉफ्टवेयर सिस्टम और इसे निकालने का प्रयास करने वाले एक विक्रेता / ग्राहक सेवा प्रतिनिधि के बीच का अंतर कच्चे पाठ से उद्देश्य परिणाम प्राप्त करने की पूर्व की सरासर क्षमता है - यह मुख्य रूप से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से पूरा किया जाता है और यंत्र अधिगम तकनीक।
भावना की पहचान से लेकर पाठ वर्गीकरण तक, भावना विश्लेषण में अनुप्रयोगों की एक विस्तृत श्रृंखला है। हम उत्पाद मूल्यांकन या उपभोक्ता प्रतिक्रिया की भावना की निगरानी करने में फर्म की सहायता के लिए टेक्स्ट डेटा पर भावना विश्लेषण को नियोजित करते हैं।
विभिन्न सोशल मीडिया साइट्स पोस्टिंग की भावना का आकलन करने के लिए इसका उपयोग करती हैं, और यदि भावना बहुत मजबूत या हिंसक है, या उनकी सीमा से नीचे आती है, तो पोस्ट को या तो हटा दिया जाता है या छिपा दिया जाता है।
भावना विश्लेषण से लेकर पाठ वर्गीकरण तक हर चीज के लिए सेंटीमेंट एनालिसिस का इस्तेमाल किया जा सकता है।
भावना विश्लेषण का सबसे लोकप्रिय उपयोग टेक्स्ट डेटा पर होता है, जहां इसका उपयोग किसी कंपनी को उत्पाद मूल्यांकन या उपभोक्ता टिप्पणियों की भावना को ट्रैक करने में मदद करने के लिए किया जाता है।
विभिन्न सोशल मीडिया साइट्स भी पोस्टिंग की भावना का आकलन करने के लिए इसका उपयोग करती हैं, और यदि भावना बहुत मजबूत या हिंसक है, या उनकी सीमा से नीचे आती है, तो वे पोस्ट को हटा देते हैं या छुपा देते हैं।
भावना विश्लेषण के लाभ
भावना विश्लेषण के कुछ सबसे महत्वपूर्ण लाभ निम्नलिखित हैं जिनकी अवहेलना नहीं की जानी चाहिए।
- अपने लक्षित जनसांख्यिकीय के बीच अपने ब्रांड की धारणा का आकलन करने में सहायता करें।
- आपके उत्पाद को विकसित करने में आपकी सहायता के लिए प्रत्यक्ष ग्राहक प्रतिक्रिया प्रदान की जाती है।
- बिक्री राजस्व और पूर्वेक्षण बढ़ाता है।
- आपके उत्पाद के चैंपियन के लिए अपसेल के अवसर बढ़ गए हैं।
- सक्रिय ग्राहक सेवा एक व्यावहारिक विकल्प है।
नंबर आपको मार्केटिंग अभियान के कच्चे प्रदर्शन, पूर्वेक्षण कॉल में जुड़ाव की मात्रा और ग्राहक सहायता में लंबित टिकटों की संख्या जैसी जानकारी प्रदान कर सकते हैं।
हालांकि, यह आपको यह नहीं बताएगा कि कोई विशिष्ट घटना क्यों हुई या इसके कारण क्या हुआ। उदाहरण के लिए, Google और Facebook जैसे एनालिटिक्स टूल आपके मार्केटिंग प्रयासों के प्रदर्शन का आकलन करने में आपकी मदद कर सकते हैं।
लेकिन वे आपको इस बात की गहन जानकारी नहीं देते हैं कि वह विशिष्ट अभियान क्यों सफल हुआ।
इस संबंध में सेंटीमेंट एनालिसिस में गेम-चेंजिंग होने की क्षमता है।
सेंटीमेंट एनालिसिस - प्रॉब्लम स्टेटमेंट
इसका उद्देश्य यह निर्धारित करना है कि ट्वीट के आधार पर छह अमेरिकी एयरलाइनों के संबंध में एक ट्वीट में अनुकूल, नकारात्मक या तटस्थ भावना है या नहीं।
यह एक मानक पर्यवेक्षित शिक्षण कार्य है जिसमें हमें टेक्स्ट स्ट्रिंग को दिए गए टेक्स्ट स्ट्रिंग को पूर्व निर्धारित श्रेणियों में वर्गीकृत करना चाहिए।
उपाय
हम इस समस्या का समाधान करने के लिए मानक मशीन सीखने की प्रक्रिया का उपयोग करेंगे। हम आवश्यक पुस्तकालयों और डेटासेट को आयात करके शुरू करेंगे।
फिर हम यह निर्धारित करने के लिए कुछ खोजपूर्ण डेटा विश्लेषण करेंगे कि डेटा में कोई पैटर्न है या नहीं। उसके बाद, हम टेक्स्ट इनपुट न्यूमेरिक डेटा को चालू करने के लिए टेक्स्ट प्रीप्रोसेसिंग करेंगे जो कि a यंत्र अधिगम प्रणाली का उपयोग कर सकते हैं।
अंत में, हम मशीन लर्निंग विधियों का उपयोग करके अपने भावना विश्लेषण मॉडल को प्रशिक्षित और मूल्यांकन करेंगे।
1. पुस्तकालय आयात करना
आवश्यक पुस्तकालयों को लोड करें।
2. डेटासेट आयात करें
यह लेख एक ऐसे डेटासेट पर आधारित होगा जो इस पर पाया जा सकता है Github. जैसा कि नीचे देखा गया है, पंडों के रीड सीएसवी फ़ंक्शन का उपयोग करके डेटासेट आयात किया जाएगा:
हेड () फ़ंक्शन का उपयोग करके, डेटासेट की पहली पाँच पंक्तियों की जाँच करें:
आउटपुट:
3. डेटा का विश्लेषण
आइए यह निर्धारित करने के लिए डेटा की जांच करें कि क्या कोई रुझान है। लेकिन पहले, हम चार्ट को अधिक दृश्यमान बनाने के लिए डिफ़ॉल्ट प्लॉट आकार को बदल देंगे।
आइए प्रत्येक एयरलाइन द्वारा प्राप्त ट्वीट्स की संख्या से शुरुआत करें। हम इसके लिए एक पाई चार्ट का उपयोग करेंगे:
प्रत्येक एयरलाइन के लिए सार्वजनिक ट्वीट्स का प्रतिशत आउटपुट में प्रदर्शित होता है।
आइए देखें कि सभी ट्वीट्स पर भावनाओं को कैसे वितरित किया जाता है।
आउटपुट:
आइए अब हम प्रत्येक विशिष्ट एयरलाइन के लिए भावना के वितरण की जांच करें।
परिणामों के अनुसार, लगभग सभी एयरलाइनों के लिए अधिकांश ट्वीट्स प्रतिकूल हैं, जिनमें तटस्थ और अच्छे ट्वीट्स निम्नलिखित हैं। वर्जिन अमेरिका शायद एकमात्र एयरलाइन है जहां तीनों भावनाओं का अनुपात तुलनीय है।
आउटपुट:
अंत में, हम तीन भावना श्रेणियों से ट्वीट के लिए औसत आत्मविश्वास स्तर प्राप्त करने के लिए सीबॉर्न लाइब्रेरी का उपयोग करेंगे।
आउटपुट:
परिणाम से पता चलता है कि नकारात्मक ट्वीट्स के लिए आत्मविश्वास का स्तर सकारात्मक या तटस्थ ट्वीट्स की तुलना में अधिक है।
4. डेटा की सफाई
कई कठबोली शब्द और विराम चिह्न ट्वीट्स में पाए जा सकते हैं। इससे पहले कि हम मशीन लर्निंग मॉडल को प्रशिक्षित कर सकें, हमें अपने ट्वीट्स को साफ करने की जरूरत है।
हालांकि, इससे पहले कि हम ट्वीट्स को साफ करना शुरू करें, हमें अपने डेटासेट को फीचर और लेबल सेट में अलग कर देना चाहिए।
एक बार जब हम डेटा को सुविधाओं और प्रशिक्षण सेटों में अलग कर लेते हैं, तो हम उसे साफ़ कर सकते हैं। ऐसा करने के लिए नियमित अभिव्यक्तियों का उपयोग किया जाएगा।
5. पाठ का संख्यात्मक प्रतिनिधित्व
मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए, सांख्यिकीय एल्गोरिदम गणित को नियोजित करते हैं। दूसरी ओर, गणित केवल संख्याओं के साथ काम करता है।
इससे निपटने के लिए हमें पहले सांख्यिकीय एल्गोरिदम के लिए पाठ को संख्याओं में बदलना होगा। ऐसा करने के तीन बुनियादी तरीके हैं: बैग ऑफ़ वर्ड्स, TF-IDF, और Word2Vec।
सौभाग्य से, पायथन के स्किकिट-लर्न मॉड्यूल में TfidfVectorizer वर्ग का उपयोग टेक्स्ट सुविधाओं को TF-IDF फीचर वैक्टर में बदलने के लिए किया जा सकता है।
6. डेटा-संचालित प्रशिक्षण और परीक्षण सेट बनाना
अंत में, हमें अपने एल्गोरिदम को प्रशिक्षित करने से पहले अपने डेटा को प्रशिक्षण और परीक्षण सेट में विभाजित करना होगा।
प्रशिक्षण सेट का उपयोग एल्गोरिथम को प्रशिक्षित करने के लिए किया जाएगा, और परीक्षण सेट का उपयोग मशीन लर्निंग मॉडल के प्रदर्शन का आकलन करने के लिए किया जाएगा।
7. मॉडल विकास
डेटा को प्रशिक्षण और परीक्षण सेट में अलग करने के बाद, प्रशिक्षण डेटा से सीखने के लिए मशीन लर्निंग तकनीकों का उपयोग किया जाता है।
आप किसी भी मशीन लर्निंग एल्गोरिदम का उपयोग कर सकते हैं। हालांकि, यादृच्छिक वन दृष्टिकोण का उपयोग गैर-सामान्यीकृत डेटा से निपटने की क्षमता के कारण किया जाएगा।
8. भविष्यवाणियां और मॉडल मूल्यांकन
मॉडल को प्रशिक्षित करने के बाद, अंतिम चरण भविष्यवाणियां करना है। ऐसा करने के लिए, हमें हमारे द्वारा प्रशिक्षित RandomForestClassifier क्लास ऑब्जेक्ट के लिए प्रेडिक्ट मेथड को लागू करना होगा।
अंत में, मशीन लर्निंग मॉडल के प्रदर्शन का मूल्यांकन करने के लिए भ्रम मैट्रिक्स, F1 उपाय, सटीकता, आदि जैसे वर्गीकरण उपायों का उपयोग किया जा सकता है।
आउटपुट:
हमारे एल्गोरिथ्म ने 75.30 की सटीकता हासिल की, जैसा कि परिणामों से देखा गया।
निष्कर्ष
सेंटीमेंट एनालिसिस सबसे आम एनएलपी नौकरियों में से एक है क्योंकि यह किसी विशिष्ट मुद्दे पर समग्र जनमत की पहचान करने में मदद करता है।
हमने देखा कि कितने पायथन पुस्तकालय भावना विश्लेषण में मदद कर सकते हैं।
हमने छह अमेरिकी एयरलाइनों के बारे में सार्वजनिक ट्वीट्स का अध्ययन किया और लगभग 75% की सटीकता तक पहुंचे।
मेरा सुझाव है कि आप एक और मशीन लर्निंग एल्गोरिदम, जैसे लॉजिस्टिक रिग्रेशन, एसवीएम, या केएनएन को आजमाएं, यह देखने के लिए कि क्या आप बेहतर परिणाम प्राप्त कर सकते हैं।
एक जवाब लिखें