विषयसूची[लुकाउनुहोस्][देखाउनु]
व्यवसायहरूले २०२१ सम्ममा उपभोक्ता अन्तरक्रिया डाटाको अधिग्रहणमा महारत हासिल गर्नेछन्।
यी डेटा बिन्दुहरूमा अत्यधिक निर्भरता, अर्कोतर्फ, ग्राहकको इनपुटलाई तथ्याङ्कको रूपमा व्यवहार गर्ने संस्थाहरूलाई प्रायः नेतृत्व गर्दछ - ग्राहकको आवाज सुन्नको लागि बरु एक-आयामी दृष्टिकोण।
ग्राहकको आवाज ब्याज वा नम्बरमा रूपान्तरण गर्न सकिँदैन।
यसलाई पढ्नुपर्छ, सघन, र, सबै भन्दा माथि, बुझ्नुपर्छ।
तथ्य यो हो कि कम्पनीहरूले सक्रिय रूपमा सुन्नु पर्छ आफ्ना उपभोक्ताहरूले प्रत्येक च्यानलमा के भनेका छन् जसको माध्यमबाट उनीहरूले उनीहरूसँग अन्तरक्रिया गर्छन्, चाहे त्यो फोन कल, इमेल, वा लाइभ च्याट मार्फत होस्।
प्रत्येक कम्पनीले उपभोक्ता प्रतिक्रिया भावना अनुगमन र मूल्याङ्कनलाई प्राथमिकता दिनुपर्छ, तर कम्पनीहरूले परम्परागत रूपमा यो डेटा ह्यान्डल गर्न र यसलाई अर्थपूर्ण बुद्धिमत्तामा रूपान्तरण गर्न संघर्ष गरेका छन्।
यो अब भावना विश्लेषण मा मामला छैन।
यस ट्यूटोरियलमा, हामी भावना विश्लेषण, यसको फाइदाहरू, र कसरी प्रयोग गर्ने भन्ने बारे नजिकबाट हेर्नेछौं। NLTK डाटामा भावना विश्लेषण गर्न पुस्तकालय।
भावना विश्लेषण के हो?
भावना विश्लेषण, अक्सर कुराकानी खनन को रूप मा जानिन्छ, मान्छे को भावना, विचार, र विचार को विश्लेषण को लागी एक विधि हो।
भावना विश्लेषणले व्यवसायहरूलाई आफ्ना उपभोक्ताहरूको राम्रोसँग बुझ्न, राजस्व बढाउन, र ग्राहक इनपुटको आधारमा आफ्ना उत्पादनहरू र सेवाहरू बढाउन अनुमति दिन्छ।
ग्राहक भावना विश्लेषण गर्न सक्षम एक सफ्टवेयर प्रणाली र एक विक्रेता/ग्राहक सेवा प्रतिनिधि यो अनुमान गर्न प्रयास गर्ने बीचको भिन्नता कच्चा पाठबाट वस्तुगत परिणामहरू प्राप्त गर्ने पूर्वको पूर्ण क्षमता हो - यो मुख्य रूपमा प्राकृतिक भाषा प्रशोधन (NLP) र मार्फत पूरा हुन्छ। मेशिन सिकाइ प्रविधिहरू।
भावना पहिचान देखि पाठ वर्गीकरण सम्म, भावना विश्लेषण अनुप्रयोग को एक विस्तृत श्रृंखला छ। हामी उत्पादन मूल्याङ्कन वा उपभोक्ता प्रतिक्रियाको भावना अनुगमन फर्मलाई मद्दत गर्न पाठ्य डेटामा भावना विश्लेषण प्रयोग गर्छौं।
विभिन्न सामाजिक सञ्जाल साइटहरूले यसलाई पोस्टिङको भावनाको मूल्याङ्कन गर्न प्रयोग गर्छन्, र यदि भावना धेरै बलियो वा हिंसात्मक छ, वा तिनीहरूको थ्रेसहोल्ड भन्दा तल खस्छ भने, पोस्ट या त मेटाइन्छ वा लुकाइन्छ।
भावना विश्लेषण भावना पहिचान देखि पाठ वर्गीकरण सबै को लागी प्रयोग गर्न सकिन्छ।
भावना विश्लेषणको सबैभन्दा लोकप्रिय प्रयोग पाठ्य डेटामा छ, जहाँ यो उत्पादन मूल्याङ्कन वा उपभोक्ता टिप्पणीहरूको भावना ट्र्याक गर्न कम्पनीलाई मद्दत गर्न प्रयोग गरिन्छ।
विभिन्न सामाजिक सञ्जाल साइटहरूले पनि पोस्टिङको भावनाको मूल्याङ्कन गर्न प्रयोग गर्छन्, र यदि भावना धेरै बलियो वा हिंसात्मक छ, वा तिनीहरूको थ्रेसहोल्ड भन्दा तल खस्छ, तिनीहरूले पोस्ट मेटाउँछन् वा लुकाउँछन्।
भावना विश्लेषण को लाभ
निम्न भावना विश्लेषणका केही महत्त्वपूर्ण फाइदाहरू छन् जुन बेवास्ता गर्नु हुँदैन।
- तपाइँको लक्षित जनसांख्यिकीय बीच तपाइँको ब्रान्ड को धारणा को आकलन मा मद्दत गर्नुहोस्।
- तपाइँको उत्पादन को विकास मा मद्दत गर्न को लागी प्रत्यक्ष ग्राहक प्रतिक्रिया प्रदान गरिएको छ।
- बिक्री राजस्व र संभावना बढाउँछ।
- तपाईंको उत्पादनका च्याम्पियनहरूको लागि अपसेल अवसरहरू बढेका छन्।
- सक्रिय ग्राहक सेवा एक व्यावहारिक विकल्प हो।
नम्बरहरूले तपाईंलाई मार्केटिङ अभियानको कच्चा प्रदर्शन, सम्भावित कलमा संलग्नताको मात्रा, र ग्राहक समर्थनमा पेन्डिङ टिकटहरूको सङ्ख्या जस्ता जानकारी प्रदान गर्न सक्छ।
यद्यपि, यसले तपाइँलाई एक विशेष घटना किन भयो वा यसको कारणले बताउँदैन। उदाहरणका लागि, Google र Facebook जस्ता विश्लेषक उपकरणहरूले तपाइँको मार्केटिङ प्रयासहरूको प्रदर्शन मूल्याङ्कन गर्न मद्दत गर्न सक्छ।
तर तिनीहरूले तपाईंलाई त्यो विशेष अभियान किन सफल भयो भन्ने बारेमा गहिरो ज्ञान प्रदान गर्दैनन्।
भावना विश्लेषण यस सन्दर्भमा खेल-परिवर्तन हुने सम्भावना छ।
भावना विश्लेषण - समस्या कथन
ट्विटमा आधारित छ युएस एयरलाइन्सको सम्बन्धमा ट्वीटमा अनुकूल, नकारात्मक वा तटस्थ भावना छ कि छैन भनेर निर्धारण गर्ने उद्देश्य हो।
यो एक मानक पर्यवेक्षित सिकाइ कार्य हो जसमा हामीले पाठ स्ट्रिङलाई पूर्वनिर्धारित कोटीहरूमा वर्गीकरण गर्नुपर्छ।
समाधान
हामी यो समस्यालाई सम्बोधन गर्न मानक मेसिन लर्निङ प्रक्रिया प्रयोग गर्नेछौं। हामी आवश्यक पुस्तकालयहरू र डेटासेटहरू आयात गरेर सुरु गर्नेछौं।
त्यसपछि हामी डेटामा कुनै ढाँचाहरू छन् वा छैनन् भनी निर्धारण गर्न केही अन्वेषणात्मक डेटा विश्लेषण गर्नेछौं। त्यस पछि, हामी पाठ प्रीप्रोसेसिङलाई पाठ्य इनपुट संख्यात्मक डेटालाई बदल्नको लागि लिनेछौं जुन एक मेशिन सिकाइ प्रणाली प्रयोग गर्न सक्छ।
अन्तमा, हामी मेसिन लर्निङ विधिहरू प्रयोग गरेर हाम्रो भावना विश्लेषण मोडेलहरूलाई तालिम दिनेछौं र मूल्याङ्कन गर्नेछौं।
1. पुस्तकालयहरू आयात गर्दै
आवश्यक पुस्तकालयहरू लोड गर्नुहोस्।
2. डाटासेट आयात गर्नुहोस्
यो लेख एक डाटासेट मा आधारित हुनेछ जुन मा पाउन सकिन्छ Github। डेटासेट तल देखिए अनुसार, पान्डाको पढ्ने CSV प्रकार्य प्रयोग गरेर आयात गरिनेछ:
हेड() प्रकार्य प्रयोग गरेर, डेटासेटको पहिलो पाँच पङ्क्तिहरू जाँच गर्नुहोस्:
उत्पादन:
3. डाटाको विश्लेषण
कुनै प्रवृति छ कि छैन भनेर निर्धारण गर्न डेटाको जाँच गरौं। तर पहिले, हामी चार्टहरूलाई थप दृश्यात्मक बनाउन पूर्वनिर्धारित प्लट साइज परिवर्तन गर्नेछौं।
हामी प्रत्येक एयरलाइन द्वारा प्राप्त ट्वीट को संख्या संग सुरु गरौं। हामी यसको लागि पाई चार्ट प्रयोग गर्नेछौं:
प्रत्येक एयरलाइनका लागि सार्वजनिक ट्वीटहरूको प्रतिशत उत्पादनमा प्रदर्शित हुन्छ।
सबै ट्विटहरूमा भावनाहरू कसरी बाँडिएको छ भनेर हेरौं।
उत्पादन:
अब हामी प्रत्येक विशिष्ट एयरलाइनको लागि भावनाको वितरण जाँच गरौं।
परिणामहरू अनुसार, प्रायः सबै एयरलाइन्सका लागि धेरै ट्वीटहरू प्रतिकूल छन्, तटस्थ र राम्रो ट्वीटहरू पछ्याउँदै। भर्जिन अमेरिका सायद एक मात्र एयरलाइन हो जहाँ तीन भावनाहरूको अनुपात तुलनात्मक छ।
उत्पादन:
अन्तमा, हामी तीन भावना कोटिहरूबाट ट्वीटहरूको लागि औसत आत्मविश्वास स्तर प्राप्त गर्न Seaborn पुस्तकालय प्रयोग गर्नेछौं।
उत्पादन:
नतिजाले देखाउँछ कि नकारात्मक ट्वीटहरूको लागि आत्मविश्वास स्तर सकारात्मक वा तटस्थ ट्वीटहरू भन्दा ठूलो छ।
4. डाटा सफा गर्दै
धेरै अपशब्द सर्तहरू र विराम चिन्हहरू ट्वीटहरूमा फेला पार्न सकिन्छ। हामीले मेसिन लर्निङ मोडेललाई तालिम दिनु अघि, हामीले हाम्रा ट्वीटहरू सफा गर्न आवश्यक छ।
यद्यपि, हामीले ट्वीटहरू सफा गर्न सुरु गर्नु अघि, हामीले हाम्रो डेटासेटलाई सुविधा र लेबल सेटहरूमा अलग गर्नुपर्छ।
हामीले डेटालाई सुविधाहरू र प्रशिक्षण सेटहरूमा विभाजन गरेपछि हामी यसलाई सफा गर्न सक्छौं। यो गर्नको लागि नियमित अभिव्यक्तिहरू प्रयोग गरिनेछ।
5. पाठको संख्यात्मक प्रतिनिधित्व
मेसिन लर्निङ मोडेलहरू प्रशिक्षित गर्न, सांख्यिकीय एल्गोरिदमले गणित प्रयोग गर्दछ। गणित, अर्कोतर्फ, केवल संख्या संग काम गर्दछ।
हामीले यसलाई डिल गर्नको लागि सांख्यिकीय एल्गोरिदमहरूको लागि पहिले पाठलाई संख्यामा रूपान्तरण गर्नुपर्छ। त्यसो गर्ने तीनवटा आधारभूत तरिकाहरू छन्: शब्दको झोला, TF-IDF, र Word2Vec।
सौभाग्य देखि, TfidfVectorizer वर्ग Python को Scikit-Learn मोड्युलमा पाठ सुविधाहरूलाई TF-IDF सुविधा भेक्टरहरूमा रूपान्तरण गर्न प्रयोग गर्न सकिन्छ।
6. डाटा-संचालित प्रशिक्षण र परीक्षण सेटहरू सिर्जना गर्दै
अन्तमा, हामीले हाम्रो एल्गोरिदमलाई प्रशिक्षण दिनु अघि हाम्रो डेटालाई प्रशिक्षण र परीक्षण सेटहरूमा विभाजन गर्नुपर्छ।
तालिम सेटलाई एल्गोरिदम तालिम दिन प्रयोग गरिनेछ, र मेसिन लर्निङ मोडेलको कार्यसम्पादन मूल्याङ्कन गर्न परीक्षण सेट प्रयोग गरिनेछ।
7. मोडेल विकास
डेटालाई प्रशिक्षण र परीक्षण सेटहरूमा विभाजन गरिसकेपछि, प्रशिक्षण डेटाबाट सिक्नको लागि मेसिन लर्निङ प्रविधिहरू प्रयोग गरिन्छ।
तपाईं कुनै पनि मेसिन लर्निङ एल्गोरिदम प्रयोग गर्न सक्नुहुन्छ। अनियमित वन दृष्टिकोण, तथापि, यसको गैर-सामान्यीकृत डाटासँग सामना गर्ने क्षमताको कारण प्रयोग गरिनेछ।
8. भविष्यवाणी र मोडेल मूल्याङ्कन
मोडेल प्रशिक्षित भएपछि, अन्तिम चरण भविष्यवाणी गर्न हो। यो गर्नको लागि, हामीले प्रशिक्षित गरेको RandomForestClassifier वर्ग वस्तुमा भविष्यवाणी विधि लागू गर्नुपर्छ।
अन्तमा, वर्गीकरण उपायहरू जस्तै भ्रम मेट्रिक्स, F1 उपायहरू, शुद्धता, र यस्तै अन्य मेसिन लर्निङ मोडेलहरूको कार्यसम्पादन मूल्याङ्कन गर्न प्रयोग गर्न सकिन्छ।
उत्पादन:
हाम्रो एल्गोरिथ्मले 75.30 को शुद्धता हासिल गर्यो, परिणामहरूले देखेको रूपमा।
निष्कर्ष
भावना विश्लेषण सबैभन्दा धेरै बारम्बार NLP कार्यहरू मध्ये एक हो किनभने यसले एक विशेष मुद्दामा समग्र सार्वजनिक राय पहिचान गर्न मद्दत गर्दछ।
हामीले देख्यौं कि कसरी धेरै पाइथन पुस्तकालयहरूले भावना विश्लेषणमा मद्दत गर्न सक्छ।
हामीले छ यूएस एयरलाइन्सको बारेमा सार्वजनिक ट्वीटहरूको अध्ययन गर्यौं र लगभग 75% को शुद्धतामा पुग्यौं।
म सुझाव दिन्छु कि तपाईले अर्को मेसिन लर्निङ एल्गोरिथ्म प्रयास गर्नुहोस्, जस्तै लजिस्टिक रिग्रेसन, SVM, वा KNN, तपाईले राम्रो परिणामहरू प्राप्त गर्न सक्नुहुन्छ कि भनेर हेर्न।
जवाफ छाड्नुस्