Python - HashDork प्रयोग गरेर NLP भावना विश्लेषण

विषयसूची[लुकाउनुहोस्][देखाउनु]

भावना विश्लेषण के हो?
भावना विश्लेषण को लाभ
भावना विश्लेषण - समस्या कथन+-
निष्कर्ष

व्यवसायहरूले २०२१ सम्ममा उपभोक्ता अन्तरक्रिया डाटाको अधिग्रहणमा महारत हासिल गर्नेछन्।

यी डेटा बिन्दुहरूमा अत्यधिक निर्भरता, अर्कोतर्फ, ग्राहकको इनपुटलाई तथ्याङ्कको रूपमा व्यवहार गर्ने संस्थाहरूलाई प्रायः नेतृत्व गर्दछ - ग्राहकको आवाज सुन्नको लागि बरु एक-आयामी दृष्टिकोण।

ग्राहकको आवाज ब्याज वा नम्बरमा रूपान्तरण गर्न सकिँदैन।

यसलाई पढ्नुपर्छ, सघन, र, सबै भन्दा माथि, बुझ्नुपर्छ।

तथ्य यो हो कि कम्पनीहरूले सक्रिय रूपमा सुन्नु पर्छ आफ्ना उपभोक्ताहरूले प्रत्येक च्यानलमा के भनेका छन् जसको माध्यमबाट उनीहरूले उनीहरूसँग अन्तरक्रिया गर्छन्, चाहे त्यो फोन कल, इमेल, वा लाइभ च्याट मार्फत होस्।

प्रत्येक कम्पनीले उपभोक्ता प्रतिक्रिया भावना अनुगमन र मूल्याङ्कनलाई प्राथमिकता दिनुपर्छ, तर कम्पनीहरूले परम्परागत रूपमा यो डेटा ह्यान्डल गर्न र यसलाई अर्थपूर्ण बुद्धिमत्तामा रूपान्तरण गर्न संघर्ष गरेका छन्।

यो अब भावना विश्लेषण मा मामला छैन।

यस ट्यूटोरियलमा, हामी भावना विश्लेषण, यसको फाइदाहरू, र कसरी प्रयोग गर्ने भन्ने बारे नजिकबाट हेर्नेछौं। NLTK डाटामा भावना विश्लेषण गर्न पुस्तकालय।

भावना विश्लेषण के हो?

भावना विश्लेषण, अक्सर कुराकानी खनन को रूप मा जानिन्छ, मान्छे को भावना, विचार, र विचार को विश्लेषण को लागी एक विधि हो।

भावना विश्लेषणले व्यवसायहरूलाई आफ्ना उपभोक्ताहरूको राम्रोसँग बुझ्न, राजस्व बढाउन, र ग्राहक इनपुटको आधारमा आफ्ना उत्पादनहरू र सेवाहरू बढाउन अनुमति दिन्छ।

ग्राहक भावना विश्लेषण गर्न सक्षम एक सफ्टवेयर प्रणाली र एक विक्रेता/ग्राहक सेवा प्रतिनिधि यो अनुमान गर्न प्रयास गर्ने बीचको भिन्नता कच्चा पाठबाट वस्तुगत परिणामहरू प्राप्त गर्ने पूर्वको पूर्ण क्षमता हो - यो मुख्य रूपमा प्राकृतिक भाषा प्रशोधन (NLP) र मार्फत पूरा हुन्छ। मेशिन सिकाइ प्रविधिहरू।

भावना पहिचान देखि पाठ वर्गीकरण सम्म, भावना विश्लेषण अनुप्रयोग को एक विस्तृत श्रृंखला छ। हामी उत्पादन मूल्याङ्कन वा उपभोक्ता प्रतिक्रियाको भावना अनुगमन फर्मलाई मद्दत गर्न पाठ्य डेटामा भावना विश्लेषण प्रयोग गर्छौं।

विभिन्न सामाजिक सञ्जाल साइटहरूले यसलाई पोस्टिङको भावनाको मूल्याङ्कन गर्न प्रयोग गर्छन्, र यदि भावना धेरै बलियो वा हिंसात्मक छ, वा तिनीहरूको थ्रेसहोल्ड भन्दा तल खस्छ भने, पोस्ट या त मेटाइन्छ वा लुकाइन्छ।

भावना विश्लेषण भावना पहिचान देखि पाठ वर्गीकरण सबै को लागी प्रयोग गर्न सकिन्छ।

भावना विश्लेषणको सबैभन्दा लोकप्रिय प्रयोग पाठ्य डेटामा छ, जहाँ यो उत्पादन मूल्याङ्कन वा उपभोक्ता टिप्पणीहरूको भावना ट्र्याक गर्न कम्पनीलाई मद्दत गर्न प्रयोग गरिन्छ।

विभिन्न सामाजिक सञ्जाल साइटहरूले पनि पोस्टिङको भावनाको मूल्याङ्कन गर्न प्रयोग गर्छन्, र यदि भावना धेरै बलियो वा हिंसात्मक छ, वा तिनीहरूको थ्रेसहोल्ड भन्दा तल खस्छ, तिनीहरूले पोस्ट मेटाउँछन् वा लुकाउँछन्।

भावना विश्लेषण को लाभ

निम्न भावना विश्लेषणका केही महत्त्वपूर्ण फाइदाहरू छन् जुन बेवास्ता गर्नु हुँदैन।

तपाइँको लक्षित जनसांख्यिकीय बीच तपाइँको ब्रान्ड को धारणा को आकलन मा मद्दत गर्नुहोस्।
तपाइँको उत्पादन को विकास मा मद्दत गर्न को लागी प्रत्यक्ष ग्राहक प्रतिक्रिया प्रदान गरिएको छ।
बिक्री राजस्व र संभावना बढाउँछ।
तपाईंको उत्पादनका च्याम्पियनहरूको लागि अपसेल अवसरहरू बढेका छन्।
सक्रिय ग्राहक सेवा एक व्यावहारिक विकल्प हो।

नम्बरहरूले तपाईंलाई मार्केटिङ अभियानको कच्चा प्रदर्शन, सम्भावित कलमा संलग्नताको मात्रा, र ग्राहक समर्थनमा पेन्डिङ टिकटहरूको सङ्ख्या जस्ता जानकारी प्रदान गर्न सक्छ।

यद्यपि, यसले तपाइँलाई एक विशेष घटना किन भयो वा यसको कारणले बताउँदैन। उदाहरणका लागि, Google र Facebook जस्ता विश्लेषक उपकरणहरूले तपाइँको मार्केटिङ प्रयासहरूको प्रदर्शन मूल्याङ्कन गर्न मद्दत गर्न सक्छ।

तर तिनीहरूले तपाईंलाई त्यो विशेष अभियान किन सफल भयो भन्ने बारेमा गहिरो ज्ञान प्रदान गर्दैनन्।

भावना विश्लेषण यस सन्दर्भमा खेल-परिवर्तन हुने सम्भावना छ।

भावना विश्लेषण - समस्या कथन

ट्विटमा आधारित छ युएस एयरलाइन्सको सम्बन्धमा ट्वीटमा अनुकूल, नकारात्मक वा तटस्थ भावना छ कि छैन भनेर निर्धारण गर्ने उद्देश्य हो।

यो एक मानक पर्यवेक्षित सिकाइ कार्य हो जसमा हामीले पाठ स्ट्रिङलाई पूर्वनिर्धारित कोटीहरूमा वर्गीकरण गर्नुपर्छ।

समाधान

हामी यो समस्यालाई सम्बोधन गर्न मानक मेसिन लर्निङ प्रक्रिया प्रयोग गर्नेछौं। हामी आवश्यक पुस्तकालयहरू र डेटासेटहरू आयात गरेर सुरु गर्नेछौं।

त्यसपछि हामी डेटामा कुनै ढाँचाहरू छन् वा छैनन् भनी निर्धारण गर्न केही अन्वेषणात्मक डेटा विश्लेषण गर्नेछौं। त्यस पछि, हामी पाठ प्रीप्रोसेसिङलाई पाठ्य इनपुट संख्यात्मक डेटालाई बदल्नको लागि लिनेछौं जुन एक मेशिन सिकाइ प्रणाली प्रयोग गर्न सक्छ।

अन्तमा, हामी मेसिन लर्निङ विधिहरू प्रयोग गरेर हाम्रो भावना विश्लेषण मोडेलहरूलाई तालिम दिनेछौं र मूल्याङ्कन गर्नेछौं।

1. पुस्तकालयहरू आयात गर्दै

आवश्यक पुस्तकालयहरू लोड गर्नुहोस्।

पुस्तकालयहरू आयात गर्दै

2. डाटासेट आयात गर्नुहोस्

यो लेख एक डाटासेट मा आधारित हुनेछ जुन मा पाउन सकिन्छ Github। डेटासेट तल देखिए अनुसार, पान्डाको पढ्ने CSV प्रकार्य प्रयोग गरेर आयात गरिनेछ:

डाटासेट आयात गर्दै

हेड() प्रकार्य प्रयोग गरेर, डेटासेटको पहिलो पाँच पङ्क्तिहरू जाँच गर्नुहोस्:

हेड डाटासेट

उत्पादन:

हेड डाटासेटको आउटपुट

3. डाटाको विश्लेषण

कुनै प्रवृति छ कि छैन भनेर निर्धारण गर्न डेटाको जाँच गरौं। तर पहिले, हामी चार्टहरूलाई थप दृश्यात्मक बनाउन पूर्वनिर्धारित प्लट साइज परिवर्तन गर्नेछौं।

प्लट आकार समायोजन

हामी प्रत्येक एयरलाइन द्वारा प्राप्त ट्वीट को संख्या संग सुरु गरौं। हामी यसको लागि पाई चार्ट प्रयोग गर्नेछौं:

पाइ चार्ट

प्रत्येक एयरलाइनका लागि सार्वजनिक ट्वीटहरूको प्रतिशत उत्पादनमा प्रदर्शित हुन्छ।

पाई चार्ट आउटपुट

सबै ट्विटहरूमा भावनाहरू कसरी बाँडिएको छ भनेर हेरौं।

सिमेन्टिक पाई चार्ट

उत्पादन:

सिमेन्टिक पाई चार्ट आउटपुट

अब हामी प्रत्येक विशिष्ट एयरलाइनको लागि भावनाको वितरण जाँच गरौं।

परिणामहरू अनुसार, प्रायः सबै एयरलाइन्सका लागि धेरै ट्वीटहरू प्रतिकूल छन्, तटस्थ र राम्रो ट्वीटहरू पछ्याउँदै। भर्जिन अमेरिका सायद एक मात्र एयरलाइन हो जहाँ तीन भावनाहरूको अनुपात तुलनात्मक छ।

प्रत्येक एयरलाइन को वितरण

उत्पादन:

प्रत्येक एयरलाइन आउटपुट को वितरण

अन्तमा, हामी तीन भावना कोटिहरूबाट ट्वीटहरूको लागि औसत आत्मविश्वास स्तर प्राप्त गर्न Seaborn पुस्तकालय प्रयोग गर्नेछौं।

बार प्लट

उत्पादन:

बार प्लट आउटपुट

नतिजाले देखाउँछ कि नकारात्मक ट्वीटहरूको लागि आत्मविश्वास स्तर सकारात्मक वा तटस्थ ट्वीटहरू भन्दा ठूलो छ।

4. डाटा सफा गर्दै

धेरै अपशब्द सर्तहरू र विराम चिन्हहरू ट्वीटहरूमा फेला पार्न सकिन्छ। हामीले मेसिन लर्निङ मोडेललाई तालिम दिनु अघि, हामीले हाम्रा ट्वीटहरू सफा गर्न आवश्यक छ।

यद्यपि, हामीले ट्वीटहरू सफा गर्न सुरु गर्नु अघि, हामीले हाम्रो डेटासेटलाई सुविधा र लेबल सेटहरूमा अलग गर्नुपर्छ।

सुविधाहरू र लेबलहरू

हामीले डेटालाई सुविधाहरू र प्रशिक्षण सेटहरूमा विभाजन गरेपछि हामी यसलाई सफा गर्न सक्छौं। यो गर्नको लागि नियमित अभिव्यक्तिहरू प्रयोग गरिनेछ।

नियमित अभिव्यक्ति

5. पाठको संख्यात्मक प्रतिनिधित्व

मेसिन लर्निङ मोडेलहरू प्रशिक्षित गर्न, सांख्यिकीय एल्गोरिदमले गणित प्रयोग गर्दछ। गणित, अर्कोतर्फ, केवल संख्या संग काम गर्दछ।

हामीले यसलाई डिल गर्नको लागि सांख्यिकीय एल्गोरिदमहरूको लागि पहिले पाठलाई संख्यामा रूपान्तरण गर्नुपर्छ। त्यसो गर्ने तीनवटा आधारभूत तरिकाहरू छन्: शब्दको झोला, TF-IDF, र Word2Vec।

सौभाग्य देखि, TfidfVectorizer वर्ग Python को Scikit-Learn मोड्युलमा पाठ सुविधाहरूलाई TF-IDF सुविधा भेक्टरहरूमा रूपान्तरण गर्न प्रयोग गर्न सकिन्छ।

TF IDF

6. डाटा-संचालित प्रशिक्षण र परीक्षण सेटहरू सिर्जना गर्दै

अन्तमा, हामीले हाम्रो एल्गोरिदमलाई प्रशिक्षण दिनु अघि हाम्रो डेटालाई प्रशिक्षण र परीक्षण सेटहरूमा विभाजन गर्नुपर्छ।

तालिम सेटलाई एल्गोरिदम तालिम दिन प्रयोग गरिनेछ, र मेसिन लर्निङ मोडेलको कार्यसम्पादन मूल्याङ्कन गर्न परीक्षण सेट प्रयोग गरिनेछ।

ट्रेन परीक्षण

7. मोडेल विकास

डेटालाई प्रशिक्षण र परीक्षण सेटहरूमा विभाजन गरिसकेपछि, प्रशिक्षण डेटाबाट सिक्नको लागि मेसिन लर्निङ प्रविधिहरू प्रयोग गरिन्छ।

तपाईं कुनै पनि मेसिन लर्निङ एल्गोरिदम प्रयोग गर्न सक्नुहुन्छ। अनियमित वन दृष्टिकोण, तथापि, यसको गैर-सामान्यीकृत डाटासँग सामना गर्ने क्षमताको कारण प्रयोग गरिनेछ।

मोडल तालिम

8. भविष्यवाणी र मोडेल मूल्याङ्कन

मोडेल प्रशिक्षित भएपछि, अन्तिम चरण भविष्यवाणी गर्न हो। यो गर्नको लागि, हामीले प्रशिक्षित गरेको RandomForestClassifier वर्ग वस्तुमा भविष्यवाणी विधि लागू गर्नुपर्छ।

मोडेल भविष्यवाणी

अन्तमा, वर्गीकरण उपायहरू जस्तै भ्रम मेट्रिक्स, F1 उपायहरू, शुद्धता, र यस्तै अन्य मेसिन लर्निङ मोडेलहरूको कार्यसम्पादन मूल्याङ्कन गर्न प्रयोग गर्न सकिन्छ।

वर्गीकरण मेट्रिक्स

उत्पादन:

वर्गीकरण मेट्रिक्स आउटपुट

हाम्रो एल्गोरिथ्मले 75.30 को शुद्धता हासिल गर्यो, परिणामहरूले देखेको रूपमा।

निष्कर्ष

भावना विश्लेषण सबैभन्दा धेरै बारम्बार NLP कार्यहरू मध्ये एक हो किनभने यसले एक विशेष मुद्दामा समग्र सार्वजनिक राय पहिचान गर्न मद्दत गर्दछ।

हामीले देख्यौं कि कसरी धेरै पाइथन पुस्तकालयहरूले भावना विश्लेषणमा मद्दत गर्न सक्छ।

हामीले छ यूएस एयरलाइन्सको बारेमा सार्वजनिक ट्वीटहरूको अध्ययन गर्यौं र लगभग 75% को शुद्धतामा पुग्यौं।

म सुझाव दिन्छु कि तपाईले अर्को मेसिन लर्निङ एल्गोरिथ्म प्रयास गर्नुहोस्, जस्तै लजिस्टिक रिग्रेसन, SVM, वा KNN, तपाईले राम्रो परिणामहरू प्राप्त गर्न सक्नुहुन्छ कि भनेर हेर्न।

पाइथन प्रयोग गरेर NLP भावना विश्लेषण

भावना विश्लेषण के हो?

भावना विश्लेषण को लाभ