विषय - सूची[छिपाना][प्रदर्शन]
मुझे यकीन है कि आपने आर्टिफिशियल इंटेलिजेंस के साथ-साथ मशीन लर्निंग और नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) जैसे शब्दों के बारे में सुना होगा।
खासकर यदि आप एक ऐसी फर्म के लिए काम करते हैं जो हर दिन सैकड़ों, यदि हजारों नहीं, तो क्लाइंट कॉन्टैक्ट्स को हैंडल करती है।
सोशल मीडिया पोस्टिंग, ईमेल, चैट, ओपन-एंडेड सर्वेक्षण उत्तरों और अन्य स्रोतों का डेटा विश्लेषण एक सरल प्रक्रिया नहीं है, और यह तब और भी कठिन हो जाता है जब इसे केवल लोगों को सौंपा जाता है।
यही कारण है कि बहुत से लोग की क्षमता के बारे में उत्साहित हैं कृत्रिम बुद्धिमत्ता उनके दिन-प्रतिदिन के काम के लिए और उद्यमों के लिए।
एआई-पावर्ड टेक्स्ट विश्लेषण भाषा की व्यवस्थित रूप से व्याख्या करने के लिए व्यापक दृष्टिकोण या एल्गोरिदम को नियोजित करता है, जिनमें से एक विषय विश्लेषण है, जिसका उपयोग टेक्स्ट से विषयों को स्वचालित रूप से खोजने के लिए किया जाता है।
व्यवसाय बहुत अधिक डेटा वाले श्रमिकों पर बोझ डालने के बजाय मशीनों पर आसान नौकरियों को स्थानांतरित करने के लिए विषय विश्लेषण मॉडल का उपयोग कर सकते हैं।
विचार करें कि आपकी टीम कितना समय बचा सकती है और अधिक आवश्यक कार्य के लिए समर्पित कर सकती है यदि कोई कंप्यूटर ग्राहक सर्वेक्षणों की अंतहीन सूचियों या हर सुबह समर्थन मुद्दों के माध्यम से फ़िल्टर कर सकता है।
इस गाइड में, हम विषय मॉडलिंग, विषय मॉडलिंग के विभिन्न तरीकों पर गौर करेंगे, और इसके साथ कुछ व्यावहारिक अनुभव प्राप्त करेंगे।
विषय मॉडलिंग क्या है?
विषय मॉडलिंग एक प्रकार का टेक्स्ट माइनिंग है जिसमें पर्यवेक्षित और पर्यवेक्षित सांख्यिकीय यंत्र अधिगम तकनीकों का उपयोग किसी संग्रह या असंरचित पाठ की एक महत्वपूर्ण मात्रा में प्रवृत्तियों का पता लगाने के लिए किया जाता है।
यह आपके दस्तावेज़ों का विशाल संग्रह ले सकता है और शब्दों को शब्दों के समूहों में व्यवस्थित करने और विषयों की खोज करने के लिए एक समानता पद्धति का उपयोग कर सकता है।
यह थोड़ा जटिल और कठिन लगता है, तो चलिए विषय मॉडलिंग प्रक्रिया को सरल बनाते हैं!
मान लें कि आप एक अखबार पढ़ रहे हैं जिसके हाथ में रंगीन हाइलाइटर हैं।
क्या वह पुराने जमाने का नहीं है?
मुझे एहसास हुआ कि आजकल बहुत कम लोग प्रिंट में अखबार पढ़ते हैं; सब कुछ डिजिटल है, और हाइलाइटर्स अतीत की बात है! अपने पिता या माँ होने का नाटक करें!
इसलिए, जब आप अखबार पढ़ते हैं, तो आप महत्वपूर्ण शब्दों को हाइलाइट करते हैं।
एक और धारणा!
आप विभिन्न विषयों के कीवर्ड पर जोर देने के लिए एक अलग रंग का उपयोग करते हैं। आप दिए गए रंग और विषयों के आधार पर खोजशब्दों को वर्गीकृत करते हैं।
एक निश्चित रंग द्वारा चिह्नित शब्दों का प्रत्येक संग्रह किसी दिए गए विषय के लिए खोजशब्दों की एक सूची है। आपके द्वारा चुने गए विभिन्न रंगों की मात्रा थीम की संख्या दर्शाती है।
यह सबसे मौलिक विषय मॉडलिंग है। यह बड़े पाठ संग्रहों की समझ, संगठन और सारांश में सहायता करता है।
हालांकि, ध्यान रखें कि प्रभावी होने के लिए, स्वचालित विषय मॉडल के लिए बहुत अधिक सामग्री की आवश्यकता होती है। यदि आपके पास एक छोटा पेपर है, तो आप पुराने स्कूल जाना और हाइलाइटर्स का उपयोग करना चाहेंगे!
डेटा जानने के लिए कुछ समय बिताना भी फायदेमंद है। यह आपको एक बुनियादी समझ देगा कि विषय मॉडल को क्या खोजना चाहिए।
उदाहरण के लिए, वह डायरी आपके वर्तमान और पिछले संबंधों के बारे में हो सकती है। इस प्रकार, मैं अपने टेक्स्ट माइनिंग रोबोट-दोस्त को समान विचारों के साथ आने का अनुमान लगाऊंगा।
यह आपके द्वारा पहचाने गए विषयों की गुणवत्ता का बेहतर विश्लेषण करने में आपकी सहायता कर सकता है और, यदि आवश्यक हो, तो कीवर्ड सेट में बदलाव करें।
विषय मॉडलिंग के घटक
संभाव्य मॉडल
यादृच्छिक चर और संभाव्यता वितरण को संभाव्य मॉडल में किसी घटना या घटना के प्रतिनिधित्व में शामिल किया जाता है।
एक नियतात्मक मॉडल एक घटना के लिए एक संभावित निष्कर्ष प्रदान करता है, जबकि एक संभाव्य मॉडल एक समाधान के रूप में एक संभाव्यता वितरण प्रदान करता है।
ये मॉडल इस वास्तविकता पर विचार करते हैं कि हमें शायद ही कभी किसी स्थिति का पूरा ज्ञान होता है। विचार करने के लिए लगभग हमेशा यादृच्छिकता का एक तत्व होता है।
उदाहरण के लिए, जीवन बीमा इस वास्तविकता पर आधारित है कि हम जानते हैं कि हम मरेंगे, लेकिन हम नहीं जानते कि कब। ये मॉडल आंशिक रूप से नियतात्मक, आंशिक रूप से यादृच्छिक या पूरी तरह से यादृच्छिक हो सकते हैं।
सूचनात्मक पुनर्प्राप्ति
सूचना पुनर्प्राप्ति (IR) एक सॉफ्टवेयर प्रोग्राम है जो दस्तावेज़ भंडारों, विशेष रूप से पाठ्य जानकारी से जानकारी को व्यवस्थित, संग्रहीत, पुनर्प्राप्त और मूल्यांकन करता है।
प्रौद्योगिकी उपयोगकर्ताओं को उनकी आवश्यक जानकारी खोजने में मदद करती है, लेकिन यह उनकी पूछताछ के उत्तर स्पष्ट रूप से नहीं देती है। यह उन कागजात की उपस्थिति और स्थान की सूचना देता है जो आवश्यक जानकारी प्रदान कर सकते हैं।
प्रासंगिक दस्तावेज वे हैं जो उपयोगकर्ता की जरूरतों को पूरा करते हैं। एक दोषरहित IR सिस्टम केवल चयनित दस्तावेज़ लौटाएगा।
सामयिक सामंजस्य
विषय के उच्च-स्कोरिंग शब्दों के बीच शब्दार्थ समानता की डिग्री की गणना करके विषय सुसंगतता एक एकल विषय को स्कोर करती है। ये मेट्रिक्स उन विषयों के बीच अंतर करने में सहायता करते हैं जो शब्दार्थ रूप से व्याख्या योग्य हैं और ऐसे विषय जो सांख्यिकीय अनुमान कलाकृतियाँ हैं।
यदि दावों या तथ्यों का समूह एक दूसरे का समर्थन करता है, तो उन्हें सुसंगत कहा जाता है।
नतीजतन, एक सुसंगत तथ्य सेट को ऐसे संदर्भ में समझा जा सकता है जिसमें सभी या अधिकांश तथ्य शामिल हैं। "खेल एक टीम खेल है," "खेल एक गेंद के साथ खेला जाता है," और "खेल को जबरदस्त शारीरिक प्रयास की आवश्यकता होती है" सभी एकजुट तथ्य सेट के उदाहरण हैं।
विषय मॉडलिंग के विभिन्न तरीके
यह महत्वपूर्ण प्रक्रिया विभिन्न प्रकार के एल्गोरिदम या पद्धतियों द्वारा की जा सकती है। उनमें से हैं:
- अव्यक्त डिरिचलेट आवंटन (LDA)
- गैर नकारात्मक मैट्रिक्स फैक्टराइजेशन (एनएमएफ)
- गुप्त शब्दार्थ विश्लेषण (एलएसए)
- संभाव्य गुप्त शब्दार्थ विश्लेषण (पीएलएसए)
गुप्त डिरिचलेट आवंटन (एलडीए)
एक संग्रह में कई पाठों के बीच संबंधों का पता लगाने के लिए, लेटेंट डिरिचलेट आवंटन की सांख्यिकीय और ग्राफिकल अवधारणा का उपयोग किया जाता है।
वैरिएशनल एक्सेप्शन मैक्सिमाइज़ेशन (VEM) दृष्टिकोण का उपयोग करते हुए, टेक्स्ट के पूर्ण संग्रह से सबसे बड़ा संभावना अनुमान प्राप्त किया जाता है।
परंपरागत रूप से, शब्दों के एक थैले से शीर्ष कुछ शब्द चुने जाते हैं।
हालाँकि, वाक्य पूरी तरह से अर्थहीन है।
इस तकनीक के अनुसार, प्रत्येक पाठ को विषयों के संभाव्य वितरण द्वारा और प्रत्येक विषय को शब्दों के संभाव्य वितरण द्वारा दर्शाया जाएगा।
गैर नकारात्मक मैट्रिक्स फैक्टराइजेशन (एनएमएफ)
गैर-नकारात्मक मूल्यों के साथ मैट्रिक्स फैक्टराइजेशन एक अत्याधुनिक फीचर निष्कर्षण दृष्टिकोण है।
जब कई गुण होते हैं और विशेषताएँ अस्पष्ट होती हैं या खराब भविष्यवाणी होती है, तो NMF फायदेमंद होता है। एनएमएफ विशेषताओं के संयोजन से महत्वपूर्ण पैटर्न, विषय या थीम उत्पन्न कर सकता है।
एनएमएफ प्रत्येक सुविधा को मूल विशेषता सेट के रैखिक संयोजन के रूप में उत्पन्न करता है।
प्रत्येक विशेषता में गुणांक का एक सेट होता है जो सुविधा पर प्रत्येक विशेषता के महत्व का प्रतिनिधित्व करता है। प्रत्येक संख्यात्मक विशेषता और प्रत्येक श्रेणी विशेषता के प्रत्येक मान का अपना गुणांक होता है।
सभी गुणांक सकारात्मक हैं।
अव्यक्त शब्दार्थ विश्लेषण
दस्तावेजों के एक सेट में शब्दों के बीच संघों को निकालने के लिए उपयोग की जाने वाली यह एक और अनुपयोगी शिक्षण पद्धति है, जो गुप्त अर्थ विश्लेषण है।
इससे हमें सही दस्तावेज चुनने में मदद मिलती है। इसका प्राथमिक कार्य टेक्स्ट डेटा के विशाल कोष की आयामीता को कम करना है।
ये अनावश्यक डेटा डेटा से आवश्यक अंतर्दृष्टि प्राप्त करने में पृष्ठभूमि शोर के रूप में कार्य करते हैं।
संभाव्य गुप्त शब्दार्थ विश्लेषण (पीएलएसए)
संभाव्य अव्यक्त अर्थ विश्लेषण (पीएलएसए), जिसे कभी-कभी संभाव्य अव्यक्त शब्दार्थ अनुक्रमण (पीएलएसआई, विशेष रूप से सूचना पुनर्प्राप्ति मंडलियों में) के रूप में जाना जाता है, दो-मोड और सह-घटना डेटा का विश्लेषण करने के लिए एक सांख्यिकीय दृष्टिकोण है।
वास्तव में, अव्यक्त शब्दार्थ विश्लेषण के समान, जिसमें से PLSA का उदय हुआ, प्रेक्षित चरों का एक निम्न-आयामी प्रतिनिधित्व विशेष रूप से छिपे हुए चर के लिए उनकी आत्मीयता के संदर्भ में प्राप्त किया जा सकता है।
पायथन में विषय मॉडलिंग के साथ व्यावहारिक
अब, मैं आपको Python के साथ एक विषय मॉडलिंग असाइनमेंट के बारे में बताता हूँ प्रोग्रामिंग भाषा एक वास्तविक दुनिया के उदाहरण का उपयोग करना।
मैं शोध लेखों की मॉडलिंग करूंगा। मैं यहां जिस डेटासेट का उपयोग कर रहा हूं वह kaggle.com से आता है। आप इस काम में मेरे द्वारा उपयोग की जा रही सभी फाइलों को इस से आसानी से प्राप्त कर सकते हैं पृष्ठ.
आइए सभी आवश्यक पुस्तकालयों को आयात करके पायथन का उपयोग करके विषय मॉडलिंग के साथ आरंभ करें:
निम्नलिखित चरण उन सभी डेटासेट को पढ़ना है जिनका मैं इस कार्य में उपयोग करूंगा:
अन्वेषणात्मक डेटा विश्लेषण
ईडीए (अन्वेषी डेटा विश्लेषण) एक सांख्यिकीय पद्धति है जो दृश्य तत्वों को नियोजित करती है। यह रुझानों, पैटर्न और परीक्षण मान्यताओं की खोज के लिए सांख्यिकीय सारांश और चित्रमय प्रतिनिधित्व का उपयोग करता है।
विषय मॉडलिंग शुरू करने से पहले मैं कुछ खोजपूर्ण डेटा विश्लेषण करूँगा, यह देखने के लिए कि क्या डेटा में कोई पैटर्न या संबंध हैं:
अब हम परीक्षण डेटासेट के शून्य मान पाएंगे:
अब मैं चरों के बीच संबंध की जांच करने के लिए एक हिस्टोग्राम और बॉक्सप्लॉट की साजिश रचूंगा।
एब्सट्रैक्ट ऑफ़ ट्रेन सेट में वर्णों की मात्रा बहुत भिन्न होती है।
ट्रेन में हमारे पास न्यूनतम 54 और अधिकतम 4551 वर्ण होते हैं। 1065 वर्णों की औसत मात्रा है।
परीक्षण सेट प्रशिक्षण सेट की तुलना में अधिक दिलचस्प लगता है क्योंकि परीक्षण सेट में 46 वर्ण होते हैं जबकि प्रशिक्षण सेट में 2841 होते हैं।
नतीजतन, परीक्षण सेट में 1058 वर्णों का एक माध्यिका था, जो प्रशिक्षण सेट के समान है।
सीखने के सेट में शब्दों की संख्या अक्षरों की संख्या के समान पैटर्न का अनुसरण करती है।
न्यूनतम 8 शब्दों और अधिकतम 665 शब्दों की अनुमति है। नतीजतन, औसत शब्द गणना 153 है।
एक सार में न्यूनतम सात शब्द और परीक्षण सेट में अधिकतम 452 शब्द आवश्यक हैं।
इस मामले में, माध्यिका 153 है, जो प्रशिक्षण सेट में माध्यिका के समान है।
विषय मॉडलिंग के लिए टैग का उपयोग करना
कई विषय मॉडलिंग रणनीतियाँ हैं। मैं इस अभ्यास में टैग का उपयोग करूँगा; आइए देखें कि टैग की जांच करके ऐसा कैसे करें:
विषय मॉडलिंग के अनुप्रयोग
- किसी दस्तावेज़ या पुस्तक के विषय को समझने के लिए टेक्स्ट सारांश का उपयोग किया जा सकता है।
- इसका उपयोग परीक्षा स्कोरिंग से उम्मीदवार के पूर्वाग्रह को दूर करने के लिए किया जा सकता है।
- ग्राफ-आधारित मॉडल में शब्दों के बीच अर्थ संबंध बनाने के लिए विषय मॉडलिंग का उपयोग किया जा सकता है।
- यह ग्राहक की पूछताछ में खोजशब्दों का पता लगाकर और उनका जवाब देकर ग्राहक सेवा को बढ़ा सकता है। ग्राहकों को आप पर अधिक विश्वास होगा क्योंकि आपने उन्हें उचित समय पर और बिना किसी परेशानी के सहायता प्रदान की है। नतीजतन, ग्राहक वफादारी नाटकीय रूप से बढ़ जाती है, और कंपनी की कीमत बढ़ जाती है।
निष्कर्ष
विषय मॉडलिंग एक प्रकार का सांख्यिकीय मॉडलिंग है जिसका उपयोग अमूर्त "विषयों" को उजागर करने के लिए किया जाता है जो ग्रंथों के संग्रह में मौजूद होते हैं।
यह सांख्यिकीय मॉडल का एक रूप है जिसका उपयोग किया जाता है यंत्र अधिगम और ग्रंथों के एक सेट में मौजूद अमूर्त अवधारणाओं को उजागर करने के लिए प्राकृतिक भाषा प्रसंस्करण।
यह एक टेक्स्ट माइनिंग विधि है जिसका व्यापक रूप से बॉडी टेक्स्ट में गुप्त सिमेंटिक पैटर्न खोजने के लिए उपयोग किया जाता है।
एक जवाब लिखें