शुरुआती के लिए विषय मॉडलिंग परिचय

विषय - सूची[छिपाना][प्रदर्शन]

विषय मॉडलिंग क्या है?
विषय मॉडलिंग के घटक+-
- संभाव्य मॉडल
- सूचनात्मक पुनर्प्राप्ति
विषय मॉडलिंग के विभिन्न तरीके+-
पायथन में विषय मॉडलिंग के साथ व्यावहारिक+-
- अन्वेषणात्मक डेटा विश्लेषण
- विषय मॉडलिंग के लिए टैग का उपयोग करना
विषय मॉडलिंग के अनुप्रयोग
निष्कर्ष

मुझे यकीन है कि आपने आर्टिफिशियल इंटेलिजेंस के साथ-साथ मशीन लर्निंग और नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) जैसे शब्दों के बारे में सुना होगा।

खासकर यदि आप एक ऐसी फर्म के लिए काम करते हैं जो हर दिन सैकड़ों, यदि हजारों नहीं, तो क्लाइंट कॉन्टैक्ट्स को हैंडल करती है।

सोशल मीडिया पोस्टिंग, ईमेल, चैट, ओपन-एंडेड सर्वेक्षण उत्तरों और अन्य स्रोतों का डेटा विश्लेषण एक सरल प्रक्रिया नहीं है, और यह तब और भी कठिन हो जाता है जब इसे केवल लोगों को सौंपा जाता है।

यही कारण है कि बहुत से लोग की क्षमता के बारे में उत्साहित हैं कृत्रिम बुद्धिमत्ता उनके दिन-प्रतिदिन के काम के लिए और उद्यमों के लिए।

एआई-पावर्ड टेक्स्ट विश्लेषण भाषा की व्यवस्थित रूप से व्याख्या करने के लिए व्यापक दृष्टिकोण या एल्गोरिदम को नियोजित करता है, जिनमें से एक विषय विश्लेषण है, जिसका उपयोग टेक्स्ट से विषयों को स्वचालित रूप से खोजने के लिए किया जाता है।

व्यवसाय बहुत अधिक डेटा वाले श्रमिकों पर बोझ डालने के बजाय मशीनों पर आसान नौकरियों को स्थानांतरित करने के लिए विषय विश्लेषण मॉडल का उपयोग कर सकते हैं।

विचार करें कि आपकी टीम कितना समय बचा सकती है और अधिक आवश्यक कार्य के लिए समर्पित कर सकती है यदि कोई कंप्यूटर ग्राहक सर्वेक्षणों की अंतहीन सूचियों या हर सुबह समर्थन मुद्दों के माध्यम से फ़िल्टर कर सकता है।

इस गाइड में, हम विषय मॉडलिंग, विषय मॉडलिंग के विभिन्न तरीकों पर गौर करेंगे, और इसके साथ कुछ व्यावहारिक अनुभव प्राप्त करेंगे।

विषय मॉडलिंग क्या है?

विषय मॉडलिंग एक प्रकार का टेक्स्ट माइनिंग है जिसमें पर्यवेक्षित और पर्यवेक्षित सांख्यिकीय यंत्र अधिगम तकनीकों का उपयोग किसी संग्रह या असंरचित पाठ की एक महत्वपूर्ण मात्रा में प्रवृत्तियों का पता लगाने के लिए किया जाता है।

यह आपके दस्तावेज़ों का विशाल संग्रह ले सकता है और शब्दों को शब्दों के समूहों में व्यवस्थित करने और विषयों की खोज करने के लिए एक समानता पद्धति का उपयोग कर सकता है।

यह थोड़ा जटिल और कठिन लगता है, तो चलिए विषय मॉडलिंग प्रक्रिया को सरल बनाते हैं!

मान लें कि आप एक अखबार पढ़ रहे हैं जिसके हाथ में रंगीन हाइलाइटर हैं।

क्या वह पुराने जमाने का नहीं है?

मुझे एहसास हुआ कि आजकल बहुत कम लोग प्रिंट में अखबार पढ़ते हैं; सब कुछ डिजिटल है, और हाइलाइटर्स अतीत की बात है! अपने पिता या माँ होने का नाटक करें!

इसलिए, जब आप अखबार पढ़ते हैं, तो आप महत्वपूर्ण शब्दों को हाइलाइट करते हैं।

एक और धारणा!

आप विभिन्न विषयों के कीवर्ड पर जोर देने के लिए एक अलग रंग का उपयोग करते हैं। आप दिए गए रंग और विषयों के आधार पर खोजशब्दों को वर्गीकृत करते हैं।

एक निश्चित रंग द्वारा चिह्नित शब्दों का प्रत्येक संग्रह किसी दिए गए विषय के लिए खोजशब्दों की एक सूची है। आपके द्वारा चुने गए विभिन्न रंगों की मात्रा थीम की संख्या दर्शाती है।

यह सबसे मौलिक विषय मॉडलिंग है। यह बड़े पाठ संग्रहों की समझ, संगठन और सारांश में सहायता करता है।

हालांकि, ध्यान रखें कि प्रभावी होने के लिए, स्वचालित विषय मॉडल के लिए बहुत अधिक सामग्री की आवश्यकता होती है। यदि आपके पास एक छोटा पेपर है, तो आप पुराने स्कूल जाना और हाइलाइटर्स का उपयोग करना चाहेंगे!

डेटा जानने के लिए कुछ समय बिताना भी फायदेमंद है। यह आपको एक बुनियादी समझ देगा कि विषय मॉडल को क्या खोजना चाहिए।

उदाहरण के लिए, वह डायरी आपके वर्तमान और पिछले संबंधों के बारे में हो सकती है। इस प्रकार, मैं अपने टेक्स्ट माइनिंग रोबोट-दोस्त को समान विचारों के साथ आने का अनुमान लगाऊंगा।

यह आपके द्वारा पहचाने गए विषयों की गुणवत्ता का बेहतर विश्लेषण करने में आपकी सहायता कर सकता है और, यदि आवश्यक हो, तो कीवर्ड सेट में बदलाव करें।

विषय मॉडलिंग के घटक

संभाव्य मॉडल

यादृच्छिक चर और संभाव्यता वितरण को संभाव्य मॉडल में किसी घटना या घटना के प्रतिनिधित्व में शामिल किया जाता है।

एक नियतात्मक मॉडल एक घटना के लिए एक संभावित निष्कर्ष प्रदान करता है, जबकि एक संभाव्य मॉडल एक समाधान के रूप में एक संभाव्यता वितरण प्रदान करता है।

ये मॉडल इस वास्तविकता पर विचार करते हैं कि हमें शायद ही कभी किसी स्थिति का पूरा ज्ञान होता है। विचार करने के लिए लगभग हमेशा यादृच्छिकता का एक तत्व होता है।

उदाहरण के लिए, जीवन बीमा इस वास्तविकता पर आधारित है कि हम जानते हैं कि हम मरेंगे, लेकिन हम नहीं जानते कि कब। ये मॉडल आंशिक रूप से नियतात्मक, आंशिक रूप से यादृच्छिक या पूरी तरह से यादृच्छिक हो सकते हैं।

सूचनात्मक पुनर्प्राप्ति

सूचना पुनर्प्राप्ति (IR) एक सॉफ्टवेयर प्रोग्राम है जो दस्तावेज़ भंडारों, विशेष रूप से पाठ्य जानकारी से जानकारी को व्यवस्थित, संग्रहीत, पुनर्प्राप्त और मूल्यांकन करता है।

प्रौद्योगिकी उपयोगकर्ताओं को उनकी आवश्यक जानकारी खोजने में मदद करती है, लेकिन यह उनकी पूछताछ के उत्तर स्पष्ट रूप से नहीं देती है। यह उन कागजात की उपस्थिति और स्थान की सूचना देता है जो आवश्यक जानकारी प्रदान कर सकते हैं।

प्रासंगिक दस्तावेज वे हैं जो उपयोगकर्ता की जरूरतों को पूरा करते हैं। एक दोषरहित IR सिस्टम केवल चयनित दस्तावेज़ लौटाएगा।

सामयिक सामंजस्य

विषय के उच्च-स्कोरिंग शब्दों के बीच शब्दार्थ समानता की डिग्री की गणना करके विषय सुसंगतता एक एकल विषय को स्कोर करती है। ये मेट्रिक्स उन विषयों के बीच अंतर करने में सहायता करते हैं जो शब्दार्थ रूप से व्याख्या योग्य हैं और ऐसे विषय जो सांख्यिकीय अनुमान कलाकृतियाँ हैं।

यदि दावों या तथ्यों का समूह एक दूसरे का समर्थन करता है, तो उन्हें सुसंगत कहा जाता है।

नतीजतन, एक सुसंगत तथ्य सेट को ऐसे संदर्भ में समझा जा सकता है जिसमें सभी या अधिकांश तथ्य शामिल हैं। "खेल एक टीम खेल है," "खेल एक गेंद के साथ खेला जाता है," और "खेल को जबरदस्त शारीरिक प्रयास की आवश्यकता होती है" सभी एकजुट तथ्य सेट के उदाहरण हैं।

विषय मॉडलिंग के विभिन्न तरीके

यह महत्वपूर्ण प्रक्रिया विभिन्न प्रकार के एल्गोरिदम या पद्धतियों द्वारा की जा सकती है। उनमें से हैं:

अव्यक्त डिरिचलेट आवंटन (LDA)
गैर नकारात्मक मैट्रिक्स फैक्टराइजेशन (एनएमएफ)
गुप्त शब्दार्थ विश्लेषण (एलएसए)
संभाव्य गुप्त शब्दार्थ विश्लेषण (पीएलएसए)

गुप्त डिरिचलेट आवंटन (एलडीए)

एक संग्रह में कई पाठों के बीच संबंधों का पता लगाने के लिए, लेटेंट डिरिचलेट आवंटन की सांख्यिकीय और ग्राफिकल अवधारणा का उपयोग किया जाता है।

वैरिएशनल एक्सेप्शन मैक्सिमाइज़ेशन (VEM) दृष्टिकोण का उपयोग करते हुए, टेक्स्ट के पूर्ण संग्रह से सबसे बड़ा संभावना अनुमान प्राप्त किया जाता है।

झील प्राधिकरण

परंपरागत रूप से, शब्दों के एक थैले से शीर्ष कुछ शब्द चुने जाते हैं।

हालाँकि, वाक्य पूरी तरह से अर्थहीन है।

इस तकनीक के अनुसार, प्रत्येक पाठ को विषयों के संभाव्य वितरण द्वारा और प्रत्येक विषय को शब्दों के संभाव्य वितरण द्वारा दर्शाया जाएगा।

गैर नकारात्मक मैट्रिक्स फैक्टराइजेशन (एनएमएफ)

गैर-नकारात्मक मूल्यों के साथ मैट्रिक्स फैक्टराइजेशन एक अत्याधुनिक फीचर निष्कर्षण दृष्टिकोण है।

जब कई गुण होते हैं और विशेषताएँ अस्पष्ट होती हैं या खराब भविष्यवाणी होती है, तो NMF फायदेमंद होता है। एनएमएफ विशेषताओं के संयोजन से महत्वपूर्ण पैटर्न, विषय या थीम उत्पन्न कर सकता है।

गैर नकारात्मक मैट्रिक्स गुणनखंडन

एनएमएफ प्रत्येक सुविधा को मूल विशेषता सेट के रैखिक संयोजन के रूप में उत्पन्न करता है।

प्रत्येक विशेषता में गुणांक का एक सेट होता है जो सुविधा पर प्रत्येक विशेषता के महत्व का प्रतिनिधित्व करता है। प्रत्येक संख्यात्मक विशेषता और प्रत्येक श्रेणी विशेषता के प्रत्येक मान का अपना गुणांक होता है।

सभी गुणांक सकारात्मक हैं।

अव्यक्त शब्दार्थ विश्लेषण

दस्तावेजों के एक सेट में शब्दों के बीच संघों को निकालने के लिए उपयोग की जाने वाली यह एक और अनुपयोगी शिक्षण पद्धति है, जो गुप्त अर्थ विश्लेषण है।

इससे हमें सही दस्तावेज चुनने में मदद मिलती है। इसका प्राथमिक कार्य टेक्स्ट डेटा के विशाल कोष की आयामीता को कम करना है।

ये अनावश्यक डेटा डेटा से आवश्यक अंतर्दृष्टि प्राप्त करने में पृष्ठभूमि शोर के रूप में कार्य करते हैं।

अव्यक्त शब्दार्थ विश्लेषण

संभाव्य गुप्त शब्दार्थ विश्लेषण (पीएलएसए)

संभाव्य अव्यक्त अर्थ विश्लेषण (पीएलएसए), जिसे कभी-कभी संभाव्य अव्यक्त शब्दार्थ अनुक्रमण (पीएलएसआई, विशेष रूप से सूचना पुनर्प्राप्ति मंडलियों में) के रूप में जाना जाता है, दो-मोड और सह-घटना डेटा का विश्लेषण करने के लिए एक सांख्यिकीय दृष्टिकोण है।

वास्तव में, अव्यक्त शब्दार्थ विश्लेषण के समान, जिसमें से PLSA का उदय हुआ, प्रेक्षित चरों का एक निम्न-आयामी प्रतिनिधित्व विशेष रूप से छिपे हुए चर के लिए उनकी आत्मीयता के संदर्भ में प्राप्त किया जा सकता है।

संभाव्य अव्यक्त सीनेटिक विश्लेषण

पायथन में विषय मॉडलिंग के साथ व्यावहारिक

अब, मैं आपको Python के साथ एक विषय मॉडलिंग असाइनमेंट के बारे में बताता हूँ प्रोग्रामिंग भाषा एक वास्तविक दुनिया के उदाहरण का उपयोग करना।

मैं शोध लेखों की मॉडलिंग करूंगा। मैं यहां जिस डेटासेट का उपयोग कर रहा हूं वह kaggle.com से आता है। आप इस काम में मेरे द्वारा उपयोग की जा रही सभी फाइलों को इस से आसानी से प्राप्त कर सकते हैं पृष्ठ.

आइए सभी आवश्यक पुस्तकालयों को आयात करके पायथन का उपयोग करके विषय मॉडलिंग के साथ आरंभ करें:

पुस्तकालयों का आयात

निम्नलिखित चरण उन सभी डेटासेट को पढ़ना है जिनका मैं इस कार्य में उपयोग करूंगा:

डेटासेट पढ़ें

अन्वेषणात्मक डेटा विश्लेषण

ईडीए (अन्वेषी डेटा विश्लेषण) एक सांख्यिकीय पद्धति है जो दृश्य तत्वों को नियोजित करती है। यह रुझानों, पैटर्न और परीक्षण मान्यताओं की खोज के लिए सांख्यिकीय सारांश और चित्रमय प्रतिनिधित्व का उपयोग करता है।

विषय मॉडलिंग शुरू करने से पहले मैं कुछ खोजपूर्ण डेटा विश्लेषण करूँगा, यह देखने के लिए कि क्या डेटा में कोई पैटर्न या संबंध हैं:

ट्रेन डेटासेट के शून्य मान ज्ञात करें

ट्रेन शून्य मानों का आउटपुट

अब हम परीक्षण डेटासेट के शून्य मान पाएंगे:

परीक्षण डेटासेट के शून्य मान ज्ञात करें

परीक्षण शून्य मानों का आउटपुट

अब मैं चरों के बीच संबंध की जांच करने के लिए एक हिस्टोग्राम और बॉक्सप्लॉट की साजिश रचूंगा।

प्लॉटिंग

प्लॉटिंग का आउटपुट 1

एब्सट्रैक्ट ऑफ़ ट्रेन सेट में वर्णों की मात्रा बहुत भिन्न होती है।

ट्रेन में हमारे पास न्यूनतम 54 और अधिकतम 4551 वर्ण होते हैं। 1065 वर्णों की औसत मात्रा है।

प्लॉटिंग 2

प्लॉटिंग का आउटपुट 2

परीक्षण सेट प्रशिक्षण सेट की तुलना में अधिक दिलचस्प लगता है क्योंकि परीक्षण सेट में 46 वर्ण होते हैं जबकि प्रशिक्षण सेट में 2841 होते हैं।

नतीजतन, परीक्षण सेट में 1058 वर्णों का एक माध्यिका था, जो प्रशिक्षण सेट के समान है।

प्लॉटिंग 3

प्लॉटिंग का आउटपुट 3

सीखने के सेट में शब्दों की संख्या अक्षरों की संख्या के समान पैटर्न का अनुसरण करती है।

न्यूनतम 8 शब्दों और अधिकतम 665 शब्दों की अनुमति है। नतीजतन, औसत शब्द गणना 153 है।

प्लॉटिंग 4

प्लॉटिंग का आउटपुट 4

एक सार में न्यूनतम सात शब्द और परीक्षण सेट में अधिकतम 452 शब्द आवश्यक हैं।

इस मामले में, माध्यिका 153 है, जो प्रशिक्षण सेट में माध्यिका के समान है।

विषय मॉडलिंग के लिए टैग का उपयोग करना

कई विषय मॉडलिंग रणनीतियाँ हैं। मैं इस अभ्यास में टैग का उपयोग करूँगा; आइए देखें कि टैग की जांच करके ऐसा कैसे करें:

विषय मॉडलिंग के लिए टैग का उपयोग करना

विषय मॉडलिंग का आउटपुट

विषय मॉडलिंग के अनुप्रयोग

किसी दस्तावेज़ या पुस्तक के विषय को समझने के लिए टेक्स्ट सारांश का उपयोग किया जा सकता है।
इसका उपयोग परीक्षा स्कोरिंग से उम्मीदवार के पूर्वाग्रह को दूर करने के लिए किया जा सकता है।
ग्राफ-आधारित मॉडल में शब्दों के बीच अर्थ संबंध बनाने के लिए विषय मॉडलिंग का उपयोग किया जा सकता है।
यह ग्राहक की पूछताछ में खोजशब्दों का पता लगाकर और उनका जवाब देकर ग्राहक सेवा को बढ़ा सकता है। ग्राहकों को आप पर अधिक विश्वास होगा क्योंकि आपने उन्हें उचित समय पर और बिना किसी परेशानी के सहायता प्रदान की है। नतीजतन, ग्राहक वफादारी नाटकीय रूप से बढ़ जाती है, और कंपनी की कीमत बढ़ जाती है।

निष्कर्ष

विषय मॉडलिंग एक प्रकार का सांख्यिकीय मॉडलिंग है जिसका उपयोग अमूर्त "विषयों" को उजागर करने के लिए किया जाता है जो ग्रंथों के संग्रह में मौजूद होते हैं।

यह सांख्यिकीय मॉडल का एक रूप है जिसका उपयोग किया जाता है यंत्र अधिगम और ग्रंथों के एक सेट में मौजूद अमूर्त अवधारणाओं को उजागर करने के लिए प्राकृतिक भाषा प्रसंस्करण।

यह एक टेक्स्ट माइनिंग विधि है जिसका व्यापक रूप से बॉडी टेक्स्ट में गुप्त सिमेंटिक पैटर्न खोजने के लिए उपयोग किया जाता है।

शुरुआती के लिए विषय मॉडलिंग परिचय

विषय मॉडलिंग क्या है?