नवशिक्यांसाठी विषय मॉडेलिंग परिचय

अनुक्रमणिका[लपवा][दाखवा]

विषय मॉडेलिंग म्हणजे काय?
विषय मॉडेलिंगचे घटक+-
- संभाव्य मॉडेल
- माहितीपूर्ण पुनर्प्राप्ती
विषय मॉडेलिंगच्या विविध पद्धती+-
पायथनमधील टॉपिक मॉडेलिंगसह हँड्स-ऑन+-
- अन्वेषण डेटा विश्लेषण
- विषय मॉडेलिंगसाठी टॅग वापरणे
विषय मॉडेलिंगचे अनुप्रयोग
निष्कर्ष

मला खात्री आहे की तुम्ही कृत्रिम बुद्धिमत्ता, तसेच मशीन लर्निंग आणि नैसर्गिक भाषा प्रक्रिया (NLP) सारखे शब्द ऐकले असतील.

विशेषतः जर तुम्ही अशा फर्मसाठी काम करत असाल जी दररोज शेकडो नाही तर हजारो क्लायंट संपर्क हाताळते.

सोशल मीडिया पोस्टिंग्स, ईमेल्स, चॅट्स, ओपन-एंडेड सर्वेक्षण उत्तरे आणि इतर स्त्रोतांचे डेटा विश्लेषण ही एक साधी प्रक्रिया नाही आणि केवळ लोकांवर सोपवल्यास ती आणखी कठीण होते.

म्हणूनच अनेक लोकांच्या संभाव्यतेबद्दल उत्साही आहेत कृत्रिम बुद्धिमत्ता त्यांच्या दैनंदिन कामासाठी आणि उद्योगांसाठी.

AI-संचालित मजकूर विश्लेषणामध्ये भाषेचा ऑर्गेनिक अर्थ लावण्यासाठी विस्तृत पध्दती किंवा अल्गोरिदम वापरतात, त्यापैकी एक विषय विश्लेषण आहे, ज्याचा वापर मजकूरांमधून विषय आपोआप शोधण्यासाठी केला जातो.

जास्त डेटा असलेल्या कामगारांवर जास्त भार टाकण्याऐवजी मशीनवर सुलभ नोकऱ्या हस्तांतरित करण्यासाठी व्यवसाय विषय विश्लेषण मॉडेल वापरू शकतात.

जर संगणक दररोज सकाळी ग्राहक सर्वेक्षण किंवा समर्थन समस्यांच्या अंतहीन सूचीमधून फिल्टर करू शकला तर तुमचा कार्यसंघ किती वेळ वाचवू शकतो आणि अधिक आवश्यक कामासाठी खर्च करू शकतो याचा विचार करा.

या मार्गदर्शकामध्ये, आम्ही विषय मॉडेलिंग, विषय मॉडेलिंगच्या विविध पद्धतींचा विचार करू आणि त्यासह काही अनुभव घेऊ.

विषय मॉडेलिंग म्हणजे काय?

टॉपिक मॉडेलिंग हा मजकूर खननचा एक प्रकार आहे ज्यामध्ये पर्यवेक्षित आणि पर्यवेक्षित सांख्यिकीय मशीन शिक्षण तंत्रांचा वापर कॉर्पसमधील ट्रेंड किंवा असंरचित मजकूराचा महत्त्वपूर्ण खंड शोधण्यासाठी केला जातो.

हे तुमच्या दस्तऐवजांचा प्रचंड संग्रह घेऊ शकते आणि शब्दांच्या क्लस्टरमध्ये शब्दांची मांडणी करण्यासाठी आणि विषय शोधण्यासाठी समानता पद्धत वापरू शकते.

ते थोडे क्लिष्ट आणि कठीण वाटते, म्हणून विषय मॉडेलिंग प्रक्रिया सोपी करूया!

समजा तुम्ही तुमच्या हातात रंगीत हायलाइटरचा संच असलेले वर्तमानपत्र वाचत आहात.

ते जुन्या पद्धतीचे नाही का?

आजकाल मोजके लोक वर्तमानपत्रे छापून वाचतात, हे मला जाणवते; सर्व काही डिजिटल आहे आणि हायलाइटर ही भूतकाळातील गोष्ट आहे! आपले वडील किंवा आई असल्याचे ढोंग करा!

म्हणून, जेव्हा तुम्ही वर्तमानपत्र वाचता तेव्हा तुम्ही महत्त्वाच्या अटींवर प्रकाश टाकता.

आणखी एक गृहीतक!

विविध थीमच्या कीवर्डवर जोर देण्यासाठी तुम्ही भिन्न रंग वापरता. आपण प्रदान केलेल्या रंग आणि विषयांवर अवलंबून कीवर्डचे वर्गीकरण करता.

विशिष्ट रंगाने चिन्हांकित केलेल्या शब्दांचा प्रत्येक संग्रह ही दिलेल्या विषयासाठी कीवर्डची सूची असते. तुम्ही निवडलेल्या विविध रंगांची संख्या थीमची संख्या दर्शवते.

हे सर्वात मूलभूत विषय मॉडेलिंग आहे. हे मोठ्या मजकूर संग्रहांचे आकलन, संघटन आणि सारांश तयार करण्यात मदत करते.

तथापि, लक्षात ठेवा की प्रभावी होण्यासाठी, स्वयंचलित विषय मॉडेलना भरपूर सामग्री आवश्यक आहे. तुमच्याकडे लहान पेपर असल्यास, तुम्हाला जुन्या शाळेत जायचे असेल आणि हायलाइटर वापरावेसे वाटेल!

डेटा जाणून घेण्यासाठी थोडा वेळ घालवणे देखील फायदेशीर आहे. हे तुम्हाला विषयाच्या मॉडेलमध्ये काय शोधले पाहिजे याची मूलभूत माहिती देईल.

उदाहरणार्थ, ती डायरी तुमच्या वर्तमान आणि पूर्वीच्या नातेसंबंधांबद्दल असू शकते. अशाप्रकारे, मी माझ्या मजकूर खाणकाम करणाऱ्या रोबोट-मित्राकडून अशाच प्रकारच्या कल्पना सुचतील अशी अपेक्षा आहे.

हे आपण ओळखलेल्या विषयांच्या गुणवत्तेचे अधिक चांगले विश्लेषण करण्यात मदत करू शकते आणि आवश्यक असल्यास, कीवर्ड सेटमध्ये बदल करा.

विषय मॉडेलिंगचे घटक

संभाव्य मॉडेल

यादृच्छिक व्हेरिएबल्स आणि संभाव्यता वितरण संभाव्य मॉडेलमध्ये घटना किंवा घटनेच्या प्रतिनिधित्वामध्ये समाविष्ट केले जातात.

एक निर्धारक मॉडेल इव्हेंटसाठी एकल संभाव्य निष्कर्ष प्रदान करते, तर संभाव्य मॉडेल एक समाधान म्हणून संभाव्यता वितरण प्रदान करते.

हे मॉडेल वास्तविकतेचा विचार करतात की आम्हाला क्वचितच एखाद्या परिस्थितीचे पूर्ण ज्ञान असते. विचारात घेण्यासाठी यादृच्छिकतेचा घटक जवळजवळ नेहमीच असतो.

उदाहरणार्थ, जीवन विमा या वास्तविकतेवर आधारित आहे की आपल्याला माहित आहे की आपण मरणार आहोत, परंतु आपल्याला कधी माहित नाही. हे मॉडेल अंशतः निर्धारवादी, अंशतः यादृच्छिक किंवा पूर्णपणे यादृच्छिक असू शकतात.

माहितीपूर्ण पुनर्प्राप्ती

माहिती पुनर्प्राप्ती (IR) हा एक सॉफ्टवेअर प्रोग्राम आहे जो दस्तऐवज भांडारांमधून माहिती आयोजित करतो, संग्रहित करतो, पुनर्प्राप्त करतो आणि त्याचे मूल्यमापन करतो, विशेषतः मजकूर माहिती.

तंत्रज्ञान वापरकर्त्यांना त्यांना आवश्यक असलेली माहिती शोधण्यात मदत करते, परंतु ते त्यांच्या चौकशीची उत्तरे स्पष्टपणे देत नाही. हे कागदपत्रांची उपस्थिती आणि स्थान सूचित करते जे आवश्यक माहिती प्रदान करू शकतात.

संबंधित कागदपत्रे अशी आहेत जी वापरकर्त्याच्या गरजा पूर्ण करतात. दोषरहित IR प्रणाली केवळ निवडक कागदपत्रे परत करेल.

विषय सुसंगतता

विषय सुसंगतता विषयाच्या उच्च-स्कोअरिंग संज्ञांमधील शब्दार्थासंबंधी समानतेची डिग्री मोजून एकच विषय स्कोअर करते. हे मेट्रिक्स शब्दार्थानुरूप अर्थ लावता येण्याजोगे विषय आणि सांख्यिकीय अनुमान कलाकृती असलेल्या विषयांमध्ये फरक करण्यात मदत करतात.

दावे किंवा तथ्यांचा समूह एकमेकांना समर्थन देत असल्यास, ते सुसंगत असल्याचे म्हटले जाते.

परिणामी, सर्व किंवा बहुसंख्य तथ्यांचा समावेश असलेल्या संदर्भामध्ये एकसंध तथ्य संच समजू शकतो. "खेळ हा एक सांघिक खेळ आहे," "खेळ चेंडूने खेळला जातो," आणि "खेळासाठी प्रचंड शारीरिक श्रम आवश्यक आहेत" ही सर्व एकसंध वस्तुस्थितीची उदाहरणे आहेत.

विषय मॉडेलिंगच्या विविध पद्धती

ही गंभीर प्रक्रिया विविध अल्गोरिदम किंवा पद्धतींद्वारे केली जाऊ शकते. त्यापैकी आहेत:

सुप्त डिरिचलेट वाटप (LDA)
नॉन निगेटिव्ह मॅट्रिक्स फॅक्टरायझेशन (NMF)
अव्यक्त अर्थपूर्ण विश्लेषण (LSA)
संभाव्य अव्यक्त शब्दार्थ विश्लेषण (pLSA)

सुप्त डिरिचलेट वाटप (LDA)

कॉर्पसमधील एकाधिक मजकूरांमधील संबंध शोधण्यासाठी, लॅटेंट डिरिचलेट ऍलोकेशनची सांख्यिकीय आणि ग्राफिकल संकल्पना वापरली जाते.

व्हेरिएशनल एक्सेप्शन मॅक्सिमायझेशन (VEM) पध्दत वापरून, मजकुराच्या संपूर्ण कॉर्पसमधून सर्वात मोठा संभाव्य अंदाज साध्य केला जातो.

LDA

पारंपारिकपणे, शब्दांच्या पिशवीतून शीर्ष काही शब्द निवडले जातात.

तथापि, वाक्य पूर्णपणे निरर्थक आहे.

या तंत्रानुसार, प्रत्येक मजकूर विषयांच्या संभाव्य वितरणाद्वारे आणि प्रत्येक विषय शब्दांच्या संभाव्य वितरणाद्वारे दर्शविला जाईल.

नॉन निगेटिव्ह मॅट्रिक्स फॅक्टरायझेशन (NMF)

नॉन-निगेटिव्ह व्हॅल्यूज फॅक्टरायझेशनसह मॅट्रिक्स हा एक अत्याधुनिक वैशिष्ट्य काढण्याचा दृष्टीकोन आहे.

जेव्हा पुष्कळ गुण असतात आणि गुणधर्म अस्पष्ट असतात किंवा त्यांचा अंदाज कमी असतो, तेव्हा NMF फायदेशीर ठरते. NMF वैशिष्ट्ये एकत्रित करून महत्त्वपूर्ण नमुने, विषय किंवा थीम तयार करू शकते.

नॉन-निगेटिव्ह मॅट्रिक्स फॅक्टरायझेशन

NMF प्रत्येक वैशिष्ट्य मूळ विशेषता संचाचे एक रेखीय संयोजन म्हणून व्युत्पन्न करते.

प्रत्येक वैशिष्ट्यामध्ये गुणांकांचा संच असतो जो वैशिष्ट्यावरील प्रत्येक गुणधर्माचे महत्त्व दर्शवतो. प्रत्येक संख्यात्मक गुणधर्म आणि प्रत्येक श्रेणी गुणधर्माच्या प्रत्येक मूल्याचा स्वतःचा गुणांक असतो.

सर्व गुणांक सकारात्मक आहेत.

सुप्त अर्थपूर्ण विश्लेषण

दस्तऐवजांच्या संचामधील शब्दांमधील संबंध काढण्यासाठी वापरण्यात येणारी ही आणखी एक पर्यवेक्षित शिक्षण पद्धत आहे जी सुप्त अर्थपूर्ण विश्लेषण आहे.

हे आम्हाला योग्य कागदपत्रे निवडण्यास मदत करते. मजकूर डेटाच्या प्रचंड कॉर्पसची आयाम कमी करणे हे त्याचे प्राथमिक कार्य आहे.

हे अनावश्यक डेटा डेटामधून आवश्यक अंतर्दृष्टी प्राप्त करण्यासाठी पार्श्वभूमी आवाज म्हणून काम करतात.

सुप्त अर्थपूर्ण विश्लेषण

संभाव्य अव्यक्त शब्दार्थ विश्लेषण (pLSA)

संभाव्य सुप्त शब्दार्थ विश्लेषण (PLSA), काहीवेळा संभाव्य सुप्त शब्दार्थ इंडेक्सिंग (PLSI, विशेषत: माहिती पुनर्प्राप्ती मंडळांमध्ये) म्हणून ओळखले जाते, दोन-मोड आणि सह-घटना डेटाचे विश्लेषण करण्यासाठी एक सांख्यिकीय दृष्टीकोन आहे.

खरं तर, अव्यक्त अर्थविषयक विश्लेषणाप्रमाणे, ज्यातून PLSA उदयास आले, निरीक्षण केलेल्या चलांचे निम्न-आयामी प्रतिनिधित्व विशिष्ट लपविलेल्या चलांशी त्यांच्या आत्मीयतेच्या दृष्टीने काढले जाऊ शकते.

संभाव्य अव्यक्त सेनंटिक विश्लेषण

पायथनमधील टॉपिक मॉडेलिंगसह हँड्स-ऑन

आता, मी तुम्हाला Python सोबत विषय मॉडेलिंग असाइनमेंट सांगेन प्रोग्रामिंग भाषा वास्तविक जगाचे उदाहरण वापरून.

मी संशोधन लेखांचे मॉडेलिंग करेन. मी येथे वापरत असलेला डेटासेट kaggle.com वरून येतो. मी या कामात वापरत असलेल्या सर्व फाईल्स तुम्ही यातून सहज मिळवू शकता पृष्ठ.

सर्व आवश्यक लायब्ररी आयात करून पायथन वापरून टॉपिक मॉडेलिंगसह प्रारंभ करूया:

लायब्ररी आयात करत आहे

मी या कार्यात वापरत असलेले सर्व डेटासेट वाचण्यासाठी पुढील चरण आहे:

डेटासेट वाचा

अन्वेषण डेटा विश्लेषण

EDA (एक्सप्लोरेटरी डेटा अॅनालिसिस) ही एक सांख्यिकीय पद्धत आहे जी दृश्य घटकांचा वापर करते. ट्रेंड, नमुने आणि चाचणी गृहीतके शोधण्यासाठी हे सांख्यिकीय सारांश आणि ग्राफिकल प्रस्तुतीकरण वापरते.

डेटामध्ये कोणतेही नमुने किंवा संबंध आहेत की नाही हे पाहण्यासाठी मी विषय मॉडेलिंग सुरू करण्यापूर्वी मी काही शोधात्मक डेटा विश्लेषण करेन:

ट्रेन डेटासेटची शून्य मूल्ये शोधा

ट्रेन शून्य मूल्यांचे आउटपुट

आता आपण चाचणी डेटासेटची शून्य मूल्ये शोधू:

चाचणी डेटासेटची शून्य मूल्ये शोधा

चाचणी शून्य मूल्यांचे आउटपुट

आता व्हेरिएबल्समधील संबंध तपासण्यासाठी मी हिस्टोग्राम आणि बॉक्सप्लॉट तयार करणार आहे.

प्लॉटिंग

प्लॉटिंगचे आउटपुट 1

ट्रेन संचाच्या अ‍ॅबस्ट्रॅक्ट्समधील वर्णांची संख्या मोठ्या प्रमाणात बदलते.

ट्रेनमध्ये, आमच्याकडे किमान 54 आणि कमाल 4551 वर्ण आहेत. 1065 वर्णांची सरासरी रक्कम आहे.

प्लॉटिंग 2

प्लॉटिंगचे आउटपुट 2

चाचणी संच प्रशिक्षण संचापेक्षा अधिक मनोरंजक दिसत आहे कारण चाचणी संचामध्ये 46 वर्ण आहेत तर प्रशिक्षण संच 2841 आहेत.

परिणामी, चाचणी सेटमध्ये 1058 वर्णांचा मध्यक होता, जो प्रशिक्षण संचासारखाच आहे.

प्लॉटिंग 3

प्लॉटिंगचे आउटपुट 3

शिकण्याच्या संचातील शब्दांची संख्या अक्षरांच्या संख्येप्रमाणेच असते.

किमान 8 शब्द आणि जास्तीत जास्त 665 शब्दांना परवानगी आहे. परिणामी, मध्यम शब्द संख्या 153 आहे.

प्लॉटिंग 4

प्लॉटिंगचे आउटपुट 4

अ‍ॅब्स्ट्रॅक्टमध्ये किमान सात शब्द आणि चाचणी सेटमध्ये जास्तीत जास्त 452 शब्द आवश्यक आहेत.

मध्यक, या प्रकरणात, 153 आहे, जो प्रशिक्षण संचातील मध्यकासारखा आहे.

विषय मॉडेलिंगसाठी टॅग वापरणे

अनेक विषय मॉडेलिंग धोरणे आहेत. मी या व्यायामामध्ये टॅग्ज वापरेन; टॅगचे परीक्षण करून ते कसे करायचे ते पाहू:

विषय मॉडेलिंगसाठी टॅग वापरणे

विषय मॉडेलिंगचे आउटपुट

विषय मॉडेलिंगचे अनुप्रयोग

दस्तऐवज किंवा पुस्तकाचा विषय जाणून घेण्यासाठी मजकूर सारांश वापरला जाऊ शकतो.
परीक्षेतील गुणांकनातून उमेदवाराचा पूर्वाग्रह दूर करण्यासाठी याचा वापर केला जाऊ शकतो.
आलेख-आधारित मॉडेलमधील शब्दांमधील अर्थपूर्ण संबंध निर्माण करण्यासाठी विषय मॉडेलिंगचा वापर केला जाऊ शकतो.
हे क्लायंटच्या चौकशीतील कीवर्ड शोधून आणि त्यांना प्रतिसाद देऊन ग्राहक सेवा वाढवू शकते. ग्राहकांना तुमच्यावर अधिक विश्वास असेल कारण तुम्ही त्यांना योग्य वेळी आणि त्यांना कोणताही त्रास न देता त्यांना आवश्यक असलेली मदत दिली आहे. परिणामी, ग्राहकांची निष्ठा नाटकीयरित्या वाढते आणि कंपनीचे मूल्य वाढते.

निष्कर्ष

विषय मॉडेलिंग हे एक प्रकारचे सांख्यिकीय मॉडेलिंग आहे जे ग्रंथांच्या संग्रहामध्ये अस्तित्वात असलेले अमूर्त "विषय" उघड करण्यासाठी वापरले जाते.

मध्ये वापरलेल्या सांख्यिकीय मॉडेलचा हा एक प्रकार आहे मशीन शिक्षण आणि ग्रंथांच्या संचामध्ये अस्तित्त्वात असलेल्या अमूर्त संकल्पना उघड करण्यासाठी नैसर्गिक भाषा प्रक्रिया.

ही एक मजकूर खाण पद्धत आहे जी मुख्य मजकूरातील अव्यक्त अर्थविषयक नमुने शोधण्यासाठी मोठ्या प्रमाणावर वापरली जाते.

नवशिक्यांसाठी विषय मॉडेलिंग परिचय

विषय मॉडेलिंग म्हणजे काय?