अनुक्रमणिका[लपवा][दाखवा]
मला खात्री आहे की तुम्ही कृत्रिम बुद्धिमत्ता, तसेच मशीन लर्निंग आणि नैसर्गिक भाषा प्रक्रिया (NLP) सारखे शब्द ऐकले असतील.
विशेषतः जर तुम्ही अशा फर्मसाठी काम करत असाल जी दररोज शेकडो नाही तर हजारो क्लायंट संपर्क हाताळते.
सोशल मीडिया पोस्टिंग्स, ईमेल्स, चॅट्स, ओपन-एंडेड सर्वेक्षण उत्तरे आणि इतर स्त्रोतांचे डेटा विश्लेषण ही एक साधी प्रक्रिया नाही आणि केवळ लोकांवर सोपवल्यास ती आणखी कठीण होते.
म्हणूनच अनेक लोकांच्या संभाव्यतेबद्दल उत्साही आहेत कृत्रिम बुद्धिमत्ता त्यांच्या दैनंदिन कामासाठी आणि उद्योगांसाठी.
AI-संचालित मजकूर विश्लेषणामध्ये भाषेचा ऑर्गेनिक अर्थ लावण्यासाठी विस्तृत पध्दती किंवा अल्गोरिदम वापरतात, त्यापैकी एक विषय विश्लेषण आहे, ज्याचा वापर मजकूरांमधून विषय आपोआप शोधण्यासाठी केला जातो.
जास्त डेटा असलेल्या कामगारांवर जास्त भार टाकण्याऐवजी मशीनवर सुलभ नोकऱ्या हस्तांतरित करण्यासाठी व्यवसाय विषय विश्लेषण मॉडेल वापरू शकतात.
जर संगणक दररोज सकाळी ग्राहक सर्वेक्षण किंवा समर्थन समस्यांच्या अंतहीन सूचीमधून फिल्टर करू शकला तर तुमचा कार्यसंघ किती वेळ वाचवू शकतो आणि अधिक आवश्यक कामासाठी खर्च करू शकतो याचा विचार करा.
या मार्गदर्शकामध्ये, आम्ही विषय मॉडेलिंग, विषय मॉडेलिंगच्या विविध पद्धतींचा विचार करू आणि त्यासह काही अनुभव घेऊ.
विषय मॉडेलिंग म्हणजे काय?
टॉपिक मॉडेलिंग हा मजकूर खननचा एक प्रकार आहे ज्यामध्ये पर्यवेक्षित आणि पर्यवेक्षित सांख्यिकीय मशीन शिक्षण तंत्रांचा वापर कॉर्पसमधील ट्रेंड किंवा असंरचित मजकूराचा महत्त्वपूर्ण खंड शोधण्यासाठी केला जातो.
हे तुमच्या दस्तऐवजांचा प्रचंड संग्रह घेऊ शकते आणि शब्दांच्या क्लस्टरमध्ये शब्दांची मांडणी करण्यासाठी आणि विषय शोधण्यासाठी समानता पद्धत वापरू शकते.
ते थोडे क्लिष्ट आणि कठीण वाटते, म्हणून विषय मॉडेलिंग प्रक्रिया सोपी करूया!
समजा तुम्ही तुमच्या हातात रंगीत हायलाइटरचा संच असलेले वर्तमानपत्र वाचत आहात.
ते जुन्या पद्धतीचे नाही का?
आजकाल मोजके लोक वर्तमानपत्रे छापून वाचतात, हे मला जाणवते; सर्व काही डिजिटल आहे आणि हायलाइटर ही भूतकाळातील गोष्ट आहे! आपले वडील किंवा आई असल्याचे ढोंग करा!
म्हणून, जेव्हा तुम्ही वर्तमानपत्र वाचता तेव्हा तुम्ही महत्त्वाच्या अटींवर प्रकाश टाकता.
आणखी एक गृहीतक!
विविध थीमच्या कीवर्डवर जोर देण्यासाठी तुम्ही भिन्न रंग वापरता. आपण प्रदान केलेल्या रंग आणि विषयांवर अवलंबून कीवर्डचे वर्गीकरण करता.
विशिष्ट रंगाने चिन्हांकित केलेल्या शब्दांचा प्रत्येक संग्रह ही दिलेल्या विषयासाठी कीवर्डची सूची असते. तुम्ही निवडलेल्या विविध रंगांची संख्या थीमची संख्या दर्शवते.
हे सर्वात मूलभूत विषय मॉडेलिंग आहे. हे मोठ्या मजकूर संग्रहांचे आकलन, संघटन आणि सारांश तयार करण्यात मदत करते.
तथापि, लक्षात ठेवा की प्रभावी होण्यासाठी, स्वयंचलित विषय मॉडेलना भरपूर सामग्री आवश्यक आहे. तुमच्याकडे लहान पेपर असल्यास, तुम्हाला जुन्या शाळेत जायचे असेल आणि हायलाइटर वापरावेसे वाटेल!
डेटा जाणून घेण्यासाठी थोडा वेळ घालवणे देखील फायदेशीर आहे. हे तुम्हाला विषयाच्या मॉडेलमध्ये काय शोधले पाहिजे याची मूलभूत माहिती देईल.
उदाहरणार्थ, ती डायरी तुमच्या वर्तमान आणि पूर्वीच्या नातेसंबंधांबद्दल असू शकते. अशाप्रकारे, मी माझ्या मजकूर खाणकाम करणाऱ्या रोबोट-मित्राकडून अशाच प्रकारच्या कल्पना सुचतील अशी अपेक्षा आहे.
हे आपण ओळखलेल्या विषयांच्या गुणवत्तेचे अधिक चांगले विश्लेषण करण्यात मदत करू शकते आणि आवश्यक असल्यास, कीवर्ड सेटमध्ये बदल करा.
विषय मॉडेलिंगचे घटक
संभाव्य मॉडेल
यादृच्छिक व्हेरिएबल्स आणि संभाव्यता वितरण संभाव्य मॉडेलमध्ये घटना किंवा घटनेच्या प्रतिनिधित्वामध्ये समाविष्ट केले जातात.
एक निर्धारक मॉडेल इव्हेंटसाठी एकल संभाव्य निष्कर्ष प्रदान करते, तर संभाव्य मॉडेल एक समाधान म्हणून संभाव्यता वितरण प्रदान करते.
हे मॉडेल वास्तविकतेचा विचार करतात की आम्हाला क्वचितच एखाद्या परिस्थितीचे पूर्ण ज्ञान असते. विचारात घेण्यासाठी यादृच्छिकतेचा घटक जवळजवळ नेहमीच असतो.
उदाहरणार्थ, जीवन विमा या वास्तविकतेवर आधारित आहे की आपल्याला माहित आहे की आपण मरणार आहोत, परंतु आपल्याला कधी माहित नाही. हे मॉडेल अंशतः निर्धारवादी, अंशतः यादृच्छिक किंवा पूर्णपणे यादृच्छिक असू शकतात.
माहितीपूर्ण पुनर्प्राप्ती
माहिती पुनर्प्राप्ती (IR) हा एक सॉफ्टवेअर प्रोग्राम आहे जो दस्तऐवज भांडारांमधून माहिती आयोजित करतो, संग्रहित करतो, पुनर्प्राप्त करतो आणि त्याचे मूल्यमापन करतो, विशेषतः मजकूर माहिती.
तंत्रज्ञान वापरकर्त्यांना त्यांना आवश्यक असलेली माहिती शोधण्यात मदत करते, परंतु ते त्यांच्या चौकशीची उत्तरे स्पष्टपणे देत नाही. हे कागदपत्रांची उपस्थिती आणि स्थान सूचित करते जे आवश्यक माहिती प्रदान करू शकतात.
संबंधित कागदपत्रे अशी आहेत जी वापरकर्त्याच्या गरजा पूर्ण करतात. दोषरहित IR प्रणाली केवळ निवडक कागदपत्रे परत करेल.
विषय सुसंगतता
विषय सुसंगतता विषयाच्या उच्च-स्कोअरिंग संज्ञांमधील शब्दार्थासंबंधी समानतेची डिग्री मोजून एकच विषय स्कोअर करते. हे मेट्रिक्स शब्दार्थानुरूप अर्थ लावता येण्याजोगे विषय आणि सांख्यिकीय अनुमान कलाकृती असलेल्या विषयांमध्ये फरक करण्यात मदत करतात.
दावे किंवा तथ्यांचा समूह एकमेकांना समर्थन देत असल्यास, ते सुसंगत असल्याचे म्हटले जाते.
परिणामी, सर्व किंवा बहुसंख्य तथ्यांचा समावेश असलेल्या संदर्भामध्ये एकसंध तथ्य संच समजू शकतो. "खेळ हा एक सांघिक खेळ आहे," "खेळ चेंडूने खेळला जातो," आणि "खेळासाठी प्रचंड शारीरिक श्रम आवश्यक आहेत" ही सर्व एकसंध वस्तुस्थितीची उदाहरणे आहेत.
विषय मॉडेलिंगच्या विविध पद्धती
ही गंभीर प्रक्रिया विविध अल्गोरिदम किंवा पद्धतींद्वारे केली जाऊ शकते. त्यापैकी आहेत:
- सुप्त डिरिचलेट वाटप (LDA)
- नॉन निगेटिव्ह मॅट्रिक्स फॅक्टरायझेशन (NMF)
- अव्यक्त अर्थपूर्ण विश्लेषण (LSA)
- संभाव्य अव्यक्त शब्दार्थ विश्लेषण (pLSA)
सुप्त डिरिचलेट वाटप (LDA)
कॉर्पसमधील एकाधिक मजकूरांमधील संबंध शोधण्यासाठी, लॅटेंट डिरिचलेट ऍलोकेशनची सांख्यिकीय आणि ग्राफिकल संकल्पना वापरली जाते.
व्हेरिएशनल एक्सेप्शन मॅक्सिमायझेशन (VEM) पध्दत वापरून, मजकुराच्या संपूर्ण कॉर्पसमधून सर्वात मोठा संभाव्य अंदाज साध्य केला जातो.
पारंपारिकपणे, शब्दांच्या पिशवीतून शीर्ष काही शब्द निवडले जातात.
तथापि, वाक्य पूर्णपणे निरर्थक आहे.
या तंत्रानुसार, प्रत्येक मजकूर विषयांच्या संभाव्य वितरणाद्वारे आणि प्रत्येक विषय शब्दांच्या संभाव्य वितरणाद्वारे दर्शविला जाईल.
नॉन निगेटिव्ह मॅट्रिक्स फॅक्टरायझेशन (NMF)
नॉन-निगेटिव्ह व्हॅल्यूज फॅक्टरायझेशनसह मॅट्रिक्स हा एक अत्याधुनिक वैशिष्ट्य काढण्याचा दृष्टीकोन आहे.
जेव्हा पुष्कळ गुण असतात आणि गुणधर्म अस्पष्ट असतात किंवा त्यांचा अंदाज कमी असतो, तेव्हा NMF फायदेशीर ठरते. NMF वैशिष्ट्ये एकत्रित करून महत्त्वपूर्ण नमुने, विषय किंवा थीम तयार करू शकते.
NMF प्रत्येक वैशिष्ट्य मूळ विशेषता संचाचे एक रेखीय संयोजन म्हणून व्युत्पन्न करते.
प्रत्येक वैशिष्ट्यामध्ये गुणांकांचा संच असतो जो वैशिष्ट्यावरील प्रत्येक गुणधर्माचे महत्त्व दर्शवतो. प्रत्येक संख्यात्मक गुणधर्म आणि प्रत्येक श्रेणी गुणधर्माच्या प्रत्येक मूल्याचा स्वतःचा गुणांक असतो.
सर्व गुणांक सकारात्मक आहेत.
सुप्त अर्थपूर्ण विश्लेषण
दस्तऐवजांच्या संचामधील शब्दांमधील संबंध काढण्यासाठी वापरण्यात येणारी ही आणखी एक पर्यवेक्षित शिक्षण पद्धत आहे जी सुप्त अर्थपूर्ण विश्लेषण आहे.
हे आम्हाला योग्य कागदपत्रे निवडण्यास मदत करते. मजकूर डेटाच्या प्रचंड कॉर्पसची आयाम कमी करणे हे त्याचे प्राथमिक कार्य आहे.
हे अनावश्यक डेटा डेटामधून आवश्यक अंतर्दृष्टी प्राप्त करण्यासाठी पार्श्वभूमी आवाज म्हणून काम करतात.
संभाव्य अव्यक्त शब्दार्थ विश्लेषण (pLSA)
संभाव्य सुप्त शब्दार्थ विश्लेषण (PLSA), काहीवेळा संभाव्य सुप्त शब्दार्थ इंडेक्सिंग (PLSI, विशेषत: माहिती पुनर्प्राप्ती मंडळांमध्ये) म्हणून ओळखले जाते, दोन-मोड आणि सह-घटना डेटाचे विश्लेषण करण्यासाठी एक सांख्यिकीय दृष्टीकोन आहे.
खरं तर, अव्यक्त अर्थविषयक विश्लेषणाप्रमाणे, ज्यातून PLSA उदयास आले, निरीक्षण केलेल्या चलांचे निम्न-आयामी प्रतिनिधित्व विशिष्ट लपविलेल्या चलांशी त्यांच्या आत्मीयतेच्या दृष्टीने काढले जाऊ शकते.
पायथनमधील टॉपिक मॉडेलिंगसह हँड्स-ऑन
आता, मी तुम्हाला Python सोबत विषय मॉडेलिंग असाइनमेंट सांगेन प्रोग्रामिंग भाषा वास्तविक जगाचे उदाहरण वापरून.
मी संशोधन लेखांचे मॉडेलिंग करेन. मी येथे वापरत असलेला डेटासेट kaggle.com वरून येतो. मी या कामात वापरत असलेल्या सर्व फाईल्स तुम्ही यातून सहज मिळवू शकता पृष्ठ.
सर्व आवश्यक लायब्ररी आयात करून पायथन वापरून टॉपिक मॉडेलिंगसह प्रारंभ करूया:
मी या कार्यात वापरत असलेले सर्व डेटासेट वाचण्यासाठी पुढील चरण आहे:
अन्वेषण डेटा विश्लेषण
EDA (एक्सप्लोरेटरी डेटा अॅनालिसिस) ही एक सांख्यिकीय पद्धत आहे जी दृश्य घटकांचा वापर करते. ट्रेंड, नमुने आणि चाचणी गृहीतके शोधण्यासाठी हे सांख्यिकीय सारांश आणि ग्राफिकल प्रस्तुतीकरण वापरते.
डेटामध्ये कोणतेही नमुने किंवा संबंध आहेत की नाही हे पाहण्यासाठी मी विषय मॉडेलिंग सुरू करण्यापूर्वी मी काही शोधात्मक डेटा विश्लेषण करेन:
आता आपण चाचणी डेटासेटची शून्य मूल्ये शोधू:
आता व्हेरिएबल्समधील संबंध तपासण्यासाठी मी हिस्टोग्राम आणि बॉक्सप्लॉट तयार करणार आहे.
ट्रेन संचाच्या अॅबस्ट्रॅक्ट्समधील वर्णांची संख्या मोठ्या प्रमाणात बदलते.
ट्रेनमध्ये, आमच्याकडे किमान 54 आणि कमाल 4551 वर्ण आहेत. 1065 वर्णांची सरासरी रक्कम आहे.
चाचणी संच प्रशिक्षण संचापेक्षा अधिक मनोरंजक दिसत आहे कारण चाचणी संचामध्ये 46 वर्ण आहेत तर प्रशिक्षण संच 2841 आहेत.
परिणामी, चाचणी सेटमध्ये 1058 वर्णांचा मध्यक होता, जो प्रशिक्षण संचासारखाच आहे.
शिकण्याच्या संचातील शब्दांची संख्या अक्षरांच्या संख्येप्रमाणेच असते.
किमान 8 शब्द आणि जास्तीत जास्त 665 शब्दांना परवानगी आहे. परिणामी, मध्यम शब्द संख्या 153 आहे.
अॅब्स्ट्रॅक्टमध्ये किमान सात शब्द आणि चाचणी सेटमध्ये जास्तीत जास्त 452 शब्द आवश्यक आहेत.
मध्यक, या प्रकरणात, 153 आहे, जो प्रशिक्षण संचातील मध्यकासारखा आहे.
विषय मॉडेलिंगसाठी टॅग वापरणे
अनेक विषय मॉडेलिंग धोरणे आहेत. मी या व्यायामामध्ये टॅग्ज वापरेन; टॅगचे परीक्षण करून ते कसे करायचे ते पाहू:
विषय मॉडेलिंगचे अनुप्रयोग
- दस्तऐवज किंवा पुस्तकाचा विषय जाणून घेण्यासाठी मजकूर सारांश वापरला जाऊ शकतो.
- परीक्षेतील गुणांकनातून उमेदवाराचा पूर्वाग्रह दूर करण्यासाठी याचा वापर केला जाऊ शकतो.
- आलेख-आधारित मॉडेलमधील शब्दांमधील अर्थपूर्ण संबंध निर्माण करण्यासाठी विषय मॉडेलिंगचा वापर केला जाऊ शकतो.
- हे क्लायंटच्या चौकशीतील कीवर्ड शोधून आणि त्यांना प्रतिसाद देऊन ग्राहक सेवा वाढवू शकते. ग्राहकांना तुमच्यावर अधिक विश्वास असेल कारण तुम्ही त्यांना योग्य वेळी आणि त्यांना कोणताही त्रास न देता त्यांना आवश्यक असलेली मदत दिली आहे. परिणामी, ग्राहकांची निष्ठा नाटकीयरित्या वाढते आणि कंपनीचे मूल्य वाढते.
निष्कर्ष
विषय मॉडेलिंग हे एक प्रकारचे सांख्यिकीय मॉडेलिंग आहे जे ग्रंथांच्या संग्रहामध्ये अस्तित्वात असलेले अमूर्त "विषय" उघड करण्यासाठी वापरले जाते.
मध्ये वापरलेल्या सांख्यिकीय मॉडेलचा हा एक प्रकार आहे मशीन शिक्षण आणि ग्रंथांच्या संचामध्ये अस्तित्त्वात असलेल्या अमूर्त संकल्पना उघड करण्यासाठी नैसर्गिक भाषा प्रक्रिया.
ही एक मजकूर खाण पद्धत आहे जी मुख्य मजकूरातील अव्यक्त अर्थविषयक नमुने शोधण्यासाठी मोठ्या प्रमाणावर वापरली जाते.
प्रत्युत्तर द्या