विषयसूची[लुकाउनुहोस्][देखाउनु]
म पक्का छु कि तपाईंले कृत्रिम बुद्धिमत्ता, साथै मेसिन लर्निङ र प्राकृतिक भाषा प्रशोधन (NLP) जस्ता शब्दहरू सुन्नु भएको छ।
विशेष गरी यदि तपाइँ एक फर्मको लागि काम गर्नुहुन्छ जसले हरेक दिन सयौं, हजारौं होइन, ग्राहक सम्पर्कहरू ह्यान्डल गर्दछ।
सामाजिक सञ्जाल पोस्टिङहरू, इमेलहरू, च्याटहरू, खुला-अन्त सर्वेक्षण जवाफहरू, र अन्य स्रोतहरूको डेटा विश्लेषण एक सरल प्रक्रिया होइन, र मानिसहरूलाई मात्र सुम्पिँदा यो अझ गाह्रो हुन्छ।
यसैले धेरै मानिसहरू को सम्भावना बारे उत्साहित छन् कृत्रिम बुद्धि तिनीहरूको दैनिक काम र उद्यमहरूको लागि।
एआई-संचालित पाठ विश्लेषणले भाषालाई अर्गानिक रूपमा व्याख्या गर्न दृष्टिकोण वा एल्गोरिदमहरूको व्यापक दायरा प्रयोग गर्दछ, जसमध्ये एउटा विषय विश्लेषण हो, जुन पाठहरूबाट विषयहरू स्वतः पत्ता लगाउन प्रयोग गरिन्छ।
व्यवसायहरूले विषय विश्लेषण मोडेलहरू प्रयोग गर्न सक्छन् मेसिनहरूमा सजिलो कामहरू स्थानान्तरण गर्नका लागि धेरै डाटाको साथ कामदारहरूलाई ओभरबोड गर्नुको सट्टा।
तपाईको टोलीले कति समय बचत गर्न सक्छ र थप आवश्यक काममा समर्पित गर्न सक्छ यदि कम्प्युटरले ग्राहक सर्वेक्षण वा समर्थन मुद्दाहरूको अनन्त सूचीहरू प्रत्येक बिहान फिल्टर गर्न सक्छ भने विचार गर्नुहोस्।
यस गाइडमा, हामी विषय मोडलिङ, विषय मोडलिङका विभिन्न विधिहरू हेर्नेछौं, र यससँग केही ह्यान्ड्स-अन अनुभव प्राप्त गर्नेछौं।
विषय मोडलिङ के हो?
विषय मोडलिङ पाठ खनन को एक प्रकार हो जसमा unsupervised र पर्यवेक्षित सांख्यिकीय मेशिन सिकाइ प्रविधिहरू कोर्पस वा असंरचित पाठको महत्त्वपूर्ण मात्रामा प्रवृतिहरू पत्ता लगाउन प्रयोग गरिन्छ।
यसले तपाईंको कागजातहरूको ठूलो सङ्कलन लिन सक्छ र शब्दहरूलाई सर्तहरूको समूहमा व्यवस्थित गर्न र विषयहरू पत्ता लगाउन समानता विधि प्रयोग गर्न सक्छ।
त्यो थोरै जटिल र कठिन देखिन्छ, त्यसैले विषय मोडलिङ प्रक्रिया सरल बनाउनुहोस्!
मान्नुहोस् कि तपाईं आफ्नो हातमा रंगीन हाइलाइटरहरूको सेटको साथ अखबार पढ्दै हुनुहुन्छ।
त्यो पुरानो जमाना होइन र?
मलाई थाहा छ, आजकल थोरै मानिसले छापिएका पत्रपत्रिका पढ्छन्; सबै कुरा डिजिटल छ, र हाइलाइटरहरू विगतका कुरा हुन्! आफ्नो बुबा वा आमा भएको नाटक गर्नुहोस्!
त्यसोभए, जब तपाइँ अखबार पढ्नुहुन्छ, तपाइँ महत्त्वपूर्ण सर्तहरू हाइलाइट गर्नुहुन्छ।
अर्को अनुमान!
तपाईले विभिन्न विषयवस्तुका कुञ्जी शव्दहरूलाई जोड दिन फरक रंग प्रयोग गर्नुहुन्छ। तपाईंले उपलब्ध गराइएका रङ र विषयहरूको आधारमा कुञ्जी शब्दहरूलाई वर्गीकरण गर्नुहुन्छ।
एक निश्चित रङ द्वारा चिन्हित शब्दहरूको प्रत्येक संग्रह दिइएको विषयको लागि कुञ्जी शब्दहरूको सूची हो। तपाईंले छान्नुभएको विभिन्न रङहरूको मात्राले विषयवस्तुहरूको सङ्ख्या देखाउँछ।
यो सबैभन्दा आधारभूत विषय मोडलिङ हो। यसले ठूला पाठ सङ्ग्रहहरूको बुझाइ, संगठन र संक्षेपमा मद्दत गर्छ।
यद्यपि, ध्यान राख्नुहोस् कि प्रभावकारी हुन, स्वचालित विषय मोडेलहरूलाई धेरै सामग्री चाहिन्छ। यदि तपाइँसँग छोटो कागज छ भने, तपाइँ पुरानो विद्यालय जान र हाइलाइटरहरू प्रयोग गर्न सक्नुहुन्छ!
डाटा जान्नको लागि केहि समय खर्च गर्नु पनि फाइदाजनक छ। यसले तपाइँलाई विषय मोडेलले के फेला पार्नुपर्दछ भन्ने आधारभूत ज्ञान दिनेछ।
उदाहरणका लागि, त्यो डायरी तपाईको वर्तमान र अघिल्लो सम्बन्धको बारेमा हुन सक्छ। यसैले, म मेरो पाठ खनन रोबोट-बडी समान विचारहरूको साथ आउने आशा गर्दछु।
यसले तपाईंलाई तपाईंले पहिचान गर्नुभएका विषयहरूको गुणस्तर विश्लेषण गर्न मद्दत गर्न सक्छ र आवश्यक भएमा, कुञ्जी शब्द सेटहरू ट्वीक गर्नुहोस्।
विषय मोडलिङ को घटक
सम्भाव्य मोडेल
अनियमित चरहरू र सम्भाव्यता वितरणहरू सम्भाव्य मोडेलहरूमा घटना वा घटनाको प्रतिनिधित्वमा समावेश हुन्छन्।
एक निश्चित मोडेलले घटनाको लागि एकल सम्भावित निष्कर्ष प्रदान गर्दछ, जबकि एक सम्भाव्यता मोडेलले समाधानको रूपमा सम्भाव्यता वितरण प्रदान गर्दछ।
यी मोडेलहरूले वास्तविकतालाई विचार गर्छन् कि हामीलाई अवस्थाको पूर्ण ज्ञान विरलै हुन्छ। त्यहाँ लगभग सधैं विचार गर्न अनियमितता को एक तत्व छ।
उदाहरणका लागि, जीवन बीमा वास्तविकतामा भविष्यवाणी गरिएको छ जुन हामीलाई थाहा छ कि हामी मर्ने छौं, तर हामीलाई थाहा छैन कहिले। यी मोडेलहरू आंशिक रूपमा नियतात्मक, आंशिक रूपमा अनियमित, वा पूर्ण रूपमा अनियमित हुन सक्छन्।
सूचनात्मक पुन: प्राप्ति
सूचना पुन: प्राप्ति (IR) एक सफ्टवेयर प्रोग्राम हो जसले कागजात भण्डारहरू, विशेष गरी पाठ्य जानकारीहरूबाट जानकारी व्यवस्थित, भण्डारण, पुन: प्राप्त, र मूल्याङ्कन गर्दछ।
प्रविधिले प्रयोगकर्ताहरूलाई उनीहरूलाई आवश्यक जानकारी पत्ता लगाउन मद्दत गर्दछ, तर यसले उनीहरूको सोधपुछको जवाफ स्पष्ट रूपमा प्रदान गर्दैन। यसले आवश्यक जानकारी प्रदान गर्न सक्ने कागजातहरूको उपस्थिति र स्थानको सूचना दिन्छ।
सान्दर्भिक कागजातहरू ती हुन् जसले प्रयोगकर्ताको आवश्यकताहरू पूरा गर्दछ। त्रुटिरहित IR प्रणालीले चयन गरिएका कागजातहरू मात्र फिर्ता गर्नेछ।
विषय समन्वय
विषय सुसंगतताले विषयको उच्च-अंक सर्तहरू बीचको अर्थिक समानताको डिग्री गणना गरेर एकल विषयलाई स्कोर गर्छ। यी मेट्रिक्सले सिमेन्टिक रूपमा व्याख्या गर्न सकिने विषयहरू र तथ्याङ्कीय निष्कर्ष कलाकृतिहरू हुन् भन्ने विषयहरू बीचको भिन्नता छुट्याउन मद्दत गर्दछ।
यदि दावी वा तथ्यहरूको समूहले एकअर्कालाई समर्थन गर्दछ भने, उनीहरूलाई सुसंगत भनिन्छ।
नतिजाको रूपमा, एक सुसंगत तथ्य सेटलाई सन्दर्भमा बुझ्न सकिन्छ जुन सबै वा अधिकांश तथ्यहरू समावेश गर्दछ। "खेल एक टोली खेल हो," "खेल एक बल संग खेलिन्छ," र "खेल धेरै शारीरिक प्रयास आवश्यक छ" एकजुट तथ्य सेट को सबै उदाहरणहरू छन्।
विषय मोडलिङ को विभिन्न विधिहरु
यो महत्वपूर्ण प्रक्रिया विभिन्न एल्गोरिदम वा विधिहरू द्वारा गर्न सकिन्छ। तिनीहरूमध्ये निम्न हुन्:
- लेटेन्ट डिरिचलेट एलोकेशन (LDA)
- गैर नकारात्मक म्याट्रिक्स कारककरण (NMF)
- अव्यक्त अर्थ विश्लेषण (LSA)
- सम्भाव्य अव्यक्त अर्थ विश्लेषण (pLSA)
लेटेन्ट डिरिचलेट एलोकेशन (LDA)
एक कोर्पसमा बहु पाठहरू बीचको सम्बन्ध पत्ता लगाउन, लेटेन्ट डिरिचलेट एलोकेशनको सांख्यिकीय र ग्राफिकल अवधारणा प्रयोग गरिन्छ।
भिन्नता अपवाद अधिकतमीकरण (VEM) दृष्टिकोण प्रयोग गरेर, पाठको पूर्ण कोर्पसबाट सबैभन्दा ठूलो सम्भावना अनुमान प्राप्त हुन्छ।
परम्परागत रूपमा, शब्दहरूको झोलाबाट शीर्ष केही शब्दहरू छनौट गरिन्छ।
यद्यपि, वाक्य पूर्ण अर्थहीन छ।
यस प्रविधिको अनुसार, प्रत्येक पाठलाई विषयहरूको सम्भाव्य वितरणद्वारा, र प्रत्येक विषयलाई शब्दहरूको सम्भाव्य वितरणद्वारा प्रतिनिधित्व गरिनेछ।
गैर नकारात्मक म्याट्रिक्स कारककरण (NMF)
गैर-नकारात्मक मान कारककरण भएको म्याट्रिक्स एक अत्याधुनिक सुविधा निकासी दृष्टिकोण हो।
जब त्यहाँ धेरै गुणहरू छन् र विशेषताहरू अस्पष्ट छन् वा कमजोर भविष्यवाणी छ, NMF लाभदायक छ। NMF ले विशेषताहरू संयोजन गरेर महत्त्वपूर्ण ढाँचा, विषयहरू वा विषयवस्तुहरू उत्पन्न गर्न सक्छ।
NMF ले मूल विशेषता सेटको रेखीय संयोजनको रूपमा प्रत्येक विशेषता उत्पन्न गर्दछ।
प्रत्येक विशेषताले गुणकहरूको सेट समावेश गर्दछ जसले सुविधामा प्रत्येक विशेषताको महत्त्वलाई प्रतिनिधित्व गर्दछ। प्रत्येक संख्यात्मक विशेषता र प्रत्येक श्रेणी विशेषताको प्रत्येक मानको आफ्नै गुणांक हुन्छ।
सबै गुणांक सकारात्मक छन्।
अव्यक्त अर्थ विश्लेषण
यो कागजातहरूको सेटमा शब्दहरू बीचको सम्बन्धहरू निकाल्न प्रयोग गरिने अर्को अनपेक्षित सिकाइ विधि हो जुन अव्यक्त अर्थ विश्लेषण हो।
यसले हामीलाई उचित कागजातहरू छनौट गर्न मद्दत गर्दछ। यसको प्राथमिक कार्य पाठ डेटा को विशाल कोर्पस को dimensionality कम गर्न को लागी छ।
यी अनावश्यक डाटाले डाटाबाट आवश्यक अन्तर्दृष्टिहरू प्राप्त गर्न पृष्ठभूमि शोरको रूपमा सेवा गर्दछ।
सम्भाव्य अव्यक्त अर्थ विश्लेषण (pLSA)
सम्भाव्य अव्यक्त अर्थ विश्लेषण (PLSA), कहिलेकाहीं सम्भावित सुप्त अर्थिक अनुक्रमणिका (PLSI, विशेष गरी सूचना पुन: प्राप्ति सर्कलहरूमा) को रूपमा चिनिन्छ, दुई-मोड र सह-घटना डेटाको विश्लेषणको लागि एक सांख्यिकीय दृष्टिकोण हो।
वास्तवमा, अव्यक्त अर्थपूर्ण विश्लेषण जस्तै, जसबाट PLSA देखा पर्यो, अवलोकन गरिएका चरहरूको कम-आयामी प्रतिनिधित्व विशेष लुकेका चरहरूसँग तिनीहरूको सम्बन्धको सन्दर्भमा व्युत्पन्न गर्न सकिन्छ।
पाइथन मा विषय मोडलिङ संग ह्यान्ड्स-अन
अब, म तपाईलाई पाइथन संग एक विषय मोडलिङ असाइनमेन्ट मार्फत हिंड्नेछु प्रोग्रामिंग भाषा वास्तविक संसारको उदाहरण प्रयोग गर्दै।
म अनुसन्धान लेखहरू मोडेल गर्दैछु। मैले यहाँ प्रयोग गर्ने डेटासेट kaggle.com बाट आउँछ। मैले यस काममा प्रयोग गरिरहेको सबै फाइलहरू यसबाट सजिलै प्राप्त गर्न सक्नुहुन्छ पृष्ठ.
सबै आवश्यक पुस्तकालयहरू आयात गरेर पाइथन प्रयोग गरेर विषय मोडलिङ सुरु गरौं:
निम्न चरण भनेको सबै डेटासेटहरू पढ्नु हो जुन मैले यो कार्यमा प्रयोग गर्नेछु:
अन्वेषण डाटा विश्लेषण
EDA (अन्वेषक डेटा विश्लेषण) एक सांख्यिकीय विधि हो जसले दृश्य तत्वहरू प्रयोग गर्दछ। यसले प्रवृत्ति, ढाँचा, र परीक्षण अनुमानहरू पत्ता लगाउन सांख्यिकीय सारांशहरू र ग्राफिकल प्रतिनिधित्वहरू प्रयोग गर्दछ।
डेटामा कुनै ढाँचा वा सम्बन्धहरू छन् वा छैनन् भनी हेर्नको लागि विषय मोडलिङ सुरु गर्नु अघि म केही अन्वेषणात्मक डेटा विश्लेषण गर्नेछु:
अब हामी परीक्षण डेटासेटको शून्य मानहरू फेला पार्नेछौं:
अब म चरहरू बीचको सम्बन्ध जाँच गर्न हिस्टोग्राम र बक्सप्लट प्लट गर्नेछु।
ट्रेन सेट को सार मा वर्ण को मात्रा धेरै फरक हुन्छ।
ट्रेनमा, हामीसँग न्यूनतम 54 र अधिकतम 4551 वर्णहरू छन्। 1065 वर्णहरूको औसत रकम हो।
परीक्षण सेट प्रशिक्षण सेट भन्दा बढी रोचक देखिन्छ किनकि परीक्षण सेटमा 46 क्यारेक्टरहरू छन् जबकि प्रशिक्षण सेटमा 2841 छन्।
नतिजाको रूपमा, परीक्षण सेटमा 1058 वर्णहरूको माध्य थियो, जुन प्रशिक्षण सेट जस्तै छ।
सिकाइ सेटमा शब्दहरूको सङ्ख्याले अक्षरहरूको सङ्ख्यामा समान ढाँचा पछ्याउँछ।
न्यूनतम 8 शब्दहरू र अधिकतम 665 शब्दहरूलाई अनुमति छ। नतिजाको रूपमा, मध्य शब्द गणना 153 हो।
एब्स्ट्र्याक्टमा न्यूनतम सात शब्द र परीक्षण सेटमा अधिकतम ४५२ शब्द आवश्यक हुन्छ।
मध्य, यस अवस्थामा, 153 हो, जुन प्रशिक्षण सेटमा मध्यका समान छ।
विषय मोडलिङका लागि ट्यागहरू प्रयोग गर्दै
त्यहाँ धेरै विषय मोडलिङ रणनीतिहरू छन्। म यस अभ्यासमा ट्यागहरू प्रयोग गर्नेछु; ट्यागहरू जाँच गरेर कसरी गर्ने भनेर हेरौं:
विषय मोडलिङ को आवेदन
- कागजात वा पुस्तकको विषय बुझ्नको लागि पाठ सारांश प्रयोग गर्न सकिन्छ।
- यसलाई परीक्षा स्कोरिङबाट उम्मेदवार पूर्वाग्रह हटाउन प्रयोग गर्न सकिन्छ।
- ग्राफ-आधारित मोडेलहरूमा शब्दहरू बीच सिमान्टिक सम्बन्धहरू निर्माण गर्न विषय मोडेलिङ प्रयोग गर्न सकिन्छ।
- यसले ग्राहकको सोधपुछमा कुञ्जी शव्दहरू पत्ता लगाएर र प्रतिक्रिया दिएर ग्राहक सेवा बढाउन सक्छ। ग्राहकहरूलाई तपाईंमा थप विश्वास हुनेछ किनभने तपाईंले उनीहरूलाई उपयुक्त समयमा र उनीहरूलाई कुनै झन्झट नदिई आवश्यक सहयोग प्रदान गर्नुभएको छ। नतिजाको रूपमा, ग्राहकको वफादारी नाटकीय रूपमा बढ्छ, र कम्पनीको मूल्य बढ्छ।
निष्कर्ष
विषय मोडलिङ एक प्रकारको सांख्यिकीय मोडेलिङ हो जुन पाठहरूको संग्रहमा अवस्थित सार "विषयहरू" लाई उजागर गर्न प्रयोग गरिन्छ।
यो मा प्रयोग गरिएको सांख्यिकीय मोडेल को एक रूप हो मेशिन सिकाइ र पाठहरूको सेटमा अवस्थित अमूर्त अवधारणाहरू उजागर गर्न प्राकृतिक भाषा प्रशोधन।
यो एक पाठ खनन विधि हो जुन व्यापक रूपमा शरीर पाठमा अव्यक्त अर्थ ढाँचाहरू फेला पार्न प्रयोग गरिन्छ।
जवाफ छाड्नुस्