किसी भी प्रकार की कॉर्पोरेट गतिविधि के लिए प्राथमिक मानदंडों में से एक सूचना का प्रभावी उपयोग है। कुछ बिंदु पर, बनाए गए डेटा की मात्रा बुनियादी प्रसंस्करण की क्षमता से अधिक है।
यहीं से मशीन लर्निंग एल्गोरिदम काम आता है। हालांकि, इनमें से कोई भी घटित होने से पहले, जानकारी का अध्ययन और व्याख्या की जानी चाहिए। संक्षेप में, यह वही है जिसके लिए अनुपयोगी मशीन लर्निंग का उपयोग किया जाता है।
इस लेख में, हम बिना पर्यवेक्षित मशीन लर्निंग की गहराई से जांच करेंगे, जिसमें इसके एल्गोरिदम, उपयोग के मामले और बहुत कुछ शामिल हैं।
अनसुपरवाइज्ड मशीन लर्निंग क्या है?
बिना पर्यवेक्षित मशीन लर्निंग एल्गोरिदम एक ऐसे डेटासेट में पैटर्न की पहचान करता है जिसका कोई ज्ञात या लेबल वाला परिणाम नहीं होता है। देखरेख मशीन लर्निंग एल्गोरिदम एक लेबल आउटपुट है।
इस अंतर को जानने से आपको यह समझने में मदद मिलती है कि प्रतिगमन या वर्गीकरण के मुद्दों को हल करने के लिए असुरक्षित मशीन सीखने के तरीकों का उपयोग क्यों नहीं किया जा सकता है, क्योंकि आप नहीं जानते कि आउटपुट डेटा का मूल्य/उत्तर क्या हो सकता है। यदि आप मूल्य/उत्तर नहीं जानते हैं तो आप सामान्य रूप से एल्गोरिदम को प्रशिक्षित नहीं कर सकते हैं।
इसके अलावा, डेटा की मौलिक संरचना की पहचान करने के लिए अप्रशिक्षित शिक्षण का उपयोग किया जा सकता है। ये एल्गोरिदम मानव संपर्क की आवश्यकता के बिना छिपे हुए पैटर्न या डेटा समूह का पता लगाते हैं।
जानकारी में समानता और विरोधाभासों का पता लगाने की इसकी क्षमता इसे खोजपूर्ण डेटा विश्लेषण, क्रॉस-सेलिंग तकनीकों, उपभोक्ता विभाजन और चित्र पहचान के लिए एक बढ़िया विकल्प बनाती है।
निम्नलिखित परिदृश्य पर विचार करें: आप एक किराने की दुकान में हैं और एक अज्ञात फल देखते हैं जिसे आपने पहले कभी नहीं देखा है। आप अपने रूप, आकार या रंग के अपने अवलोकन के आधार पर अज्ञात फल को अन्य फलों से अलग पहचान सकते हैं।
अनुपयोगी मशीन लर्निंग एल्गोरिदम
क्लस्टरिंग
बिना किसी संदेह के क्लस्टरिंग सबसे व्यापक रूप से उपयोग किया जाने वाला अनुपयोगी शिक्षण दृष्टिकोण है। यह दृष्टिकोण संबंधित डेटा आइटम को बेतरतीब ढंग से उत्पन्न क्लस्टर में रखता है।
अपने आप में, एक एमएल मॉडल एक गैर-वर्गीकृत डेटा संरचना में किसी भी पैटर्न, समानता और / या अंतर की खोज करता है। एक मॉडल डेटा में किसी भी प्राकृतिक समूह या वर्गों की खोज करने में सक्षम होगा।
प्रकार
क्लस्टरिंग के कई रूप हैं जिनका उपयोग किया जा सकता है। आइए पहले सबसे महत्वपूर्ण देखें।
- विशिष्ट क्लस्टरिंग, जिसे कभी-कभी "हार्ड" क्लस्टरिंग के रूप में जाना जाता है, एक प्रकार का समूह है जिसमें डेटा का एक टुकड़ा सिर्फ एक क्लस्टर से संबंधित होता है।
- ओवरलैपिंग क्लस्टरिंग, जिसे अक्सर "सॉफ्ट" क्लस्टरिंग के रूप में जाना जाता है, डेटा ऑब्जेक्ट को एक से अधिक क्लस्टर से अलग-अलग डिग्री से संबंधित होने की अनुमति देता है। इसके अलावा, संभाव्य क्लस्टरिंग का उपयोग "सॉफ्ट" क्लस्टरिंग या घनत्व अनुमान समस्याओं से निपटने के लिए किया जा सकता है, साथ ही कुछ समूहों से संबंधित डेटा बिंदुओं की संभावना या संभावना का आकलन करने के लिए भी किया जा सकता है।
- जैसा कि नाम से संकेत मिलता है, समूहीकृत डेटा आइटम का एक पदानुक्रम बनाना श्रेणीबद्ध क्लस्टरिंग का लक्ष्य है। क्लस्टर उत्पन्न करने के लिए पदानुक्रम के आधार पर डेटा आइटम का पुनर्निर्माण या संयोजन किया जाता है।
बक्सों का इस्तेमाल करें:
- असंगति का पता लगाये:
क्लस्टरिंग का उपयोग करके डेटा में किसी भी प्रकार के आउटलेयर का पता लगाया जा सकता है। परिवहन और रसद में कंपनियां, उदाहरण के लिए, लॉजिस्टिक बाधाओं की खोज करने या क्षतिग्रस्त यांत्रिक भागों (भविष्य कहनेवाला रखरखाव) का खुलासा करने के लिए विसंगति का पता लगाने का उपयोग कर सकती हैं।
वित्तीय संस्थान धोखाधड़ी वाले लेनदेन का पता लगाने और त्वरित प्रतिक्रिया देने के लिए प्रौद्योगिकी का उपयोग कर सकते हैं, संभावित रूप से बहुत सारा पैसा बचा सकते हैं। हमारे वीडियो को देखकर असामान्यताओं और धोखाधड़ी का पता लगाने के बारे में अधिक जानें।
- ग्राहकों और बाजारों का विभाजन:
क्लस्टरिंग एल्गोरिदम समान विशेषताओं वाले लोगों को समूहबद्ध करने और अधिक प्रभावी विपणन और लक्षित पहल के लिए उपभोक्ता व्यक्तित्व बनाने में सहायता कर सकते हैं।
कश्मीर साधन
K- साधन एक क्लस्टरिंग विधि है जिसे विभाजन या विभाजन के रूप में भी जाना जाता है। यह डेटा बिंदुओं को K के रूप में ज्ञात समूहों की एक पूर्व निर्धारित संख्या में विभाजित करता है।
K- साधन विधि में, K इनपुट है क्योंकि आप कंप्यूटर को बताते हैं कि आप अपने डेटा में कितने क्लस्टर की पहचान करना चाहते हैं। प्रत्येक डेटा आइटम को बाद में निकटतम क्लस्टर केंद्र को सौंपा जाता है, जिसे सेंट्रोइड (चित्र में काले बिंदु) के रूप में जाना जाता है।
बाद वाला डेटा स्टोरेज स्पेस के रूप में काम करता है। क्लस्टरिंग तकनीक को कई बार किया जा सकता है जब तक कि क्लस्टर अच्छी तरह से परिभाषित नहीं हो जाते।
फजी के-साधन
फ़ज़ी के-मीन्स, के-मीन्स तकनीक का एक विस्तार है, जिसका उपयोग ओवरलैपिंग क्लस्टरिंग करने के लिए किया जाता है। के-साधन तकनीक के विपरीत, अस्पष्ट के-साधन इंगित करते हैं कि डेटा बिंदु कई समूहों से संबंधित हो सकते हैं, जिनमें से प्रत्येक के लिए निकटता की अलग-अलग डिग्री हो सकती है।
निकटता की गणना के लिए डेटा बिंदुओं और क्लस्टर के केंद्रक के बीच की दूरी का उपयोग किया जाता है। नतीजतन, ऐसे अवसर हो सकते हैं जब विभिन्न क्लस्टर ओवरलैप हो जाते हैं।
गाऊसी मिश्रण मॉडल
गाऊसी मिश्रण मॉडल (जीएमएम) संभाव्य क्लस्टरिंग में उपयोग की जाने वाली एक विधि है। क्योंकि माध्य और विचरण अज्ञात हैं, मॉडल मानते हैं कि गॉसियन वितरण की एक निश्चित संख्या है, प्रत्येक एक अलग क्लस्टर का प्रतिनिधित्व करता है।
यह निर्धारित करने के लिए कि एक विशिष्ट डेटा बिंदु किस क्लस्टर से संबंधित है, इस विधि का अनिवार्य रूप से उपयोग किया जाता है।
पदानुक्रमित क्लस्टरिंग
पदानुक्रमित क्लस्टरिंग रणनीति एक अलग क्लस्टर को सौंपे गए प्रत्येक डेटा बिंदु से शुरू हो सकती है। दो क्लस्टर जो एक दूसरे के सबसे करीब होते हैं, उन्हें एक ही क्लस्टर में मिला दिया जाता है। पुनरावृत्ति विलय तब तक जारी रहता है जब तक कि केवल एक क्लस्टर शीर्ष पर न रह जाए।
इस विधि को बॉटम-अप या एग्लोमेरेटिव के रूप में जाना जाता है। यदि आप एक ही क्लस्टर से जुड़े सभी डेटा आइटम से शुरू करते हैं और तब तक विभाजन करते हैं जब तक कि प्रत्येक डेटा आइटम को एक अलग क्लस्टर के रूप में असाइन नहीं किया जाता है, तो विधि को टॉप-डाउन या विभाजनकारी पदानुक्रमित क्लस्टरिंग के रूप में जाना जाता है।
एप्रीओरी एल्गोरिथम
मार्केट बास्केट विश्लेषण ने एप्रीओरी एल्गोरिदम को लोकप्रिय बनाया, जिसके परिणामस्वरूप संगीत प्लेटफॉर्म और ऑनलाइन स्टोर के लिए विभिन्न अनुशंसा इंजन बने।
दूसरे की खपत के आधार पर एक उत्पाद के उपभोग की संभावना का अनुमान लगाने के लिए, अक्सर आइटमसेट, या वस्तुओं के समूह को खोजने के लिए उनका उपयोग लेन-देन संबंधी डेटासेट में किया जाता है।
उदाहरण के लिए, अगर मैं Spotify पर OneRepublic के रेडियो को "काउंटिंग स्टार्स" के साथ बजाना शुरू करता हूं, तो इस चैनल के अन्य गानों में से एक निश्चित रूप से इमेजिन ड्रैगन गाना होगा, जैसे कि "बैड लियर।"
यह मेरी पिछली सुनने की आदतों के साथ-साथ दूसरों के सुनने के पैटर्न पर आधारित है। Apriori तरीके डेटासेट की चौड़ाई-पहले को पार करते हुए हैश ट्री का उपयोग करके आइटमसेट की गणना करते हैं।
आयाम की कमी
आयाम में कमी एक प्रकार की अनुपयोगी शिक्षा है जो किसी डेटासेट में सुविधाओं या आयामों की संख्या को कम करने के लिए रणनीतियों के संग्रह का उपयोग करती है। हमें स्पष्ट करने दें।
अपना बनाते समय अधिक से अधिक डेटा शामिल करना आकर्षक हो सकता है मशीन सीखने के लिए डेटासेट. हमें गलत मत समझो: यह रणनीति अच्छी तरह से काम करती है क्योंकि अधिक डेटा आमतौर पर अधिक सटीक निष्कर्ष देता है।
मान लें कि डेटा एन-डायमेंशनल स्पेस में संग्रहीत है, जिसमें प्रत्येक विशेषता एक अलग आयाम का प्रतिनिधित्व करती है। बहुत अधिक डेटा होने पर सैकड़ों आयाम हो सकते हैं।
एक्सेल स्प्रेडशीट पर विचार करें, जिसमें कॉलम विशेषताओं और डेटा आइटम का प्रतिनिधित्व करने वाली पंक्तियों का प्रतिनिधित्व करते हैं। जब बहुत अधिक आयाम होते हैं, तो एमएल एल्गोरिदम खराब प्रदर्शन कर सकते हैं और डेटा विज़ुअलाइज़ेशन मुश्किल हो सकता है।
इसलिए यह विशेषताओं या आयामों को सीमित करना और उचित जानकारी देना तर्कसंगत बनाता है। आयामी कमी बस यही है। यह डेटासेट की अखंडता से समझौता किए बिना डेटा इनपुट की प्रबंधनीय मात्रा की अनुमति देता है।
प्रधान घटक विश्लेषण (पीसीए)
प्रमुख घटक विश्लेषण एक आयामी कमी दृष्टिकोण है। इसका उपयोग विशाल डेटासेट में सुविधाओं की संख्या को कम करने के लिए किया जाता है, जिसके परिणामस्वरूप सटीकता का त्याग किए बिना अधिक डेटा सादगी होती है।
डेटासेट संपीड़न एक विधि द्वारा पूरा किया जाता है जिसे फीचर निष्कर्षण के रूप में जाना जाता है। यह इंगित करता है कि मूल सेट के तत्वों को एक नए, छोटे में मिश्रित किया गया है। इन नए लक्षणों को प्राथमिक घटकों के रूप में जाना जाता है।
बेशक, ऐसे अतिरिक्त एल्गोरिदम हैं जिनका उपयोग आप अपने अनुपयोगी शिक्षण अनुप्रयोगों में कर सकते हैं। ऊपर सूचीबद्ध केवल सबसे अधिक प्रचलित हैं, यही वजह है कि उनकी अधिक विस्तार से चर्चा की जाती है।
अनुपयोगी शिक्षा का अनुप्रयोग
- वस्तु की पहचान जैसे दृश्य धारणा कार्यों के लिए अनुपयोगी शिक्षण विधियों का उपयोग किया जाता है।
- बिना पर्यवेक्षित मशीन लर्निंग मेडिकल इमेजिंग सिस्टम को महत्वपूर्ण पहलू देता है, जैसे कि छवि पहचान, वर्गीकरण और विभाजन, जिनका उपयोग रेडियोलॉजी और पैथोलॉजी में रोगियों का तेजी से और मज़बूती से निदान करने के लिए किया जाता है।
- अनुपयोगी शिक्षण डेटा रुझानों की पहचान करने में मदद कर सकता है जिसका उपयोग उपभोक्ता व्यवहार पर पिछले डेटा का उपयोग करके अधिक प्रभावी क्रॉस-सेलिंग रणनीति बनाने के लिए किया जा सकता है। चेकआउट प्रक्रिया के दौरान, इसका उपयोग ऑनलाइन व्यवसायों द्वारा ग्राहकों को सही ऐड-ऑन का सुझाव देने के लिए किया जाता है।
- अनुपयोगी सीखने के तरीके आउटलेयर का पता लगाने के लिए भारी मात्रा में डेटा के माध्यम से झारना कर सकते हैं। ये असामान्यताएं खराब उपकरण, मानवीय गलती, या सुरक्षा उल्लंघनों की सूचना दे सकती हैं।
अनुपयोगी शिक्षा के मुद्दे
महत्वपूर्ण अंतर्दृष्टि प्राप्त करने की क्षमता से, अनपर्यवेक्षित शिक्षण विभिन्न तरीकों से आकर्षक है महंगा डेटा लेबलिंग से बचने के लिए डेटा संचालन। हालांकि, प्रशिक्षण के लिए इस रणनीति का उपयोग करने में कई कमियां हैं मशीन सीखने के मॉडल जिससे आपको अवगत होना चाहिए। यहाँ कुछ उदाहरण हैं।
- चूंकि इनपुट डेटा में लेबल की कमी होती है जो प्रतिक्रिया कुंजी के रूप में काम करते हैं, असुरक्षित शिक्षण मॉडल के परिणाम कम सटीक हो सकते हैं।
- अनुपयोगी शिक्षण अक्सर बड़े पैमाने पर डेटासेट के साथ काम करता है, जो कम्प्यूटेशनल जटिलता को बढ़ा सकता है।
- इस दृष्टिकोण के लिए जांच के विषय में आंतरिक या बाहरी विशेषज्ञों द्वारा मानव द्वारा आउटपुट पुष्टिकरण की आवश्यकता होती है।
- एल्गोरिदम को पूरे प्रशिक्षण चरण में हर संभव परिदृश्य की जांच और गणना करनी चाहिए, जिसमें कुछ समय लगता है।
निष्कर्ष
प्रभावी डेटा उपयोग किसी विशेष बाजार में प्रतिस्पर्धात्मक बढ़त स्थापित करने की कुंजी है।
आप अपने लक्षित दर्शकों की प्राथमिकताओं की जांच करने के लिए या यह निर्धारित करने के लिए कि एक निश्चित संक्रमण किसी विशेष उपचार के लिए कैसे प्रतिक्रिया करता है, आप असुरक्षित मशीन लर्निंग एल्गोरिदम का उपयोग करके डेटा को विभाजित कर सकते हैं।
कई व्यावहारिक अनुप्रयोग हैं, और डेटा वैज्ञानिकों, इंजीनियर और आर्किटेक्ट आपके लक्ष्यों को परिभाषित करने और आपकी कंपनी के लिए अद्वितीय एमएल समाधान विकसित करने में आपकी सहायता कर सकते हैं।
एक जवाब लिखें