अनुक्रमणिका[लपवा][दाखवा]
कोणत्याही प्रकारच्या कॉर्पोरेट क्रियाकलापांसाठी प्राथमिक निकषांपैकी एक म्हणजे माहितीचा प्रभावी वापर. काही क्षणी, तयार केलेल्या डेटाची मात्रा मूलभूत प्रक्रियेच्या क्षमतेपेक्षा जास्त असते.
तिथेच मशीन लर्निंग अल्गोरिदम लागू होतात. तथापि, यापैकी काहीही होण्यापूर्वी, माहितीचा अभ्यास करणे आणि त्याचा अर्थ लावणे आवश्यक आहे. थोडक्यात, पर्यवेक्षित नसलेले मशीन लर्निंग यासाठी वापरले जाते.
या लेखात, आम्ही पर्यवेक्षित नसलेल्या मशिन लर्निंगचे सखोल परीक्षण करू, त्यात अल्गोरिदम, वापर प्रकरणे आणि बरेच काही.
पर्यवेक्षित नसलेले मशीन लर्निंग म्हणजे काय?
पर्यवेक्षित नसलेले मशीन लर्निंग अल्गोरिदम डेटासेटमधील नमुने ओळखतात ज्यांना ज्ञात किंवा लेबल केलेले परिणाम नसतात. पर्यवेक्षण केले मशीन शिक्षण अल्गोरिदम लेबल केलेले आउटपुट आहे.
आउटपुट डेटाचे मूल्य/उत्तर काय असू शकते हे तुम्हाला माहीत नसल्यामुळे, हा फरक जाणून घेतल्याने तुम्हाला हे समजण्यास मदत होते की पर्यवेक्षित नसलेल्या मशीन लर्निंग पद्धती का वापरल्या जाऊ शकत नाहीत. जर तुम्हाला मूल्य/उत्तर माहित नसेल तर तुम्ही सामान्यपणे अल्गोरिदम प्रशिक्षित करू शकत नाही.
शिवाय, पर्यवेक्षण न केलेले शिक्षण डेटाची मूलभूत रचना ओळखण्यासाठी वापरले जाऊ शकते. हे अल्गोरिदम मानवी परस्परसंवादाच्या गरजेशिवाय लपविलेले नमुने किंवा डेटा गट शोधतात.
माहितीमधील समानता आणि विरोधाभास शोधण्याची त्याची क्षमता एक्सप्लोरेटरी डेटा विश्लेषण, क्रॉस-सेलिंग तंत्र, ग्राहक विभाजन आणि चित्र ओळख यासाठी एक उत्तम पर्याय बनवते.
खालील परिस्थिती विचारात घ्या: तुम्ही किराणा दुकानात आहात आणि तुम्ही यापूर्वी कधीही न पाहिलेले अनोळखी फळ पहा. तुमच्या फॉर्म, आकार किंवा रंगाच्या तुमच्या निरीक्षणाच्या आधारे तुम्ही इतर फळांपेक्षा वेगळे असलेले अज्ञात फळ सहज ओळखू शकता.
पर्यवेक्षित नसलेले मशीन लर्निंग अल्गोरिदम
क्लस्टरिंग
क्लस्टरिंग हा निःसंशयपणे वापरला जाणारा सर्वात व्यापकपणे वापरला जाणारा पर्यवेक्षित शिक्षण दृष्टिकोन आहे. हा दृष्टिकोन संबंधित डेटा आयटम यादृच्छिकपणे व्युत्पन्न केलेल्या क्लस्टरमध्ये ठेवतो.
स्वतःहून, ML मॉडेल अवर्गीकृत डेटा स्ट्रक्चरमधील कोणतेही नमुने, समानता आणि/किंवा फरक शोधते. मॉडेल डेटामधील कोणतेही नैसर्गिक गट किंवा वर्ग शोधण्यात सक्षम असेल.
प्रकार
क्लस्टरिंगचे अनेक प्रकार आहेत जे वापरले जाऊ शकतात. प्रथम सर्वात महत्वाचे पाहू.
- अनन्य क्लस्टरिंग, ज्याला कधीकधी "हार्ड" क्लस्टरिंग म्हणून ओळखले जाते, हा एक प्रकारचा गट आहे ज्यामध्ये डेटाचा एक भाग फक्त एका क्लस्टरचा असतो.
- ओव्हरलॅपिंग क्लस्टरिंग, ज्याला सहसा "सॉफ्ट" क्लस्टरिंग म्हणून ओळखले जाते, डेटा ऑब्जेक्ट्सला वेगवेगळ्या प्रमाणात एकापेक्षा जास्त क्लस्टरशी संबंधित ठेवण्याची परवानगी देते. शिवाय, संभाव्य क्लस्टरिंगचा वापर "सॉफ्ट" क्लस्टरिंग किंवा घनता अंदाज समस्या हाताळण्यासाठी तसेच विशिष्ट क्लस्टर्सशी संबंधित डेटा पॉइंट्सच्या संभाव्यतेचे किंवा संभाव्यतेचे मूल्यांकन करण्यासाठी केला जाऊ शकतो.
- गटबद्ध डेटा आयटमची पदानुक्रम तयार करणे हे नाव दर्शविल्याप्रमाणे श्रेणीबद्ध क्लस्टरिंगचे लक्ष्य आहे. क्लस्टर्स व्युत्पन्न करण्यासाठी पदानुक्रमानुसार डेटा आयटम डीकंस्ट्रक्ट केले जातात किंवा एकत्र केले जातात.
प्रकरणे वापरा:
- विसंगती शोधणे:
क्लस्टरिंग वापरून डेटामधील कोणत्याही प्रकारचे आउटलायर शोधले जाऊ शकते. वाहतूक आणि लॉजिस्टिकमधील कंपन्या, उदाहरणार्थ, लॉजिस्टिक अडथळे शोधण्यासाठी किंवा खराब झालेले यांत्रिक भाग (अंदाजात्मक देखभाल) उघड करण्यासाठी विसंगती शोध वापरू शकतात.
वित्तीय संस्था फसव्या व्यवहारांचा शोध घेण्यासाठी तंत्रज्ञानाचा वापर करू शकतात आणि त्वरीत प्रतिसाद देऊ शकतात, संभाव्यत: भरपूर पैसे वाचवू शकतात. आमचा व्हिडिओ पाहून असामान्यता आणि फसवणूक शोधण्याबद्दल अधिक जाणून घ्या.
- ग्राहक आणि बाजारपेठेचे विभाजन:
क्लस्टरिंग अल्गोरिदम समान वैशिष्ट्ये असलेल्या लोकांना गटबद्ध करण्यात आणि अधिक प्रभावी विपणन आणि लक्ष्यित उपक्रमांसाठी ग्राहक व्यक्ती तयार करण्यात मदत करू शकतात.
के-म्हणजे
K- म्हणजे एक क्लस्टरिंग पद्धत आहे ज्याला विभाजन किंवा विभाजन म्हणून देखील ओळखले जाते. हे डेटा पॉइंट्सना K म्हणून ओळखल्या जाणार्या क्लस्टरच्या पूर्वनिर्धारित संख्येमध्ये विभाजित करते.
K-मीन्स पद्धतीमध्ये, K हे इनपुट आहे कारण तुम्ही संगणकाला तुमच्या डेटामध्ये किती क्लस्टर ओळखू इच्छिता हे सांगता. प्रत्येक डेटा आयटम नंतर जवळच्या क्लस्टर सेंटरला नियुक्त केला जातो, ज्याला सेंटरॉइड (चित्रातील काळे ठिपके) म्हणून ओळखले जाते.
नंतरचे डेटा स्टोरेज स्पेस म्हणून काम करतात. क्लस्टरिंग तंत्र अनेक वेळा क्लस्टर्स चांगल्या प्रकारे परिभाषित होईपर्यंत केले जाऊ शकते.
फजी के-म्हणजे
फजी के-मीन्स हे के-मीन्स तंत्राचा विस्तार आहे, जो ओव्हरलॅपिंग क्लस्टरिंग करण्यासाठी वापरला जातो. के-मीन्स तंत्राच्या विपरीत, अस्पष्ट के-मीन्स सूचित करतात की डेटा पॉइंट्स प्रत्येक क्लस्टरच्या वेगवेगळ्या अंशांच्या जवळ असू शकतात.
डेटा पॉइंट आणि क्लस्टरच्या सेंट्रॉइडमधील अंतर समीपतेची गणना करण्यासाठी वापरले जाते. परिणामी, असे प्रसंग येऊ शकतात जेव्हा विविध क्लस्टर ओव्हरलॅप होतात.
गॉसियन मिश्रण मॉडेल
गॉसियन मिक्स्चर मॉडेल्स (GMMs) ही संभाव्य क्लस्टरिंगमध्ये वापरली जाणारी पद्धत आहे. मध्य आणि भिन्नता अज्ञात असल्यामुळे, मॉडेल्स असे गृहीत धरतात की गॉसियन वितरणांची एक निश्चित संख्या आहे, प्रत्येक वेगळ्या क्लस्टरचे प्रतिनिधित्व करते.
विशिष्ट डेटा पॉइंट कोणत्या क्लस्टरशी संबंधित आहे हे निर्धारित करण्यासाठी, पद्धत अनिवार्यपणे वापरली जाते.
श्रेणीबद्ध क्लस्टरिंग
श्रेणीबद्ध क्लस्टरिंग धोरण वेगळ्या क्लस्टरला नियुक्त केलेल्या प्रत्येक डेटा पॉइंटपासून सुरू होऊ शकते. एकमेकांच्या सर्वात जवळ असलेले दोन क्लस्टर नंतर एकाच क्लस्टरमध्ये मिसळले जातात. फक्त एक क्लस्टर शीर्षस्थानी राहेपर्यंत पुनरावृत्ती विलीनीकरण चालू राहते.
ही पद्धत बॉटम-अप किंवा अॅग्लोमेरेटिव्ह म्हणून ओळखली जाते. जर तुम्ही एकाच क्लस्टरशी जोडलेल्या सर्व डेटा आयटमसह सुरुवात केली आणि नंतर प्रत्येक डेटा आयटम स्वतंत्र क्लस्टर म्हणून नियुक्त करेपर्यंत स्प्लिट्स आयोजित केल्यास, पद्धत टॉप-डाउन किंवा डिव्हिझिव्ह श्रेणीबद्ध क्लस्टरिंग म्हणून ओळखली जाते.
Apriori अल्गोरिदम
मार्केट बास्केट विश्लेषणाने apriori अल्गोरिदम लोकप्रिय केले, परिणामी संगीत प्लॅटफॉर्म आणि ऑनलाइन स्टोअरसाठी विविध शिफारसी इंजिने.
एका उत्पादनाच्या वापरावर आधारित दुसर्याच्या वापराच्या संभाव्यतेचा अंदाज लावण्यासाठी ते वारंवार आयटमसेट किंवा आयटमचे गट शोधण्यासाठी व्यवहार डेटासेटमध्ये वापरले जातात.
उदाहरणार्थ, जर मी Spotify वर OneRepublic चा रेडिओ “काउंटिंग स्टार्स” सह प्ले करायला सुरुवात केली, तर या चॅनेलवरील इतर गाण्यांपैकी एक नक्कीच इमॅजिन ड्रॅगन गाणे असेल, जसे की “बॅड लायर.”
हे माझ्या पूर्वीच्या ऐकण्याच्या सवयींवर तसेच इतरांच्या ऐकण्याच्या पद्धतींवर आधारित आहे. Apriori पद्धती हॅश ट्री वापरून आयटमसेट मोजतात, डेटासेट रुंदी-प्रथम मार्गक्रमण करतात.
परिमाण कमी
डायमेंशनॅलिटी रिडक्शन हे एक प्रकारचे पर्यवेक्षण न केलेले शिक्षण आहे जे डेटासेटमधील वैशिष्ट्यांची - किंवा परिमाणे - कमी करण्यासाठी धोरणांचा संग्रह वापरते. आम्हाला स्पष्ट करण्याची परवानगी द्या.
आपले तयार करताना शक्य तितका डेटा समाविष्ट करणे मोहक असू शकते मशीन लर्निंगसाठी डेटासेट. आम्हाला चुकीचे समजू नका: हे धोरण चांगले कार्य करते कारण अधिक डेटा सहसा अधिक अचूक निष्कर्ष काढतो.
असे गृहीत धरा की डेटा N-मितीय जागेत संग्रहित आहे, प्रत्येक वैशिष्ट्य भिन्न परिमाण दर्शवते. भरपूर डेटा असल्यास शेकडो आयाम असू शकतात.
एक्सेल स्प्रेडशीटचा विचार करा, ज्यामध्ये वैशिष्ट्ये दर्शविणारे स्तंभ आणि डेटा आयटमचे प्रतिनिधित्व करणाऱ्या पंक्ती आहेत. जेव्हा बरेच परिमाण असतात, तेव्हा ML अल्गोरिदम खराब कामगिरी करू शकतात आणि डेटा व्हिज्युअलायझेशन कठीण होऊ शकते.
त्यामुळे वैशिष्ठ्ये किंवा परिमाण मर्यादित करणे आणि केवळ समर्पक माहिती देणे हे तर्कसंगत बनते. मितीयता कमी करणे इतकेच आहे. हे डेटासेटच्या अखंडतेशी तडजोड न करता आटोपशीर प्रमाणात डेटा इनपुटसाठी परवानगी देते.
प्रधान घटक विश्लेषण (पीसीए)
मुख्य घटक विश्लेषण हा एक आयाम कमी करण्याचा दृष्टीकोन आहे. हे प्रचंड डेटासेटमधील वैशिष्ट्यांची संख्या कमी करण्यासाठी वापरले जाते, परिणामी अचूकतेचा त्याग न करता अधिक डेटा साधेपणा येतो.
डेटासेट कॉम्प्रेशन वैशिष्ट्य निष्कर्षण म्हणून ओळखल्या जाणार्या पद्धतीद्वारे पूर्ण केले जाते. हे सूचित करते की मूळ संचातील घटक नवीन, लहान मध्ये मिश्रित केले जातात. हे नवीन गुणधर्म प्राथमिक घटक म्हणून ओळखले जातात.
अर्थात, तुम्ही तुमच्या पर्यवेक्षित नसलेल्या शिक्षण अनुप्रयोगांमध्ये वापरू शकता असे अतिरिक्त अल्गोरिदम आहेत. वर सूचीबद्ध केलेले फक्त सर्वात प्रचलित आहेत, म्हणूनच त्यांची अधिक तपशीलवार चर्चा केली आहे.
पर्यवेक्षी नसलेल्या शिक्षणाचा वापर
- पर्यवेक्षित नसलेल्या शिक्षण पद्धतींचा उपयोग व्हिज्युअल समज कार्यांसाठी केला जातो जसे की ऑब्जेक्ट ओळखणे.
- पर्यवेक्षित नसलेले मशीन लर्निंग वैद्यकीय इमेजिंग सिस्टमला गंभीर पैलू देते, जसे की इमेज आयडेंटिफिकेशन, वर्गीकरण आणि सेगमेंटेशन, ज्याचा उपयोग रेडिओलॉजी आणि पॅथॉलॉजीमध्ये रुग्णांचे जलद आणि विश्वासार्हपणे निदान करण्यासाठी केला जातो.
- पर्यवेक्षण न केलेले शिक्षण डेटा ट्रेंड ओळखण्यात मदत करू शकते ज्याचा वापर ग्राहकांच्या वर्तनावरील मागील डेटाचा वापर करून अधिक प्रभावी क्रॉस-सेलिंग धोरण तयार करण्यासाठी केला जाऊ शकतो. चेकआउट प्रक्रियेदरम्यान, हे ऑनलाइन व्यवसायांद्वारे ग्राहकांना योग्य अॅड-ऑन सुचवण्यासाठी वापरले जाते.
- पर्यवेक्षित नसलेल्या शिकण्याच्या पद्धती आउटलायर्स शोधण्यासाठी प्रचंड प्रमाणात डेटा शोधू शकतात. या विकृतींमुळे उपकरणे खराब होणे, मानवी चूक किंवा सुरक्षेच्या उल्लंघनाची सूचना येऊ शकते.
पर्यवेक्षित नसलेल्या शिक्षणातील समस्या
पर्यवेक्षित नसलेले शिक्षण विविध मार्गांनी आकर्षक आहे, त्यातील महत्त्वाची अंतर्दृष्टी शोधण्याच्या संभाव्यतेपासून महाग डेटा लेबलिंग टाळण्यासाठी डेटा ऑपरेशन्स तथापि, प्रशिक्षित करण्यासाठी ही रणनीती वापरण्यात अनेक तोटे आहेत मशीन शिक्षण मॉडेल ज्याची तुम्हाला जाणीव असावी. येथे काही उदाहरणे आहेत.
- इनपुट डेटामध्ये प्रतिसाद की म्हणून काम करणारी लेबले नसल्यामुळे, पर्यवेक्षित नसलेल्या शिक्षण मॉडेलचे परिणाम कमी अचूक असू शकतात.
- पर्यवेक्षित नसलेले शिक्षण वारंवार मोठ्या डेटासेटसह कार्य करते, जे संगणकीय जटिलता वाढवू शकते.
- या दृष्टिकोनासाठी चौकशीच्या विषयातील अंतर्गत किंवा बाह्य तज्ञ, मानवांकडून आउटपुट पुष्टीकरण आवश्यक आहे.
- प्रशिक्षणाच्या संपूर्ण टप्प्यात अल्गोरिदमने प्रत्येक संभाव्य परिस्थितीचे परीक्षण आणि गणना करणे आवश्यक आहे, ज्यासाठी काही वेळ लागतो.
निष्कर्ष
प्रभावी डेटा वापर ही विशिष्ट बाजारपेठेत स्पर्धात्मक धार स्थापित करण्याची गुरुकिल्ली आहे.
तुमच्या लक्ष्य प्रेक्षकांच्या पसंतींचे परीक्षण करण्यासाठी किंवा विशिष्ट संसर्ग एखाद्या विशिष्ट उपचारांना कसा प्रतिसाद देतो हे निर्धारित करण्यासाठी तुम्ही पर्यवेक्षित नसलेले मशीन लर्निंग अल्गोरिदम वापरून डेटाचे विभाजन करू शकता.
अनेक व्यावहारिक अनुप्रयोग आहेत, आणि डेटा वैज्ञानिक, अभियंते आणि वास्तुविशारद तुमची उद्दिष्टे निश्चित करण्यात आणि तुमच्या कंपनीसाठी अद्वितीय ML उपाय विकसित करण्यात तुम्हाला मदत करू शकतात.
प्रत्युत्तर द्या