कुनै पनि प्रकारको कर्पोरेट गतिविधिको लागि प्राथमिक मापदण्ड मध्ये एक सूचनाको प्रभावकारी उपयोग हो। केहि बिन्दुमा, सिर्जना गरिएको डाटाको मात्रा आधारभूत प्रशोधनको क्षमता भन्दा बढी हुन्छ।
त्यही ठाउँमा मेसिन लर्निङ एल्गोरिदमहरू खेल्न आउँछन्। यद्यपि, यी मध्ये कुनै पनि हुन सक्नु अघि, जानकारी अध्ययन र व्याख्या गरिनु पर्छ। छोटकरीमा भन्नुपर्दा, यो असुरक्षित मेसिन लर्निङको लागि प्रयोग गरिन्छ।
यस लेखमा, हामी यसको एल्गोरिदमहरू, प्रयोगका केसहरू, र थप कुराहरू सहितको असुरक्षित मेसिन लर्निङको गहन अध्ययन गर्नेछौं।
असुरक्षित मेसिन लर्निङ भनेको के हो?
सुपरिवेक्षण नगरिएको मेसिन लर्निङ एल्गोरिदमहरूले डेटासेटमा ढाँचाहरू पहिचान गर्छन् जसमा ज्ञात वा लेबल गरिएको परिणाम छैन। पर्यवेक्षण गरियो मेशिन शिक्षा एल्गोरिदम लेबल गरिएको आउटपुट छ।
यो भिन्नता थाहा पाउँदा तपाईंलाई आउटपुट डेटाको मूल्य/उत्तर के हुन सक्छ भन्ने थाहा नभएको कारणले गर्दा किन असुरक्षित मेसिन लर्निङ विधिहरू रिग्रेसन वा वर्गीकरण समस्याहरू समाधान गर्न प्रयोग गर्न सकिँदैन भनेर बुझ्न मद्दत गर्छ। यदि तपाईलाई मूल्य/उत्तर थाहा छैन भने तपाईले सामान्यतया एल्गोरिदमलाई तालिम दिन सक्नुहुन्न।
यसबाहेक, असुरक्षित शिक्षालाई डाटाको आधारभूत संरचना पहिचान गर्न प्रयोग गर्न सकिन्छ। यी एल्गोरिदमहरूले मानव अन्तरक्रियाको आवश्यकता बिना लुकेका ढाँचाहरू वा डेटा समूहहरू पत्ता लगाउँछन्।
जानकारीमा समानता र विरोधाभासहरू पत्ता लगाउने यसको क्षमताले यसलाई अन्वेषण डेटा विश्लेषण, क्रस-सेलिंग प्रविधि, उपभोक्ता विभाजन, र चित्र पहिचानको लागि उत्कृष्ट विकल्प बनाउँछ।
निम्न परिदृश्यलाई विचार गर्नुहोस्: तपाईं किराना पसलमा हुनुहुन्छ र तपाईंले पहिले कहिल्यै नदेखेको अज्ञात फल देख्नुहुन्छ। तपाईं सजिलैसँग अज्ञात फललाई यसको रूप, आकार, वा रंगको तपाईंको अवलोकनको आधारमा वरपरका अन्य फलहरू भन्दा फरक छुट्याउन सक्नुहुन्छ।
असुरक्षित मेसिन लर्निङ एल्गोरिदम
क्लस्टर गर्दै
क्लस्टरिङ निस्सन्देह सबैभन्दा व्यापक रूपमा प्रयोग गरिएको असुरक्षित सिकाउने दृष्टिकोण हो। यस दृष्टिकोणले सम्बन्धित डेटा वस्तुहरूलाई अनियमित रूपमा उत्पन्न क्लस्टरहरूमा राख्छ।
आफैंमा, एक ML मोडेलले कुनै पनि ढाँचाहरू, समानताहरू, र/वा भिन्नताहरू एक अवर्गीकृत डेटा संरचनामा पत्ता लगाउँदछ। एउटा मोडेलले डेटामा कुनै पनि प्राकृतिक समूह वा वर्गहरू पत्ता लगाउन सक्षम हुनेछ।
प्रकार
त्यहाँ क्लस्टरिङका धेरै रूपहरू छन् जुन प्रयोग गर्न सकिन्छ। पहिले सबैभन्दा महत्त्वपूर्णहरू हेरौं।
- विशेष क्लस्टरिङ, कहिलेकाहीँ "हार्ड" क्लस्टरिङको रूपमा चिनिन्छ, एक प्रकारको समूह हो जसमा डाटाको एक टुक्रा मात्र एक क्लस्टरसँग सम्बन्धित छ।
- ओभरल्यापिङ क्लस्टरिङ, प्रायः "सफ्ट" क्लस्टरिङको रूपमा चिनिन्छ, डेटा वस्तुहरूलाई फरक-फरक डिग्रीमा एक भन्दा बढी क्लस्टरसँग सम्बन्धित हुन अनुमति दिन्छ। यसबाहेक, सम्भावित क्लस्टरिङलाई "नरम" क्लस्टरिङ वा घनत्व अनुमान समस्याहरू समाधान गर्न प्रयोग गर्न सकिन्छ, साथै निश्चित क्लस्टरहरूसँग सम्बन्धित डेटा बिन्दुहरूको सम्भावना वा सम्भावनाको मूल्याङ्कन गर्न।
- समूहबद्ध डेटा वस्तुहरूको पदानुक्रम सिर्जना गर्नु पदानुक्रमिक क्लस्टरिङको लक्ष्य हो, नामले संकेत गरे जस्तै। डेटा वस्तुहरू क्लस्टरहरू उत्पन्न गर्न पदानुक्रमको आधारमा डिकन्स्ट्रक्ट वा संयुक्त हुन्छन्।
केसहरू प्रयोग गर्नुहोस्:
- विसंगति पत्ता लगाउने:
क्लस्टरिङ प्रयोग गरेर डाटामा कुनै पनि प्रकारको आउटलियर पत्ता लगाउन सकिन्छ। यातायात र रसद मा कम्पनीहरु, उदाहरण को लागी, लजिस्टिक बाधाहरु पत्ता लगाउन वा क्षतिग्रस्त मेकानिकल भागहरु (पूर्वानुमान मर्मत) को खुलासा गर्न विसंगति पत्ता लगाउन को लागी उपयोग गर्न सक्छन्।
वित्तीय संस्थाहरूले धोखाधडी लेनदेनहरू पत्ता लगाउन र छिट्टै प्रतिक्रिया दिन, सम्भावित रूपमा धेरै पैसा बचत गर्न प्रविधि प्रयोग गर्न सक्छन्। हाम्रो भिडियो हेरेर असामान्यता र ठगी पत्ता लगाउने बारे थप जान्नुहोस्।
- ग्राहक र बजार को विभाजन:
क्लस्टरिङ एल्गोरिदमहरूले समान विशेषताहरू भएका व्यक्तिहरूलाई समूहबद्ध गर्न र थप प्रभावकारी मार्केटिङ र लक्षित पहलहरूको लागि उपभोक्ता व्यक्तित्वहरू सिर्जना गर्न मद्दत गर्न सक्छ।
K- मतलब
K-means एक क्लस्टरिङ विधि हो जसलाई विभाजन वा विभाजनको रूपमा पनि चिनिन्छ। यसले डाटा पोइन्टहरूलाई K भनेर चिनिने क्लस्टरहरूको पूर्वनिर्धारित संख्यामा विभाजन गर्दछ।
K- मतलब विधिमा, K भनेको इनपुट हो किनभने तपाईंले कम्प्युटरलाई आफ्नो डाटामा कतिवटा क्लस्टरहरू पहिचान गर्न चाहनुहुन्छ भनेर बताउनुहुन्छ। प्रत्येक डाटा वस्तुलाई पछि नजिकको क्लस्टर केन्द्रमा तोकिएको छ, जसलाई सेन्ट्रोइड (तस्विरमा कालो थोप्लाहरू) भनिन्छ।
पछिल्लो डेटा भण्डारण ठाउँको रूपमा सेवा गर्दछ। क्लस्टरहरू राम्रोसँग परिभाषित नभएसम्म क्लस्टरिङ प्रविधि धेरै पटक गर्न सकिन्छ।
फजी K- मतलब
फजी K-means K-means प्रविधिको विस्तार हो, जुन ओभरल्यापिङ क्लस्टरिङ गर्न प्रयोग गरिन्छ। K-means प्रविधिको विपरीत, फजी K- अर्थहरूले डेटा पोइन्टहरू प्रत्येकसँग फरक-फरक डिग्रीको साथ धेरै क्लस्टरहरूसँग सम्बन्धित हुन सक्छन् भन्ने संकेत गर्छ।
डेटा बिन्दुहरू र क्लस्टरको सेन्ट्रोइड बीचको दूरी निकटता गणना गर्न प्रयोग गरिन्छ। नतिजाको रूपमा, त्यहाँ अवसरहरू हुन सक्छन् जब विभिन्न क्लस्टरहरू ओभरल्याप हुन्छन्।
गौसियन मिश्रण मोडेलहरू
Gaussian Mixture Models (GMMs) सम्भावित क्लस्टरिङमा प्रयोग हुने विधि हो। किनभने माध्य र भिन्नता अज्ञात छन्, मोडेलहरूले मान्छन् कि त्यहाँ निश्चित संख्यामा गौसियन वितरणहरू छन्, प्रत्येकले फरक क्लस्टरलाई प्रतिनिधित्व गर्दछ।
निर्दिष्ट डेटा बिन्दु कुन क्लस्टरसँग सम्बन्धित छ भनेर निर्धारण गर्न, विधि अनिवार्य रूपमा प्रयोग गरिन्छ।
श्रेणीबद्ध क्लस्टरिङ
श्रेणीबद्ध क्लस्टरिङ रणनीति फरक क्लस्टरमा तोकिएको प्रत्येक डेटा बिन्दुसँग सुरु हुन सक्छ। एकअर्काको सबैभन्दा नजिक भएका दुई क्लस्टरहरू एकल क्लस्टरमा मिसिन्छन्। पुनरावृत्ति मर्ज जारी रहन्छ जब सम्म केवल एक क्लस्टर शीर्ष मा रहन्छ।
यो विधिलाई तल-माथि वा एग्लोमेरेटिभ भनिन्छ। यदि तपाइँ एउटै क्लस्टरमा बाँधिएका सबै डेटा वस्तुहरूसँग सुरु गर्नुहुन्छ र त्यसपछि प्रत्येक डेटा वस्तुलाई छुट्टै क्लस्टरको रूपमा तोकिएसम्म विभाजनहरू सञ्चालन गर्नुहुन्छ भने, विधिलाई शीर्ष-डाउन वा विभाजन श्रेणीबद्ध क्लस्टरिङ भनिन्छ।
Apriori एल्गोरिथ्म
बजार बास्केट विश्लेषणले एप्रियोरी एल्गोरिदमलाई लोकप्रिय बनायो, परिणामस्वरूप संगीत प्लेटफर्महरू र अनलाइन स्टोरहरूको लागि विभिन्न सिफारिस इन्जिनहरू।
तिनीहरू लेनदेन डेटासेटहरूमा बारम्बार वस्तुहरू, वा वस्तुहरूको समूहहरू फेला पार्न प्रयोग गरिन्छ, अर्कोको उपभोगको आधारमा एउटा उत्पादनको उपभोग गर्ने सम्भावनाको भविष्यवाणी गर्न।
उदाहरणका लागि, यदि मैले Spotify मा OneRepublic को रेडियो "Counting Stars" बजाउन थालें भने, यस च्यानलमा रहेका अन्य गीतहरू मध्ये एउटा पक्कै पनि "Bad Liar" जस्ता Imagine Dragon गीत हुनेछ।
यो मेरो अघिल्लो सुन्ने बानी र अरूको सुन्ने बानीमा आधारित छ। Apriori विधिहरूले ह्यास ट्री प्रयोग गरेर वस्तुहरू गणना गर्छ, डेटासेट चौडाइ-पहिलो पार गर्दै।
आयाम घटाउने
आयाम घटाउनु भनेको डेटासेटमा सुविधाहरू - वा आयामहरू - को संख्या कम गर्न रणनीतिहरूको सङ्कलन प्रयोग गर्ने एक प्रकारको निगरानी नगरिएको सिकाइ हो। हामीलाई स्पष्ट गर्न अनुमति दिनुहोस्।
तपाईंको सिर्जना गर्दा सकेसम्म धेरै डाटा समावेश गर्न यो प्रलोभन हुन सक्छ मेसिन लर्निङका लागि डाटासेट। हामीलाई गलत नबनाउनुहोस्: यो रणनीतिले राम्रोसँग काम गर्दछ किनकि अधिक डेटाले सामान्यतया अधिक सटीक निष्कर्षहरू दिन्छ।
मान्नुहोस् कि डाटा N-dimensional स्पेसमा भण्डार गरिएको छ, प्रत्येक विशेषताले फरक आयाम प्रतिनिधित्व गर्दछ। यदि त्यहाँ धेरै डाटा छ भने सयौं आयाम हुन सक्छ।
एक्सेल स्प्रेडसिटहरू विचार गर्नुहोस्, विशेषताहरू प्रतिनिधित्व गर्ने स्तम्भहरू र डेटा वस्तुहरू प्रतिनिधित्व गर्ने पङ्क्तिहरू। जब त्यहाँ धेरै आयामहरू छन्, ML एल्गोरिदमहरूले खराब प्रदर्शन गर्न सक्छ र डाटा दृश्यावलोकन गाह्रो हुन सक्छ।
त्यसोभए यसले विशेषताहरू वा आयामहरूलाई सीमित गर्न, र केवल प्रासंगिक जानकारी प्रदान गर्न तार्किक बनाउँछ। आयामी कमी भनेको मात्र हो। यसले डेटासेटको अखण्डतामा सम्झौता नगरी डेटा इनपुटहरूको व्यवस्थित मात्राको लागि अनुमति दिन्छ।
प्रमुख घटक विश्लेषण (पीसीए)
प्रिन्सिपल कम्पोनेन्ट विश्लेषण एक आयाम घटाउने दृष्टिकोण हो। यो ठूला डाटासेटहरूमा सुविधाहरूको संख्या कम गर्न प्रयोग गरिन्छ, जसको परिणामस्वरूप सटीकताको त्याग नगरी अधिक डेटा सरलता हुन्छ।
डाटासेट कम्प्रेसन सुविधा निकासी भनेर चिनिने विधि द्वारा पूरा हुन्छ। यसले संकेत गर्छ कि मूल सेटका तत्वहरू नयाँ, सानोमा मिश्रित छन्। यी नयाँ विशेषताहरूलाई प्राथमिक घटक भनिन्छ।
निस्सन्देह, त्यहाँ अतिरिक्त एल्गोरिदमहरू छन् जुन तपाईंले आफ्नो असुरक्षित शिक्षा अनुप्रयोगहरूमा प्रयोग गर्न सक्नुहुन्छ। माथि सूचीबद्ध गरिएकाहरू मात्र सबैभन्दा प्रचलित छन्, त्यसैले तिनीहरू थप विस्तारमा छलफल गरिएका छन्।
असुरक्षित शिक्षा को आवेदन
- असुरक्षित सिकाइ विधिहरू वस्तु पहिचान जस्ता दृश्य धारणा कार्यहरूको लागि प्रयोग गरिन्छ।
- असुरक्षित मेसिन लर्निङले मेडिकल इमेजिङ प्रणालीहरूलाई महत्त्वपूर्ण पक्षहरू दिन्छ, जस्तै छवि पहिचान, वर्गीकरण, र विभाजन, जुन रेडियोलोजी र रोगविज्ञानमा बिरामीहरूलाई छिटो र भरपर्दो रूपमा निदान गर्न प्रयोग गरिन्छ।
- असुरक्षित सिकाइले डेटा प्रवृतिहरू पहिचान गर्न मद्दत गर्न सक्छ जुन उपभोक्ता व्यवहारमा विगतको डेटा प्रयोग गरेर थप प्रभावकारी क्रस-सेलिंग रणनीतिहरू सिर्जना गर्न प्रयोग गर्न सकिन्छ। चेकआउट प्रक्रियाको बखत, यो अनलाइन व्यवसायहरूले ग्राहकहरूलाई सही एड-अनहरू सुझाव दिन प्रयोग गरिन्छ।
- पर्यवेक्षण नगरिएको सिकाइ विधिहरूले बाहिरी व्यक्तिहरू फेला पार्नको लागि डेटाको ठूलो मात्रामा छान्न सक्छ। यी असामान्यताहरूले खराबी उपकरण, मानव गल्ती, वा सुरक्षा उल्लङ्घनको सूचना बढाउन सक्छ।
असुरक्षित सिकाइसँग समस्याहरू
पर्यवेक्षण नगरिएको सिकाइ विभिन्न तरिकामा आकर्षक छ, महत्त्वपूर्ण अन्तर्दृष्टिहरू फेला पार्न सक्ने सम्भाव्यताबाट महँगो डाटा लेबलिङबाट बच्न डाटा सञ्चालनहरू। यद्यपि, प्रशिक्षणको लागि यो रणनीति प्रयोग गर्न धेरै कमजोरीहरू छन् मेशिन शिक्षा मोडेलहरु कि तपाईलाई सचेत हुनुपर्छ। यहाँ केही उदाहरणहरू छन्।
- इनपुट डेटामा प्रतिक्रिया कुञ्जीहरूको रूपमा काम गर्ने लेबलहरूको अभाव हुँदा, असुरक्षित सिकाइ मोडेलहरूको नतिजाहरू कम सटीक हुन सक्छन्।
- असुरक्षित शिक्षाले प्रायः ठूलो डेटासेटहरूसँग काम गर्दछ, जसले कम्प्युटेसनल जटिलता बढाउन सक्छ।
- दृष्टिकोणले मानिसहरु, या त आन्तरिक वा बाह्य विशेषज्ञहरु द्वारा सोधपुछको विषय मा आउटपुट पुष्टिकरण आवश्यक छ।
- एल्गोरिदमहरूले प्रशिक्षण चरणमा प्रत्येक सम्भावित परिदृश्यको जाँच र गणना गर्नुपर्छ, जसमा केही समय लाग्छ।
निष्कर्ष
प्रभावकारी डाटा उपयोग एक विशेष बजार मा एक प्रतिस्पर्धी किनारा स्थापित गर्न को लागी कुञ्जी हो।
तपाइँ तपाइँको लक्षित दर्शकहरु को प्राथमिकताहरु को जाँच गर्न को लागी वा एक निश्चित संक्रमण को एक विशेष उपचार को लागी प्रतिक्रिया कसरी निर्धारण गर्न को लागी unsupervised मेशिन लर्निंग एल्गोरिदम को उपयोग गरेर डेटा को विभाजन गर्न सक्नुहुन्छ।
त्यहाँ धेरै व्यावहारिक अनुप्रयोगहरू छन्, र डाटा वैज्ञानिकहरू, इन्जिनियरहरू, र आर्किटेक्टहरूले तपाईंलाई आफ्नो लक्ष्यहरू परिभाषित गर्न र तपाईंको कम्पनीको लागि अद्वितीय ML समाधानहरू विकास गर्न मद्दत गर्न सक्छन्।
जवाफ छाड्नुस्