शीर्ष ४०+ मेसिन लर्निङ अन्तर्वार्ता प्रश्नहरू (२०२२)

विषयसूची[लुकाउनुहोस्][देखाउनु]

1. मेसिन लर्निङ, आर्टिफिसियल इन्टेलिजेन्स र गहिरो सिकाइ बीचको भिन्नताहरू व्याख्या गर्नुहोस्।
2. कृपया विभिन्न प्रकारका मेसिन लर्निङको वर्णन गर्नुहोस्।
3. पूर्वाग्रह बनाम भिन्नता ट्रेड-अफ के हो?
४. मेसिन लर्निङ एल्गोरिदमहरू समयसँगै उल्लेखनीय रूपमा विकसित भएका छन्। दिइएको डेटा सेट प्रयोग गर्नको लागि सही एल्गोरिदम कसरी छनौट गर्ने?
5. सहप्रसरण र सहसम्बन्ध कसरी फरक छ?
६. मेसिन लर्निङमा, क्लस्टरिङको अर्थ के हो?
७. तपाईको मनपर्ने मेसिन लर्निङ एल्गोरिदम के हो?
8. मेसिन लर्निङमा रेखीय प्रतिगमन: यो के हो?
9. KNN र k- मतलब क्लस्टरिङ बीचको भिन्नताहरू वर्णन गर्नुहोस्।
10. "चयन पूर्वाग्रह" ले तपाईंको लागि के अर्थ राख्छ?
11. बेयसको प्रमेय वास्तवमा के हो?
12. मेसिन लर्निङ मोडेलमा, 'ट्रेनिङ सेट' र 'टेस्ट सेट' के हुन्?
13. मेसिन लर्निङमा हाइपोथेसिस के हो?
14. मेसिन लर्निङ ओभरफिटिङको अर्थ के हो र यसलाई कसरी रोक्न सकिन्छ?
15. वास्तवमा Naive Bayes वर्गीकरणकर्ताहरू के हुन्?
16. लागत प्रकार्य र घाटा कार्यहरूको अर्थ के हो?
17. उत्पादनशील मोडेललाई भेदभावपूर्ण मोडेलबाट के फरक पार्छ?
18. प्रकार I र Type II त्रुटिहरू बीचको भिन्नताहरू वर्णन गर्नुहोस्।
19. मेसिन लर्निङमा, एन्सेम्बल लर्निङ प्रविधि के हो?
20. प्यारामेट्रिक मोडेलहरू वास्तवमा के हुन्? एउटा उदाहरण दिनुहोस्।
21. सहयोगी फिल्टरिङ वर्णन गर्नुहोस्। साथै सामग्री-आधारित फिल्टरिङ?
22. टाइम शृङ्खलाबाट तपाईले वास्तवमा के भन्नुहुन्छ?
23. ग्रेडियन्ट बूस्टिङ र अनियमित वन एल्गोरिदमहरू बीचको भिन्नताहरू वर्णन गर्नुहोस्।
24. तपाईलाई कन्फ्युजन म्याट्रिक्स किन चाहिन्छ? यो के हो?
25. एक सिद्धान्त घटक विश्लेषण वास्तवमा के हो?
26. PCA (प्रिन्सिपल कम्पोनेन्ट विश्लेषण) को लागि कम्पोनेन्ट रोटेशन किन यति महत्त्वपूर्ण छ?
27. नियमितीकरण र सामान्यीकरण कसरी एकअर्काबाट भिन्न हुन्छन्?
28. कसरी सामान्यीकरण र मानकीकरण एकअर्काबाट भिन्न छन्?
29. वास्तवमा "विभिन्न मुद्रास्फीति कारक" को अर्थ के हो?
30. प्रशिक्षण सेटको साइजको आधारमा, तपाइँ कसरी वर्गीकरणकर्ता छान्नुहुन्छ?
31. मेसिन लर्निङमा कुन एल्गोरिदमलाई "आलसी शिक्षार्थी" भनिन्छ र किन?
32. ROC कर्भ र AUC के हो?
33. हाइपरपेरामिटरहरू के हुन्? के तिनीहरूलाई मोडेल प्यारामिटरहरूबाट अद्वितीय बनाउँछ?
34. F1 स्कोर, रिकॉल र सटीकको अर्थ के हो?
35. वास्तवमा क्रस-प्रमाणीकरण भनेको के हो?
36. मानौं कि तपाईंले पत्ता लगाउनुभयो कि तपाईंको मोडेलमा महत्त्वपूर्ण भिन्नता छ। कुन एल्गोरिथ्म, तपाईंको विचारमा, यो अवस्था ह्यान्डल गर्न सबैभन्दा उपयुक्त छ?
37. रिज रिग्रेसनलाई लासो प्रतिगमनबाट के फरक पार्छ?
38. कुन बढी महत्त्वपूर्ण छ: मोडेल प्रदर्शन वा मोडेल सटीकता? कुन र किन तपाईं यसलाई समर्थन गर्नुहुन्छ?
39. तपाईले असमानता भएको डेटासेट कसरी व्यवस्थापन गर्नुहुन्छ?
40. तपाईं कसरी बूस्टिङ र ब्यागिङ बीचको भिन्नता छुट्याउन सक्नुहुन्छ?
41. प्रेरक र डिडक्टिव सिकाइ बीचको भिन्नताहरू व्याख्या गर्नुहोस्।
निष्कर्ष

व्यवसायहरूले व्यक्तिहरूलाई सूचना र सेवाहरूको पहुँच बढाउन कृत्रिम बुद्धिमत्ता (AI) र मेसिन लर्निङ जस्ता अत्याधुनिक प्रविधिहरू प्रयोग गरिरहेका छन्।

यी प्रविधिहरू बैंकिङ, वित्त, खुद्रा, उत्पादन, र स्वास्थ्य सेवा लगायतका विभिन्न उद्योगहरूले अपनाइरहेका छन्।

AI को उपयोग गर्ने सबैभन्दा खोजिने संगठनात्मक भूमिकाहरू मध्ये एक डेटा वैज्ञानिकहरू, कृत्रिम बुद्धिमत्ता इन्जिनियरहरू, मेसिन लर्निङ इन्जिनियरहरू, र डेटा विश्लेषकहरूका लागि हो।

यो पोष्टले तपाईंलाई विभिन्न माध्यमबाट नेतृत्व गर्नेछ मेशिन सिकाइ अन्तर्वार्ता प्रश्नहरू, आधारभूत देखि जटिल सम्म, तपाईंलाई आफ्नो आदर्श जागिर खोज्दा सोधिने कुनै पनि प्रश्नहरूको लागि तयार हुन मद्दत गर्न।

1. मेसिन लर्निङ, आर्टिफिसियल इन्टेलिजेन्स र गहिरो सिकाइ बीचको भिन्नताहरू व्याख्या गर्नुहोस्।

आर्टिफिसियल इन्टेलिजेन्सले विभिन्न प्रकारका मेसिन लर्निङ र गहिरो सिकाइ दृष्टिकोणहरू प्रयोग गर्दछ जसले कम्प्युटर प्रणालीहरूलाई तर्क र नियमहरूको साथ मानव-जस्तै बुद्धिमत्ता प्रयोग गरेर कार्यहरू पूरा गर्न अनुमति दिन्छ।

मेशिन लर्निङले मेसिनहरूलाई तिनीहरूको अघिल्लो कार्यसम्पादनबाट सिक्न र मानव पर्यवेक्षण बिना नै केही कार्यहरू आफैं गर्नमा दक्ष बन्न सक्षम बनाउन विभिन्न तथ्याङ्कहरू र गहिरो अध्ययन दृष्टिकोणहरू प्रयोग गर्दछ।

डीप लर्निङ एल्गोरिदमहरूको संग्रह हो जसले सफ्टवेयरलाई आफैबाट सिक्न र आवाज र चित्र पहिचान जस्ता विभिन्न व्यावसायिक कार्यहरू पूरा गर्न अनुमति दिन्छ।

प्रणालीहरू जसले तिनीहरूको बहुस्तरीय खुलासा गर्दछ तंत्रिका सञ्जालहरू सिकाइको लागि ठूलो मात्रामा डाटा गहिरो शिक्षा गर्न सक्षम छन्।

2. कृपया विभिन्न प्रकारका मेसिन लर्निङको वर्णन गर्नुहोस्।

मेसिन लर्निङ तीन फरक प्रकारमा व्यापक रूपमा अवस्थित छ:

पर्यवेक्षित शिक्षा: एक मोडेलले पर्यवेक्षित मेसिन लर्निङमा लेबल वा ऐतिहासिक डेटा प्रयोग गरेर भविष्यवाणी वा निर्णयहरू सिर्जना गर्दछ। आफ्नो अर्थ बढाउनको लागि ट्याग वा लेबल गरिएका डाटा सेटहरूलाई लेबल गरिएको डाटा भनिन्छ।
असुरक्षित सिकाइ: हामीसँग असुरक्षित शिक्षाको लागि लेबल गरिएको डाटा छैन। आगमन डेटामा, मोडेलले ढाँचाहरू, विचित्रताहरू, र सहसंबंधहरू फेला पार्न सक्छ।
सुदृढीकरण शिक्षा: मोडेल गर्न सक्छ सुदृढीकरण प्रयोग गरेर सिक्नुहोस् सिकाइ र यसको पूर्व व्यवहारको लागि प्राप्त पुरस्कार।

3. पूर्वाग्रह बनाम भिन्नता ट्रेड-अफ के हो?

ओभरफिटिंग पूर्वाग्रहको परिणाम हो, जुन डिग्री हो जुन मोडेलले डेटा फिट गर्दछ। पूर्वाग्रह तपाईंको गलत वा धेरै साधारण धारणाहरूको कारणले हुन्छ मेशिन लर्निंग एल्गोरिथ्म.

भिन्नताले तपाइँको ML एल्गोरिथ्ममा जटिलताको कारणले गर्दा हुने गल्तीहरूलाई बुझाउँछ, जसले प्रशिक्षण डेटा र ओभरफिटिंगमा भिन्नताको ठूलो डिग्रीको लागि संवेदनशीलता उत्पन्न गर्दछ।

भिन्नता भनेको इनपुटमा निर्भर मोडेल कति फरक हुन्छ।

अन्य शब्दहरूमा, आधारभूत मोडेलहरू अत्यन्त पूर्वाग्रही तर स्थिर छन् (कम भिन्नता)। ओभरफिटिंग जटिल मोडेलहरूमा एक समस्या हो, यद्यपि तिनीहरूले मोडेलको वास्तविकता (कम पूर्वाग्रह) क्याप्चर गर्छन्।

उच्च भिन्नता र उच्च पूर्वाग्रह दुवैलाई रोक्नको लागि, उत्तम त्रुटि न्यूनीकरणको लागि पूर्वाग्रह र भिन्नता बीचको ट्रेड-अफ आवश्यक छ।

४. मेसिन लर्निङ एल्गोरिदमहरू समयसँगै उल्लेखनीय रूपमा विकसित भएका छन्। दिइएको डेटा सेट प्रयोग गर्नको लागि सही एल्गोरिदम कसरी छनौट गर्ने?

प्रयोग गरिनु पर्ने मेसिन लर्निङ प्रविधि कुनै खास डाटासेटमा रहेको डाटामा मात्र निर्भर हुन्छ।

जब डाटा रेखीय हुन्छ, रैखिक प्रतिगमन प्रयोग गरिन्छ। ब्यागिङ विधिले राम्रो प्रदर्शन गर्छ यदि डेटाले गैर-रेखीयता संकेत गर्दछ। यदि डेटालाई व्यावसायिक उद्देश्यका लागि मूल्याङ्कन वा व्याख्या गर्नु परेको छ भने हामी निर्णय रूख वा SVM प्रयोग गर्न सक्छौं।

यदि डाटासेटमा फोटो, भिडियो र अडियो समावेश छ भने न्यूरल नेटवर्कहरू सही जवाफ प्राप्त गर्न उपयोगी हुन सक्छ।

एल्गोरिथ्मको छनोट कुनै खास परिस्थिति वा डेटा सङ्कलनका लागि एकल उपायमा मात्र गर्न सकिँदैन।

उत्तम फिट विधि विकास गर्ने उद्देश्यका लागि, हामीले पहिले अन्वेषण डेटा विश्लेषण (EDA) प्रयोग गरेर डेटाको जाँच गर्नुपर्छ र डेटासेटको उपयोग गर्ने लक्ष्य बुझ्नुपर्छ।

5. सहप्रसरण र सहसम्बन्ध कसरी फरक छ?

Covariance ले मूल्याङ्कन गर्छ कि कसरी दुई चरहरू एकअर्कासँग जोडिएका छन् र कसरी एउटा अर्कोमा परिवर्तनको प्रतिक्रियामा परिवर्तन हुन सक्छ।

यदि नतिजा सकारात्मक छ भने, यसले संकेत गर्दछ कि त्यहाँ चरहरू बीचको सीधा लिङ्क छ र त्यो आधार चरमा वृद्धि वा घटाइको साथ बढ्छ वा घट्छ, अन्य सबै अवस्थाहरू स्थिर रहन्छ भनी मान्दै।

सहसंबंधले दुई अनियमित चरहरू बीचको लिङ्क मापन गर्दछ र केवल तीन फरक मानहरू छन्: 1, 0, र -1।

६. मेसिन लर्निङमा, क्लस्टरिङको अर्थ के हो?

डेटा बिन्दुहरू एकसाथ समूहबद्ध गर्ने अनपेक्षित सिकाइ विधिहरूलाई क्लस्टरिङ भनिन्छ। डाटा पोइन्टहरूको संग्रहको साथ, क्लस्टरिङ प्रविधि लागू गर्न सकिन्छ।

तपाईंले यो रणनीति प्रयोग गरेर सबै डेटा बिन्दुहरूलाई तिनीहरूको कार्य अनुसार समूहबद्ध गर्न सक्नुहुन्छ।

एउटै श्रेणीमा पर्ने डाटा पोइन्टका विशेषताहरू र गुणहरू समान छन्, जबकि डाटा पोइन्टहरू जुन फरक समूहमा पर्छन् फरक छन्।

यो दृष्टिकोण सांख्यिकीय डेटा विश्लेषण गर्न प्रयोग गर्न सकिन्छ।

७. तपाईको मनपर्ने मेसिन लर्निङ एल्गोरिदम के हो?

तपाईंसँग यस प्रश्नमा आफ्ना प्राथमिकताहरू र अद्वितीय प्रतिभाहरू प्रदर्शन गर्ने मौका छ, साथै धेरै मेसिन लर्निङ प्रविधिहरूको तपाईंको व्यापक ज्ञान।

यहाँ केहि विशिष्ट मेसिन लर्निङ एल्गोरिदमहरू विचार गर्नका लागि छन्:

रैखिक प्रतिगमन
लजिस्टिक प्रतिगमन
भोली Bayes
निर्णय रूखहरू
K मतलब
अनियमित वन एल्गोरिथ्म
K- नजिकको छिमेकी (KNN)

8. मेसिन लर्निङमा रेखीय प्रतिगमन: यो के हो?

एक पर्यवेक्षित मेसिन लर्निङ एल्गोरिदम रैखिक प्रतिगमन हो।

यो निर्भर र स्वतन्त्र चर बीच रैखिक जडान निर्धारण गर्न भविष्यवाणी विश्लेषण मा कार्यरत छ।

रैखिक प्रतिगमनको समीकरण निम्नानुसार छ:

Y = A + BX

जहाँ:

इनपुट वा स्वतन्त्र चर X भनिन्छ।
निर्भर वा आउटपुट चर Y हो।
X को गुणांक b हो, र यसको अवरोध a हो।

9. KNN र k- मतलब क्लस्टरिङ बीचको भिन्नताहरू वर्णन गर्नुहोस्।

प्राथमिक भिन्नता यो हो कि KNN (वर्गीकरण विधि, पर्यवेक्षित सिकाइ) लाई लेबल गरिएको बिन्दुहरू चाहिन्छ जबकि k-अर्थले गर्दैन (क्लस्टरिङ एल्गोरिदम, असुरक्षित शिक्षा)।

तपाईले K-Nearest Neighbors को प्रयोग गरेर लेबल गरिएको डेटालाई लेबल नगरिएको बिन्दुमा वर्गीकृत गर्न सक्नुहुन्छ। K- मतलब क्लस्टरिङले लेबल नभएका बिन्दुहरूलाई कसरी समूह बनाउने भनेर जान्न बिन्दुहरू बीचको औसत दूरी प्रयोग गर्दछ।

10. "चयन पूर्वाग्रह" ले तपाईंको लागि के अर्थ राख्छ?

प्रयोगको नमूना चरणमा पूर्वाग्रह सांख्यिकीय अशुद्धताको कारण हो।

एउटा नमूना समूह अशुद्धताको परिणामको रूपमा प्रयोगमा अन्य समूहहरू भन्दा धेरै पटक चयन गरिएको छ।

यदि चयन पूर्वाग्रहलाई स्वीकार गरिएन भने, यसले गलत निष्कर्षमा पुग्न सक्छ।

11. बेयसको प्रमेय वास्तवमा के हो?

जब हामी अन्य सम्भाव्यताहरू बारे सचेत हुन्छौं, हामी Bayes' Theorem को प्रयोग गरेर सम्भाव्यता निर्धारण गर्न सक्छौं। यसले अन्य शब्दहरूमा, पूर्व जानकारीको आधारमा घटनाको पछाडिको सम्भावना प्रदान गर्दछ।

यो प्रमेय द्वारा सशर्त सम्भाव्यताहरू अनुमान गर्नको लागि एक ध्वनि विधि प्रदान गरिएको छ।

वर्गीकरण भविष्यवाणी मोडलिङ समस्या विकास गर्दा र एक प्रशिक्षण मा एक मोडेल फिटिंग मेसिन लर्निङमा डाटासेट, बेइजको प्रमेय लागू हुन्छ (अर्थात् Naive Bayes, Bayes Optimal Classifier)।

12. मेसिन लर्निङ मोडेलमा, 'ट्रेनिङ सेट' र 'टेस्ट सेट' के हुन्?

प्रशिक्षण सेट:

प्रशिक्षण सेटमा उदाहरणहरू समावेश हुन्छन् जुन विश्लेषण र सिक्नको लागि मोडेलमा पठाइन्छ।
यो लेबल गरिएको डाटा हो जुन मोडेललाई तालिम दिन प्रयोग गरिने छ।
सामान्यतया, कुल डेटाको 70% प्रशिक्षण डेटासेटको रूपमा प्रयोग गरिन्छ।

परीक्षण सेट:

परीक्षण सेट मोडेलको परिकल्पना उत्पादन शुद्धता मूल्याङ्कन गर्न प्रयोग गरिन्छ।
हामी लेबल गरिएको डाटा बिना परीक्षण गर्छौं र त्यसपछि परिणामहरू पुष्टि गर्न लेबलहरू प्रयोग गर्दछौं।
बाँकी 30% परीक्षण डेटासेटको रूपमा प्रयोग गरिन्छ।

13. मेसिन लर्निङमा हाइपोथेसिस के हो?

मेसिन लर्निङले इनपुटलाई आउटपुटमा लिङ्क गर्ने दिइएको प्रकार्यलाई राम्रोसँग बुझ्नको लागि अवस्थित डेटासेटहरूको प्रयोगलाई सक्षम बनाउँछ। यसलाई प्रकार्य अनुमान भनिन्छ।

यस अवस्थामा, अपरिचित लक्ष्य प्रकार्यको लागि अनुमानित अवस्थालाई उत्तम तरिकामा दिइएको परिस्थितिमा आधारित सबै अनुमानित अवलोकनहरू स्थानान्तरण गर्न प्रयोग गरिनुपर्छ।

मेसिन लर्निङमा, एक परिकल्पना एउटा मोडेल हो जसले लक्ष्य प्रकार्य अनुमान गर्न र उपयुक्त इनपुट-टू-आउटपुट म्यापिङहरू पूरा गर्न मद्दत गर्दछ।

एल्गोरिदमहरूको चयन र डिजाइनले सम्भावित परिकल्पनाहरूको स्पेसको परिभाषाको लागि अनुमति दिन्छ जुन मोडेलद्वारा प्रतिनिधित्व गर्न सकिन्छ।

एकल परिकल्पनाको लागि, लोअरकेस h (h) प्रयोग गरिन्छ, तर पूँजी h (H) को सम्पूर्ण परिकल्पना स्पेसको लागि प्रयोग गरिन्छ जुन खोजी भइरहेको छ। हामी यी नोटहरू संक्षिप्त रूपमा समीक्षा गर्नेछौं:

एक परिकल्पना (h) एक विशेष मोडेल हो जसले आउटपुटमा इनपुटको म्यापिङलाई सुविधा दिन्छ, जुन पछि मूल्याङ्कन र भविष्यवाणीको लागि प्रयोग गर्न सकिन्छ।
एक परिकल्पना सेट (H) परिकल्पनाहरूको खोजी योग्य ठाउँ हो जुन आउटपुटहरूमा इनपुटहरू नक्सा गर्न प्रयोग गर्न सकिन्छ। मुद्दा फ्रेमिङ, मोडेल, र मोडेल कन्फिगरेसन जेनेरिक सीमितताहरूका केही उदाहरणहरू हुन्।

14. मेसिन लर्निङ ओभरफिटिङको अर्थ के हो र यसलाई कसरी रोक्न सकिन्छ?

जब मेसिनले अपर्याप्त डेटासेटबाट सिक्ने प्रयास गर्छ, ओभरफिटिंग हुन्छ।

नतिजाको रूपमा, ओभरफिटिंग डेटा भोल्युमसँग उल्टो रूपमा सम्बन्धित छ। क्रस-प्रमाणीकरण दृष्टिकोणले साना डेटासेटहरूको लागि ओभरफिटिंगबाट बच्न अनुमति दिन्छ। यस विधिमा डेटासेटलाई दुई भागमा विभाजन गरिएको छ।

परीक्षण र प्रशिक्षणको लागि डाटासेट यी दुई भागहरू समावेश हुनेछ। प्रशिक्षण डेटासेट मोडेल सिर्जना गर्न प्रयोग गरिन्छ, जबकि परीक्षण डेटासेट विभिन्न इनपुटहरू प्रयोग गरेर मोडेल मूल्याङ्कन गर्न प्रयोग गरिन्छ।

यो ओभरफिटिंग रोक्न कसरी छ।

15. वास्तवमा Naive Bayes वर्गीकरणकर्ताहरू के हुन्?

विभिन्न वर्गीकरण विधिहरूले Naive Bayes वर्गीकरणकर्ताहरू बनाउँछन्। एल्गोरिदमहरूको सेटलाई यी वर्गीकरणहरू भनेर चिनिन्छ सबै समान आधारभूत विचारमा काम गर्छन्।

भोली बेइज क्लासिफायरहरू द्वारा बनाईएको धारणा भनेको एउटा विशेषताको उपस्थिति वा अनुपस्थितिले अर्को विशेषताको उपस्थिति वा अनुपस्थितिमा कुनै असर गर्दैन।

अन्य शब्दहरूमा, यसलाई हामीले "भोली" भनेर बुझाउँछौं किनभने यसले प्रत्येक डेटासेट विशेषता समान रूपमा महत्त्वपूर्ण र स्वतन्त्र छ भन्ने धारणा बनाउँछ।

वर्गीकरण भोली बेइज क्लासिफायरहरू प्रयोग गरेर गरिन्छ। तिनीहरू प्रयोग गर्न सरल छन् र अधिक जटिल भविष्यवाणीकर्ताहरू भन्दा राम्रो परिणामहरू उत्पादन गर्छन् जब स्वतन्त्रता आधार सत्य हुन्छ।

पाठ विश्लेषण, स्प्याम फिल्टरिङ, र सिफारिस प्रणालीहरूमा, तिनीहरू कार्यरत छन्।

16. लागत प्रकार्य र घाटा कार्यहरूको अर्थ के हो?

"हानि प्रकार्य" वाक्यांशले डेटाको एक टुक्रालाई ध्यानमा राख्दा कम्प्युटिङ हानिको प्रक्रियालाई जनाउँछ।

यसको विपरित, हामी धेरै डाटाका लागि गल्तीहरूको कुल मात्रा निर्धारण गर्न लागत प्रकार्य प्रयोग गर्छौं। कुनै महत्त्वपूर्ण भिन्नता अवस्थित छैन।

अन्य शब्दहरूमा, जहाँ लागत प्रकार्यहरूले सम्पूर्ण प्रशिक्षण डेटासेटको लागि भिन्नतालाई एकत्रित गर्दछ, हानि प्रकार्यहरू एकल रेकर्डको लागि वास्तविक र अनुमानित मानहरू बीचको भिन्नता क्याप्चर गर्न डिजाइन गरिएको हो।

17. उत्पादनशील मोडेललाई भेदभावपूर्ण मोडेलबाट के फरक पार्छ?

एक भेदभाव मोडेलले धेरै डेटा कोटिहरू बीचको भिन्नताहरू सिक्छ। एक जेनेरेटिभ मोडेलले विभिन्न डेटा प्रकारहरूमा उठाउँछ।

वर्गीकरण समस्याहरूमा, भेदभावपूर्ण मोडेलहरूले प्राय: अन्य मोडेलहरूलाई पछाडि पार्छन्।

18. प्रकार I र Type II त्रुटिहरू बीचको भिन्नताहरू वर्णन गर्नुहोस्।

झूटा सकारात्मकहरू टाइप I त्रुटिहरूको श्रेणी अन्तर्गत पर्दछन्, जबकि गलत नकारात्मकहरू टाइप II त्रुटिहरू अन्तर्गत जान्छन् (वास्तवमा भएको बेलामा केही भएको छैन भनी दाबी गर्दै)।

19. मेसिन लर्निङमा, एन्सेम्बल लर्निङ प्रविधि के हो?

इन्सेम्बल लर्निङ भनिने प्रविधिले धेरै मेसिन लर्निङ मोडेलहरू मिलाएर थप शक्तिशाली मोडेलहरू उत्पादन गर्छ।

एक मोडेल विभिन्न कारणहरूको लागि भिन्न हुन सक्छ। धेरै कारणहरू छन्:

विभिन्न जनसंख्या
विभिन्न परिकल्पनाहरू
विभिन्न मोडलिङ विधिहरू

मोडेलको प्रशिक्षण र परीक्षण डेटा प्रयोग गर्दा हामीले एउटा समस्याको सामना गर्नेछौं। पूर्वाग्रह, भिन्नता, र अपरिवर्तनीय त्रुटि यस गल्तीका सम्भावित प्रकारहरू हुन्।

अब, हामी मोडेलमा पूर्वाग्रह र भिन्नता बीचको यो सन्तुलनलाई पूर्वाग्रह- भिन्नता ट्रेड-अफ भन्छौं, र यो सधैं अवस्थित हुनुपर्छ। यो ट्रेड-अफ ensemble शिक्षा को प्रयोग मार्फत पूरा गरिएको छ।

यद्यपि त्यहाँ विभिन्न ensemble दृष्टिकोणहरू उपलब्ध छन्, त्यहाँ धेरै मोडेलहरू संयोजन गर्न दुई साझा रणनीतिहरू छन्:

ब्यागिङ भनिने नेटिभ दृष्टिकोणले अतिरिक्त प्रशिक्षण सेटहरू उत्पादन गर्न प्रशिक्षण सेट प्रयोग गर्दछ।
बूस्टिङ, एक अधिक परिष्कृत प्रविधि: ब्यागिङ जस्तै, बूस्टिङलाई प्रशिक्षण सेटको लागि आदर्श वजन सूत्र फेला पार्न प्रयोग गरिन्छ।

20. प्यारामेट्रिक मोडेलहरू वास्तवमा के हुन्? एउटा उदाहरण दिनुहोस्।

प्यारामेट्रिक मोडेलहरूमा मापदण्डहरूको सीमित मात्रा छ। डेटा पूर्वानुमान गर्न, तपाईले जान्न आवश्यक सबै मोडेलको प्यारामिटरहरू हुन्।

निम्न विशिष्ट उदाहरणहरू छन्: लजिस्टिक रिग्रेसन, रैखिक प्रतिगमन, र रैखिक SVMs। गैर-पैरामेट्रिक मोडेलहरू लचिलो हुन्छन् किनभने तिनीहरूले असीमित संख्यामा प्यारामिटरहरू समावेश गर्न सक्छन्।

मोडेलको प्यारामिटरहरू र अवलोकन गरिएको डेटाको स्थिति डेटा भविष्यवाणीहरूको लागि आवश्यक छ। यहाँ केहि सामान्य उदाहरणहरू छन्: विषय मोडेलहरू, निर्णय रूखहरू, र k-नजिक छिमेकीहरू।

21. सहयोगी फिल्टरिङ वर्णन गर्नुहोस्। साथै सामग्री-आधारित फिल्टरिङ?

अनुकूल सामग्री सुझावहरू सिर्जना गर्न को लागी एक प्रयास-र-सत्य विधि सहयोगी फिल्टरिंग हो।

कोलाबोरेटिभ फिल्टरिङ भनिने सिफारिस प्रणालीको एक रूपले साझा चासोहरूसँग प्रयोगकर्ता प्राथमिकताहरू सन्तुलनमा राखेर ताजा सामग्रीको भविष्यवाणी गर्छ।

प्रयोगकर्ता प्राथमिकताहरू सामग्री-आधारित सिफारिस प्रणालीहरूले विचार गर्ने मात्र चीज हो। प्रयोगकर्ताको पूर्व चयनको प्रकाशमा, सम्बन्धित सामग्रीबाट नयाँ सिफारिसहरू प्रदान गरिन्छ।

22. टाइम शृङ्खलाबाट तपाईले वास्तवमा के भन्नुहुन्छ?

समय श्रृङ्खला बढ्दो क्रममा संख्याहरूको संग्रह हो। पूर्वनिर्धारित समय अवधिमा, यसले चयन गरिएको डेटा बिन्दुहरूको आन्दोलनलाई निगरानी गर्दछ र आवधिक रूपमा डाटा पोइन्टहरू कब्जा गर्दछ।

समय श्रृंखला को लागी कुनै न्यूनतम वा अधिकतम समय इनपुट छैन।

समय श्रृङ्खलाहरू प्रायः विश्लेषकहरूले तिनीहरूको अद्वितीय आवश्यकताहरू अनुसार डेटा विश्लेषण गर्न प्रयोग गरिन्छ।

23. ग्रेडियन्ट बूस्टिङ र अनियमित वन एल्गोरिदमहरू बीचको भिन्नताहरू वर्णन गर्नुहोस्।

अनियमित वन:

निर्णय रूखहरूको एक ठूलो संख्या अन्तमा एकसाथ जम्मा गरिन्छ र अनियमित वन भनेर चिनिन्छ।
जबकि ग्रेडियन्ट बूस्टिङले प्रत्येक रूखलाई अरूबाट स्वतन्त्र रूपमा उत्पादन गर्दछ, अनियमित वनले प्रत्येक रूखलाई एक पटकमा बनाउँछ।
मल्टिक्लास वस्तु पहिचान अनियमित वन संग राम्रो काम गर्दछ।

ग्रेडियन्ट बूस्टिङ:

प्रक्रियाको अन्त्यमा अनियमित वनहरू निर्णय रूखहरूमा सामेल हुँदा, ग्रेडियन्ट बूस्टिङ मेसिनहरूले तिनीहरूलाई सुरुदेखि नै जोड्छन्।
यदि प्यारामिटरहरू उचित रूपमा समायोजन गरिएका छन् भने, ग्रेडियन्ट बूस्टिङले नतिजाहरूको सन्दर्भमा अनियमित वनहरू भन्दा राम्रो प्रदर्शन गर्छ, तर यदि डेटा सेटमा धेरै आउटलियरहरू, विसंगतिहरू, वा आवाजहरू छन् भने यो एक स्मार्ट विकल्प होइन किनभने यसले मोडेललाई ओभरफिट हुन सक्छ।
जब त्यहाँ असन्तुलित डाटा हुन्छ, त्यहाँ वास्तविक-समय जोखिम मूल्याङ्कनमा हुन्छ, ग्रेडियन्ट बूस्टिङले राम्रो प्रदर्शन गर्दछ।

24. तपाईलाई कन्फ्युजन म्याट्रिक्स किन चाहिन्छ? यो के हो?

कन्फ्युजन म्याट्रिक्सको रूपमा चिनिने तालिका, कहिलेकाहीँ त्रुटि म्याट्रिक्सको रूपमा पनि चिनिन्छ, व्यापक रूपमा वर्गीकरण मोडेल, वा वर्गीकरणकर्ताले परीक्षण डेटाको सेटमा प्रदर्शन गरेको देखाउन व्यापक रूपमा प्रयोग गरिन्छ जसको लागि वास्तविक मानहरू ज्ञात छन्।

यसले हामीलाई मोडेल वा एल्गोरिदमले कसरी प्रदर्शन गर्छ भनेर हेर्न सक्षम बनाउँछ। यसले हामीलाई विभिन्न पाठ्यक्रमहरू बीचको गलतफहमीहरू पत्ता लगाउन सजिलो बनाउँछ।

यसले मोडेल वा एल्गोरिथ्म कति राम्रोसँग प्रदर्शन गरिएको छ भनेर मूल्याङ्कन गर्ने तरिकाको रूपमा कार्य गर्दछ।

एक वर्गीकरण मोडेलको भविष्यवाणी एक भ्रम म्याट्रिक्स मा संकलित छन्। प्रत्येक वर्ग लेबलको गणना मानहरू सही र गलत भविष्यवाणीहरूको कुल संख्या तोड्न प्रयोग गरियो।

यसले वर्गीकरणकर्ताद्वारा गरिएका त्रुटिहरूका साथै वर्गीकरणकर्ताहरूले गर्दा भएका विभिन्न प्रकारका त्रुटिहरूको विवरण प्रदान गर्दछ।

25. एक सिद्धान्त घटक विश्लेषण वास्तवमा के हो?

एकअर्कासँग सहसम्बन्धित चरहरूको संख्यालाई कम गरेर, लक्ष्य डेटा सङ्कलनको आयामलाई न्यूनीकरण गर्नु हो। तर सम्भव भएसम्म विविधता राख्न महत्त्वपूर्ण छ।

चरहरूलाई प्रिन्सिपल कम्पोनेन्ट भनिने चरहरूको पूर्ण रूपमा नयाँ सेटमा परिवर्तन गरिन्छ।

यी पीसीहरू अर्थोगोनल हुन् किनभने तिनीहरू एक कोभेरियन्स म्याट्रिक्सको इजिनभेक्टरहरू हुन्।

26. PCA (प्रिन्सिपल कम्पोनेन्ट विश्लेषण) को लागि कम्पोनेन्ट रोटेशन किन यति महत्त्वपूर्ण छ?

PCA मा रोटेशन महत्त्वपूर्ण छ किनभने यसले प्रत्येक घटकद्वारा प्राप्त भिन्नताहरू बीचको विभाजनलाई अनुकूलन गर्दछ, कम्पोनेन्ट व्याख्यालाई सरल बनाउँछ।

कम्पोनेन्ट भिन्नता व्यक्त गर्न हामीलाई विस्तारित कम्पोनेन्टहरू चाहिन्छ यदि कम्पोनेन्टहरू घुमाइएको छैन भने।

27. नियमितीकरण र सामान्यीकरण कसरी एकअर्काबाट भिन्न हुन्छन्?

सामान्यीकरण:

डेटा सामान्यीकरण को समयमा परिवर्तन गरिएको छ। तपाईले डेटालाई सामान्य बनाउनु पर्छ यदि यसमा स्केलहरू छन् जुन एकदम फरक छन्, विशेष गरी कम देखि उच्च। प्रत्येक स्तम्भ समायोजन गर्नुहोस् ताकि आधारभूत तथ्याङ्कहरू सबै मिल्दो छन्।

परिशुद्धता को कुनै हानि छैन भनेर सुनिश्चित गर्न, यो उपयोगी हुन सक्छ। आवाज बेवास्ता गर्दा संकेत पत्ता लगाउने मोडेल प्रशिक्षण को उद्देश्य मध्ये एक हो।

यदि मोडेललाई त्रुटि कम गर्न पूर्ण नियन्त्रण दिइयो भने ओभरफिटिंग हुने सम्भावना हुन्छ।

नियमितीकरण:

नियमितीकरणमा, भविष्यवाणी प्रकार्य परिमार्जन गरिएको छ। यो नियमितीकरण मार्फत केही नियन्त्रणको अधीनमा छ, जसले जटिलहरूलाई भन्दा सरल फिटिंग कार्यहरूलाई समर्थन गर्दछ।

28. कसरी सामान्यीकरण र मानकीकरण एकअर्काबाट भिन्न छन्?

फिचर स्केलिंगका लागि दुईवटा सबैभन्दा व्यापक रूपमा प्रयोग हुने प्रविधिहरू सामान्यीकरण र मानकीकरण हुन्।

सामान्यीकरण:

[0,1] दायरा अनुरूप डेटा पुन: स्केल गर्नलाई सामान्यीकरण भनिन्छ।
जब सबै प्यारामिटरहरूमा एउटै सकारात्मक स्केल हुनुपर्छ, सामान्यीकरण उपयोगी हुन्छ, तर डेटा सेटको आउटलियरहरू हराउँछन्।

नियमितीकरण:

मानकीकरण प्रक्रिया (एकाइ भिन्नता) को भागको रूपमा 0 को औसत र 1 को मानक विचलन हुन डेटा पुन: मापन गरिन्छ।

29. वास्तवमा "विभिन्न मुद्रास्फीति कारक" को अर्थ के हो?

मोडेलको भिन्नता र मोडेलको भिन्नताको अनुपात मात्र एक स्वतन्त्र चरको साथमा भिन्नता मुद्रास्फीति कारक (VIF) भनिन्छ।

VIF ले धेरै रिग्रेसन चरहरूको सेटमा रहेको बहुकोलिनीयरिटीको मात्रा अनुमान गर्छ।

मोडेलको भिन्नता (VIF) मोडेल एक स्वतन्त्र चर भिन्नताको साथ

30. प्रशिक्षण सेटको साइजको आधारमा, तपाइँ कसरी वर्गीकरणकर्ता छान्नुहुन्छ?

एक उच्च पूर्वाग्रह, कम भिन्नता मोडेलले छोटो प्रशिक्षण सेटको लागि राम्रो प्रदर्शन गर्दछ किनभने ओभरफिटिंग कम सम्भावना हुन्छ। Naive Bayes एउटा उदाहरण हो।

ठूलो प्रशिक्षण सेटको लागि थप जटिल अन्तरक्रियाहरू प्रतिनिधित्व गर्न, कम पूर्वाग्रह र उच्च भिन्नता भएको मोडेललाई प्राथमिकता दिइन्छ। तार्किक प्रतिगमन एक राम्रो उदाहरण हो।

31. मेसिन लर्निङमा कुन एल्गोरिदमलाई "आलसी शिक्षार्थी" भनिन्छ र किन?

एक सुस्त शिक्षार्थी, KNN एक मेसिन लर्निंग एल्गोरिथ्म हो। किनभने K-NN ले प्रत्येक पटक तालिम डेटाबाट मेसिनले सिकेका मानहरू वा चरहरू सिक्नुको सट्टा वर्गीकरण गर्न चाहेको दूरीको गतिशील रूपमा गणना गर्दछ, यसले प्रशिक्षण डेटासेटलाई सम्झन्छ।

यसले K-NN लाई अल्छी शिक्षार्थी बनाउँछ।

32. ROC कर्भ र AUC के हो?

सबै थ्रेसहोल्डहरूमा वर्गीकरण मोडेलको प्रदर्शन ROC वक्र द्वारा ग्राफिक रूपमा प्रतिनिधित्व गरिन्छ। यसमा साँचो सकारात्मक दर र गलत सकारात्मक दर मापदण्ड छ।

सरल भाषामा भन्नुपर्दा, ROC वक्र अन्तर्गतको क्षेत्रलाई AUC (ROC curve अन्तर्गतको क्षेत्र) भनिन्छ। ROC वक्रको दुई-आयामी क्षेत्र (0,0) देखि AUC मापन गरिन्छ (1,1)। बाइनरी वर्गीकरण मोडेलहरूको मूल्याङ्कन गर्न, यसलाई प्रदर्शन तथ्याङ्कको रूपमा प्रयोग गरिन्छ।

33. हाइपरपेरामिटरहरू के हुन्? के तिनीहरूलाई मोडेल प्यारामिटरहरूबाट अद्वितीय बनाउँछ?

मोडेलको आन्तरिक चरलाई मोडेल प्यारामिटर भनिन्छ। प्रशिक्षण डेटा प्रयोग गर्दै, प्यारामिटरको मान अनुमानित छ।

मोडेललाई थाहा छैन, हाइपरपेरामिटर एक चर हो। डेटाबाट मान निर्धारण गर्न सकिँदैन, यसरी तिनीहरू मोडेल प्यारामिटरहरू गणना गर्नका लागि प्रायः प्रयोग गरिन्छ।

34. F1 स्कोर, रिकॉल र सटीकको अर्थ के हो?

भ्रम मापन वर्गीकरण मोडेलको प्रभावकारिता नाप्न प्रयोग गरिने मेट्रिक हो। निम्न वाक्यांशहरू भ्रम मेट्रिकलाई राम्रोसँग व्याख्या गर्न प्रयोग गर्न सकिन्छ:

TP: साँचो सकारात्मक - यी सकारात्मक मानहरू हुन् जुन राम्रोसँग अनुमान गरिएको थियो। यसले सुझाव दिन्छ कि अनुमानित वर्ग र वास्तविक वर्गको मान दुवै सकारात्मक छन्।

TN: साँचो नकारात्मक - यी प्रतिकूल मानहरू हुन् जुन सही रूपमा पूर्वानुमान गरिएको थियो। यसले सुझाव दिन्छ कि वास्तविक वर्गको मान र अपेक्षित वर्ग दुवै ऋणात्मक छन्।

यी मानहरू - गलत सकारात्मक र गलत नकारात्मकहरू - तब हुन्छ जब तपाइँको वास्तविक वर्ग अपेक्षित वर्ग भन्दा फरक हुन्छ।

अब,

वास्तविक वर्गमा गरिएका सबै अवलोकनहरूसँग साँचो सकारात्मक दर (TP) को अनुपातलाई रिकॉल भनिन्छ, जसलाई संवेदनशीलता पनि भनिन्छ।

सम्झना TP/(TP+FN) हो।

परिशुद्धता सकारात्मक भविष्यवाणी मानको मापन हो, जसले मोडेलले वास्तवमा कति सही सकारात्मकहरू सही रूपमा भविष्यवाणी गरेको छ त्यसमा सकारात्मकताहरूको सङ्ख्या तुलना गर्छ।

शुद्धता TP/(TP + FP) हो

बुझ्नको लागि सबैभन्दा सजिलो कार्यसम्पादन मेट्रिक शुद्धता हो, जुन केवल सबै अवलोकनहरूमा उचित रूपमा भविष्यवाणी गरिएका अवलोकनहरूको अनुपात हो।

शुद्धता बराबर (TP+TN)/(TP+FP+FN+TN)।

सटीक र सम्झना F1 स्कोर प्रदान गर्न भारित र औसत गरिन्छ। नतिजाको रूपमा, यो स्कोर दुवै गलत सकारात्मक र गलत नकारात्मक विचार गर्दछ।

F1 प्रायः सटीकता भन्दा बढी मूल्यवान हुन्छ, विशेष गरी यदि तपाईसँग असमान वर्ग वितरण छ भने, यदि सहज रूपमा यो सटीकताको रूपमा बुझ्नको लागि सरल छैन भने।

सबै भन्दा राम्रो शुद्धता प्राप्त हुन्छ जब गलत सकारात्मक र गलत नकारात्मक को लागत तुलनात्मक छ। यदि गलत सकारात्मक र गलत नकारात्मकहरूसँग सम्बन्धित लागतहरू महत्त्वपूर्ण रूपमा भिन्न छन् भने प्रेसिजन र रिकल दुवै समावेश गर्न राम्रो हुन्छ।

35. वास्तवमा क्रस-प्रमाणीकरण भनेको के हो?

मेसिन लर्निङमा क्रस-प्रमाणीकरण भनिने तथ्याङ्कीय पुन: नमूना दृष्टिकोणले धेरै राउन्डहरूमा मेसिन लर्निङ एल्गोरिथ्मलाई प्रशिक्षित गर्न र मूल्याङ्कन गर्न धेरै डाटासेट सबसेटहरू प्रयोग गर्दछ।

मोडेललाई तालिम दिन प्रयोग नगरिएको डेटाको नयाँ ब्याच मोडेलले कति राम्रोसँग भविष्यवाणी गर्छ भनेर क्रस-प्रमाणीकरण प्रयोग गरेर परीक्षण गरिन्छ। डाटा ओभरफिटिंग क्रस-प्रमाणीकरण मार्फत रोकिएको छ।

K-Fold प्रायः प्रयोग गरिने पुन: नमूना विधिले सम्पूर्ण डेटासेटलाई समान आकारको K सेटहरूमा विभाजन गर्दछ। यसलाई क्रस-प्रमाणीकरण भनिन्छ।

36. मानौं कि तपाईंले पत्ता लगाउनुभयो कि तपाईंको मोडेलमा महत्त्वपूर्ण भिन्नता छ। कुन एल्गोरिथ्म, तपाईंको विचारमा, यो अवस्था ह्यान्डल गर्न सबैभन्दा उपयुक्त छ?

उच्च परिवर्तनशीलता व्यवस्थापन

हामीले ठूला भिन्नताहरूसँग समस्याहरूको लागि ब्यागिङ प्रविधि प्रयोग गर्नुपर्छ।

बेगिङ एल्गोरिदमद्वारा डाटालाई उपसमूहहरूमा विभाजन गर्नको लागि अनियमित डाटाको दोहोरिएको नमूना प्रयोग गरिनेछ। एक पटक डाटा विभाजित भएपछि, हामी नियमहरू उत्पन्न गर्न अनियमित डाटा र एक विशेष प्रशिक्षण प्रक्रिया प्रयोग गर्न सक्छौं।

त्यस पछि, मतदानलाई मोडेलको भविष्यवाणीहरू संयोजन गर्न प्रयोग गर्न सकिन्छ।

37. रिज रिग्रेसनलाई लासो प्रतिगमनबाट के फरक पार्छ?

दुईवटा व्यापक रूपमा प्रयोग हुने नियमितीकरण विधिहरू Lasso (L1 पनि भनिन्छ) र Ridge (कहिलेकाहीं L2 भनिन्छ) रिग्रेसन हुन्। तिनीहरू डाटाको ओभरफिटिंग रोक्नको लागि प्रयोग गरिन्छ।

उत्तम समाधान पत्ता लगाउन र जटिलता कम गर्नको लागि, यी प्रविधिहरू गुणांकहरूलाई सजाय दिन प्रयोग गरिन्छ। गुणांकहरूको पूर्ण मानहरूको कुललाई दण्डित गरेर, लासो रिग्रेसन सञ्चालन हुन्छ।

Ridge वा L2 regression मा पेनाल्टी प्रकार्य गुणांक को वर्ग को योग बाट व्युत्पन्न छ।

38. कुन बढी महत्त्वपूर्ण छ: मोडेल प्रदर्शन वा मोडेल सटीकता? कुन र किन तपाईं यसलाई समर्थन गर्नुहुन्छ?

यो एक भ्रामक प्रश्न हो, त्यसैले एकले पहिले मोडेल प्रदर्शन के हो भनेर बुझ्नुपर्छ। यदि कार्यसम्पादन गतिको रूपमा परिभाषित गरिएको छ भने, यो अनुप्रयोगको प्रकारमा निर्भर हुन्छ; वास्तविक-समय परिस्थिति समावेश गर्ने कुनै पनि अनुप्रयोगलाई महत्त्वपूर्ण घटकको रूपमा उच्च गति चाहिन्छ।

उदाहरणका लागि, यदि क्वेरी परिणामहरू आउन धेरै समय लाग्छ भने उत्तम खोज परिणामहरू कम मूल्यवान हुनेछन्।

यदि कार्यसम्पादनलाई औचित्यको रूपमा प्रयोग गरिन्छ किन सटीकता माथि सटीकता र सम्झनालाई प्राथमिकता दिनुपर्छ भने, F1 स्कोर असन्तुलित कुनै पनि डेटा सेटको लागि व्यापार मामला प्रदर्शन गर्न सटीकता भन्दा बढी उपयोगी हुनेछ।

39. तपाईले असमानता भएको डेटासेट कसरी व्यवस्थापन गर्नुहुन्छ?

एक असंतुलित डेटासेट नमूना प्रविधिबाट लाभ उठाउन सक्छ। नमूनाहरू तल वा ओभरसम्पल फेसनमा गर्न सकिन्छ।

नमूना अन्तर्गत हामीलाई अल्पसंख्यक वर्गसँग मेल खाने बहुसंख्यक वर्गको आकारलाई संकुचित गर्न अनुमति दिन्छ, जसले भण्डारण र रन-टाइम कार्यान्वयनको सन्दर्भमा गति बढाउन मद्दत गर्दछ तर यसले मूल्यवान डाटा गुमाउन पनि सक्छ।

ओभरसम्पलिंगको कारणले हुने जानकारी गुमाउने समस्याको समाधान गर्न, हामी अल्पसंख्यक वर्गको नमूना बनाउँछौं; जे होस्, यसले हामीलाई ओभरफिटिंग मुद्दाहरूमा दौडिन निम्त्याउँछ।

थप रणनीतिहरू समावेश छन्:

क्लस्टर-आधारित ओभर नमूना - अल्पसंख्यक र बहुसंख्यक वर्ग उदाहरणहरू व्यक्तिगत रूपमा यस अवस्थामा K- मतलब क्लस्टरिङ प्रविधिको अधीनमा छन्। यो डेटासेट क्लस्टरहरू फेला पार्नको लागि गरिन्छ। त्यसपछि, प्रत्येक क्लस्टरलाई ओभरसम्पल गरिन्छ ताकि सबै वर्गहरूको साइज एउटै हुन्छ र कक्षा भित्रका सबै क्लस्टरहरूमा समान संख्यामा उदाहरणहरू हुन्छन्।
SMOTE: सिंथेटिक अल्पसंख्यक ओभर-सम्पलिंग टेक्निक - अल्पसंख्यक वर्गबाट डाटाको एक टुक्रा उदाहरणको रूपमा प्रयोग गरिन्छ, जस पछि योसँग तुलना गर्न सकिने थप कृत्रिम उदाहरणहरू उत्पादन गरिन्छ र मूल डाटासेटमा थपिन्छ। यो विधि संख्यात्मक डेटा बिन्दुहरूसँग राम्रोसँग काम गर्दछ।

40. तपाईं कसरी बूस्टिङ र ब्यागिङ बीचको भिन्नता छुट्याउन सक्नुहुन्छ?

एन्सेम्बल प्रविधिहरूमा ब्यागिङ र बूस्टिङ भनेर चिनिने संस्करणहरू छन्।

ब्यागिङ-

उच्च भिन्नता भएका एल्गोरिदमहरूका लागि, ब्यागिङ भनेको भिन्नता कम गर्न प्रयोग गरिने प्रविधि हो। वर्गीकरणकर्ताहरूको एउटा यस्तो परिवार जुन पूर्वाग्रहको शिकार हुन्छ निर्णय रूख परिवार हो।

निर्णय रूखहरूलाई प्रशिक्षित गरिएको डेटाको प्रकारले तिनीहरूको कार्यसम्पादनमा महत्त्वपूर्ण प्रभाव पार्छ। यस कारणले गर्दा, धेरै उच्च फाइन-ट्यूनिंगको साथ पनि, परिणामहरूको सामान्यीकरण कहिलेकाहीं तिनीहरूमा प्राप्त गर्न धेरै गाह्रो हुन्छ।

यदि निर्णय रूखहरूको प्रशिक्षण डेटा परिवर्तन गरिएको छ भने, नतिजाहरू धेरै फरक हुन्छन्।

नतिजाको रूपमा, ब्यागिङ प्रयोग गरिन्छ, जसमा धेरै निर्णय रूखहरू सिर्जना गरिन्छ, जसमध्ये प्रत्येकलाई मौलिक डेटाको नमूना प्रयोग गरेर प्रशिक्षित गरिन्छ, र अन्तिम परिणाम यी सबै विभिन्न मोडेलहरूको औसत हो।

बढाउँदै:

बूस्टिङ भनेको n-कमजोर वर्गीकरण प्रणालीको साथ भविष्यवाणी गर्ने प्रविधि हो जसमा प्रत्येक कमजोर वर्गीकरणकर्ताले आफ्नो बलियो वर्गीकरणकर्ताहरूको कमीहरू पूरा गर्छ। हामीले "कमजोर वर्गीकरणकर्ता" को रूपमा दिइएको डेटा सेटमा खराब प्रदर्शन गर्ने वर्गीकरणकर्तालाई सन्दर्भ गर्छौं।

बूस्टिङ स्पष्ट रूपमा एल्गोरिदम भन्दा एक प्रक्रिया हो। लजिस्टिक रिग्रेसन र उथले निर्णय रूखहरू कमजोर वर्गीकरणका सामान्य उदाहरण हुन्।

Adaboost, Gradient Boosting, र XGBoost दुई सबैभन्दा लोकप्रिय बूस्टिङ एल्गोरिदम हुन्, तथापि, त्यहाँ धेरै छन्।

41. प्रेरक र डिडक्टिव सिकाइ बीचको भिन्नताहरू व्याख्या गर्नुहोस्।

अवलोकन गरिएका उदाहरणहरूको सेटबाट उदाहरणद्वारा सिक्ने क्रममा, एउटा मोडेलले सामान्यीकृत निष्कर्षमा पुग्नको लागि प्रेरक शिक्षा प्रयोग गर्दछ। अर्कोतर्फ, कटौतीात्मक शिक्षाको साथ, मोडेलले आफ्नै गठन गर्नु अघि नतिजा प्रयोग गर्दछ।

प्रेरक शिक्षा भनेको अवलोकनबाट निष्कर्ष निकाल्ने प्रक्रिया हो।

डिडक्टिव लर्निङ भनेको निष्कर्षमा आधारित अवलोकनहरू सिर्जना गर्ने प्रक्रिया हो।

निष्कर्ष

बधाई छ! यी मेसिन लर्निङका लागि शीर्ष ४० र माथिका अन्तर्वार्ता प्रश्नहरू हुन् जसको जवाफ तपाईलाई थाहा छ। डाटा विज्ञान र कृत्रिम बुद्धि टेक्नोलोजीको विकासको रूपमा पेशाहरूको माग जारी रहनेछ।

यी अत्याधुनिक प्रविधिहरूको आफ्नो ज्ञान अपडेट गर्ने र आफ्नो सीप सेटमा सुधार गर्ने उम्मेद्वारहरूले प्रतिस्पर्धी तलबको साथ रोजगारीका विभिन्न सम्भावनाहरू फेला पार्न सक्छन्।

तपाईले अन्तर्वार्ताको जवाफ दिन अगाडि बढ्न सक्नुहुन्छ किनकि तपाईसँग व्यापक रूपमा सोधिने मेसिन लर्निङ अन्तर्वार्ता प्रश्नहरूको जवाफ कसरी दिने भन्ने ठोस बुझाइ छ।

तपाईंको लक्ष्यहरूमा निर्भर गर्दै, निम्न चरणहरू लिनुहोस्। Hashdork को भ्रमण गरेर अन्तर्वार्ताको लागि तयारी गर्नुहोस् अन्तर्वार्ता श्रृंखला.

शीर्ष ४०+ मेसिन लर्निङ अन्तर्वार्ता प्रश्नहरू