अनुक्रमणिका[लपवा][दाखवा]
- 1. मशीन लर्निंग, आर्टिफिशियल इंटेलिजन्स आणि डीप लर्निंग मधील फरक स्पष्ट करा.
- 2. कृपया मशीन लर्निंगच्या विविध प्रकारांचे वर्णन करा.
- 3. पूर्वाग्रह विरुद्ध भिन्नता ट्रेड-ऑफ काय आहे?
- 4. मशीन लर्निंग अल्गोरिदम कालांतराने लक्षणीयरित्या विकसित झाले आहेत. दिलेल्या डेटा सेटचा वापर करण्यासाठी योग्य अल्गोरिदम कसा निवडायचा?
- 5. सहप्रवाह आणि सहसंबंध कसे वेगळे आहेत?
- 6. मशीन लर्निंगमध्ये, क्लस्टरिंगचा अर्थ काय आहे?
- 7. तुमचा पसंतीचा मशीन लर्निंग अल्गोरिदम कोणता आहे?
- 8. मशीन लर्निंगमध्ये रेखीय प्रतिगमन: ते काय आहे?
- 9. KNN आणि k- म्हणजे क्लस्टरिंगमधील फरकांचे वर्णन करा.
- 10. तुमच्यासाठी "निवडक पक्षपाती" चा अर्थ काय आहे?
- 11. बेयसचे प्रमेय म्हणजे नेमके काय?
- 12. मशीन लर्निंग मॉडेलमध्ये, 'ट्रेनिंग सेट' आणि 'टेस्ट सेट' काय आहेत?
- 13. मशीन लर्निंगमध्ये हायपोथेसिस म्हणजे काय?
- 14. मशीन लर्निंग ओव्हरफिटिंग म्हणजे काय आणि ते कसे टाळता येईल?
- 15. Naive Bayes क्लासिफायर्स नेमके काय आहेत?
- 16. कॉस्ट फंक्शन्स आणि लॉस फंक्शन्सचा अर्थ काय?
- 17. जनरेटिव्ह मॉडेलला भेदभाव करणाऱ्या मॉडेलपासून काय वेगळे करते?
- 18. प्रकार I आणि प्रकार II त्रुटींमधील फरकांचे वर्णन करा.
- 19. मशीन लर्निंगमध्ये, एन्सेम्बल लर्निंग तंत्र काय आहे?
- 20. पॅरामेट्रिक मॉडेल्स नक्की काय आहेत? एक उदाहरण द्या.
- 21. सहयोगी फिल्टरिंगचे वर्णन करा. तसेच सामग्री-आधारित फिल्टरिंग?
- 22. टाईम सिरीज म्हणजे नक्की काय?
- 23. ग्रेडियंट बूस्टिंग आणि रँडम फॉरेस्ट अल्गोरिदममधील फरकांचे वर्णन करा.
- 24. तुम्हाला कन्फ्युजन मॅट्रिक्सची गरज का आहे? हे काय आहे?
- 25. तत्त्व घटक विश्लेषण म्हणजे नेमके काय?
- 26. PCA (मुख्य घटक विश्लेषण) साठी घटक रोटेशन इतके महत्त्वाचे का आहे?
- 27. नियमितीकरण आणि सामान्यीकरण एकमेकांपासून कसे वेगळे आहेत?
- 28. सामान्यीकरण आणि मानकीकरण एकमेकांपेक्षा वेगळे कसे आहेत?
- 29. "वेरियंस इन्फ्लेशन फॅक्टर" चा नेमका अर्थ काय?
- 30. प्रशिक्षण संचाच्या आकारावर आधारित, तुम्ही क्लासिफायर कसे निवडता?
- 31. मशीन लर्निंगमधील कोणत्या अल्गोरिदमला "आळशी शिकणारा" म्हणून संबोधले जाते आणि का?
- 32. आरओसी वक्र आणि एयूसी काय आहेत?
- 33. हायपरपॅरामीटर्स म्हणजे काय? त्यांना मॉडेल पॅरामीटर्समधून अद्वितीय काय बनवते?
- 34. F1 स्कोअर, रिकॉल आणि अचूकता म्हणजे काय?
- 35. क्रॉस-व्हॅलिडेशन म्हणजे नक्की काय?
- 36. समजा तुमच्या मॉडेलमध्ये लक्षणीय फरक आहे हे तुम्हाला आढळले आहे. तुमच्या मते, ही परिस्थिती हाताळण्यासाठी कोणता अल्गोरिदम सर्वात योग्य आहे?
- 37. रिज रिग्रेशनला लासो रिग्रेशनपासून काय वेगळे करते?
- 38. कोणते अधिक महत्त्वाचे आहे: मॉडेल कामगिरी किंवा मॉडेल अचूकता? तुम्ही कोणाला आणि का पसंत कराल?
- 39. तुम्ही असमानता असलेला डेटासेट कसा व्यवस्थापित कराल?
- 40. तुम्ही बूस्टिंग आणि बॅगिंगमध्ये फरक कसा करू शकता?
- 41. प्रेरक आणि व्युत्पन्न शिक्षणातील फरक स्पष्ट करा.
- निष्कर्ष
व्यक्तींना माहिती आणि सेवांची सुलभता वाढवण्यासाठी व्यवसाय कृत्रिम बुद्धिमत्ता (AI) आणि मशीन लर्निंग सारख्या अत्याधुनिक तंत्रज्ञानाचा वापर करत आहेत.
बँकिंग, वित्त, किरकोळ, उत्पादन आणि आरोग्य सेवा यासह विविध उद्योगांद्वारे या तंत्रज्ञानाचा अवलंब केला जात आहे.
AI चा वापर करणार्या संस्थात्मक भूमिकांपैकी एक सर्वाधिक मागणी आहे ती म्हणजे डेटा वैज्ञानिक, कृत्रिम बुद्धिमत्ता अभियंता, मशीन लर्निंग अभियंते आणि डेटा विश्लेषक.
हे पोस्ट तुम्हाला विविध माध्यमातून घेऊन जाईल मशीन शिक्षण तुमची आदर्श नोकरी शोधत असताना तुम्हाला विचारल्या जाणार्या कोणत्याही प्रश्नांसाठी तयार होण्यासाठी तुम्हाला मूलभूत ते जटिल प्रश्न, मुलाखतीचे प्रश्न.
1. मशीन लर्निंग, आर्टिफिशियल इंटेलिजन्स आणि डीप लर्निंग मधील फरक स्पष्ट करा.
कृत्रिम बुद्धिमत्ता विविध प्रकारचे मशीन लर्निंग आणि सखोल शिक्षण पद्धती वापरते ज्यामुळे संगणक प्रणालींना तर्क आणि नियमांसह मानवी बुद्धीचा वापर करून कार्ये पार पाडता येतात.
मशीन लर्निंग विविध आकडेवारी आणि डीप लर्निंग पध्दतींचा वापर करून मशीन्सना त्यांच्या पूर्वीच्या कार्यक्षमतेतून शिकण्यास सक्षम बनवते आणि मानवी देखरेखीशिवाय स्वतःहून काही कामे करण्यात अधिक पारंगत बनते.
डीप लर्निंग हा अल्गोरिदमचा संग्रह आहे जो सॉफ्टवेअरला स्वतःहून शिकण्यास आणि आवाज आणि चित्र ओळख यांसारखी विविध व्यावसायिक कार्ये पार पाडू देतो.
प्रणाली जे त्यांचे बहुस्तरीय उघड करतात न्यूरल नेटवर्क शिकण्यासाठी मोठ्या प्रमाणावर डेटा सखोल शिक्षण करण्यास सक्षम आहे.
2. कृपया मशीन लर्निंगच्या विविध प्रकारांचे वर्णन करा.
मशीन लर्निंग तीन वेगवेगळ्या प्रकारांमध्ये मोठ्या प्रमाणावर अस्तित्वात आहे:
- पर्यवेक्षित शिक्षण: एक मॉडेल पर्यवेक्षी मशीन लर्निंगमध्ये लेबल केलेला किंवा ऐतिहासिक डेटा वापरून अंदाज किंवा निर्णय तयार करते. डेटा संच ज्यांना त्यांचा अर्थ वाढवण्यासाठी टॅग किंवा लेबल केले गेले आहे त्यांना लेबल केलेला डेटा असे संबोधले जाते.
- पर्यवेक्षी नसलेले शिक्षण: आमच्याकडे पर्यवेक्षी नसलेल्या शिक्षणासाठी लेबल केलेला डेटा नाही. येणार्या डेटामध्ये, मॉडेल नमुने, विषमता आणि सहसंबंध शोधू शकतात.
- मजबुतीकरण शिक्षण: मॉडेल करू शकता मजबुतीकरण वापरून शिका शिकणे आणि त्याच्या पूर्वीच्या वर्तनासाठी मिळालेले बक्षिसे.
3. पूर्वाग्रह विरुद्ध भिन्नता ट्रेड-ऑफ काय आहे?
ओव्हरफिटिंग हा पक्षपाताचा परिणाम आहे, जे मॉडेल डेटामध्ये फिट बसते. बायस तुमच्या चुकीच्या किंवा खूप सोप्या गृहितकांमुळे होतो मशीन लर्निंग अल्गोरिदम.
भिन्नता आपल्या ML अल्गोरिदममधील जटिलतेमुळे झालेल्या चुकांचा संदर्भ देते, जे प्रशिक्षण डेटा आणि ओव्हरफिटिंगमध्ये मोठ्या प्रमाणात भिन्नतेसाठी संवेदनशीलता निर्माण करते.
भिन्नता म्हणजे इनपुटवर अवलंबून मॉडेल किती बदलते.
दुसऱ्या शब्दांत, मूलभूत मॉडेल अत्यंत पक्षपाती असूनही स्थिर असतात (कमी फरक). ओव्हरफिटिंग ही जटिल मॉडेल्सची समस्या आहे, तरीही ते मॉडेलची वास्तविकता (कमी पूर्वाग्रह) कॅप्चर करतात.
उच्च भिन्नता आणि उच्च पूर्वाग्रह या दोन्हींना प्रतिबंध करण्यासाठी, सर्वोत्तम त्रुटी कमी करण्यासाठी पूर्वाग्रह आणि भिन्नता यांच्यातील व्यापार बंद करणे आवश्यक आहे.
4. मशीन लर्निंग अल्गोरिदम कालांतराने लक्षणीयरित्या विकसित झाले आहेत. दिलेल्या डेटा सेटचा वापर करण्यासाठी योग्य अल्गोरिदम कसा निवडायचा?
मशीन लर्निंग तंत्र ज्याचा वापर केला जावा ते केवळ विशिष्ट डेटासेटमधील डेटाच्या प्रकारावर अवलंबून असते.
जेव्हा डेटा रेखीय असतो, तेव्हा रेखीय प्रतिगमन वापरले जाते. डेटा नॉन-लाइनरिटी दर्शवित असल्यास बॅगिंग पद्धत अधिक चांगली कामगिरी करेल. जर डेटाचे व्यावसायिक हेतूंसाठी मूल्यमापन किंवा व्याख्या करायची असेल तर आम्ही निर्णय वृक्ष किंवा SVM वापरू शकतो.
डेटासेटमध्ये फोटो, व्हिडिओ आणि ऑडिओ समाविष्ट असल्यास अचूक उत्तर मिळविण्यासाठी न्यूरल नेटवर्क उपयुक्त ठरू शकतात.
विशिष्ट परिस्थितीसाठी अल्गोरिदमची निवड किंवा डेटा संग्रहित करणे केवळ एका मापाने केले जाऊ शकत नाही.
सर्वोत्कृष्ट योग्य पद्धत विकसित करण्याच्या उद्देशासाठी, आम्ही प्रथम एक्सप्लोरेटरी डेटा अॅनालिसिस (EDA) वापरून डेटाचे परीक्षण केले पाहिजे आणि डेटासेटचा वापर करण्याचे उद्दिष्ट समजून घेतले पाहिजे.
5. सहप्रवाह आणि सहसंबंध कसे वेगळे आहेत?
Covariance दोन व्हेरिएबल्स एकमेकांशी कसे जोडलेले आहेत आणि दुसर्यामधील बदलांच्या प्रतिसादात एक कसे बदलू शकते याचे मूल्यांकन करते.
परिणाम सकारात्मक असल्यास, हे सूचित करते की व्हेरिएबल्समध्ये थेट संबंध आहे आणि इतर सर्व परिस्थिती स्थिर राहतील असे गृहीत धरून, बेस व्हेरिएबलमध्ये वाढ किंवा घट झाली आहे.
सहसंबंध दोन यादृच्छिक चलांमधील दुव्याचे मोजमाप करतो आणि त्यात फक्त तीन भिन्न मूल्ये आहेत: 1, 0 आणि -1.
6. मशीन लर्निंगमध्ये, क्लस्टरिंगचा अर्थ काय आहे?
पर्यवेक्षित नसलेल्या शिक्षण पद्धती ज्या डेटा पॉइंट्स एकत्रित करतात त्यांना क्लस्टरिंग म्हणतात. डेटा पॉइंट्सच्या संकलनासह, क्लस्टरिंग तंत्र लागू केले जाऊ शकते.
ही रणनीती वापरून तुम्ही सर्व डेटा पॉइंट्स त्यांच्या कार्यांनुसार गटबद्ध करू शकता.
एकाच श्रेणीत येणार्या डेटा पॉइंट्सची वैशिष्ट्ये आणि गुण सारखेच असतात, तर वेगळ्या गटात मोडणारे डेटा पॉइंट वेगळे असतात.
हा दृष्टिकोन सांख्यिकीय डेटाचे विश्लेषण करण्यासाठी वापरला जाऊ शकतो.
7. तुमचा पसंतीचा मशीन लर्निंग अल्गोरिदम कोणता आहे?
तुम्हाला या प्रश्नामध्ये तुमची प्राधान्ये आणि अद्वितीय प्रतिभा तसेच असंख्य मशीन लर्निंग तंत्रांचे तुमचे सर्वसमावेशक ज्ञान प्रदर्शित करण्याची संधी आहे.
विचार करण्यासाठी येथे काही विशिष्ट मशीन लर्निंग अल्गोरिदम आहेत:
- रेखीय प्रतिगमन
- लॉजिस्टिक प्रतिगमन
- भोळे बायस
- निर्णय झाडं
- के म्हणजे
- यादृच्छिक वन अल्गोरिदम
- K- सर्वात जवळचा शेजारी (KNN)
8. मशीन लर्निंगमध्ये रेखीय प्रतिगमन: ते काय आहे?
पर्यवेक्षित मशीन लर्निंग अल्गोरिदम म्हणजे रेखीय प्रतिगमन.
आश्रित आणि स्वतंत्र व्हेरिएबल्समधील रेषीय कनेक्शन निश्चित करण्यासाठी हे भविष्यसूचक विश्लेषणामध्ये वापरले जाते.
रेखीय प्रतिगमनचे समीकरण खालीलप्रमाणे आहे:
Y = A + BX
कोठे:
- इनपुट किंवा स्वतंत्र व्हेरिएबलला X म्हणतात.
- अवलंबून किंवा आउटपुट व्हेरिएबल Y आहे.
- X चा गुणांक b आहे आणि त्याचा इंटरसेप्ट a आहे.
9. KNN आणि k- म्हणजे क्लस्टरिंगमधील फरकांचे वर्णन करा.
प्राथमिक फरक असा आहे की KNN (वर्गीकरण पद्धत, पर्यवेक्षित शिक्षण) ला लेबल केलेल्या बिंदूंची आवश्यकता आहे तर k- म्हणजे नाही (क्लस्टरिंग अल्गोरिदम, पर्यवेक्षित शिक्षण).
तुम्ही K-जवळच्या शेजारी वापरून लेबल न केलेल्या डेटाचे वर्गीकरण करू शकता. K- म्हणजे क्लस्टरिंग हे लेबल नसलेल्या बिंदूंचे गट कसे करायचे हे शिकण्यासाठी बिंदूंमधील सरासरी अंतर वापरते.
10. तुमच्यासाठी "निवडक पक्षपाती" चा अर्थ काय आहे?
प्रयोगाच्या सॅम्पलिंग टप्प्यातील पूर्वाग्रह सांख्यिकीय अयोग्यतेमुळे आहे.
अयोग्यतेच्या परिणामी प्रयोगातील इतर गटांपेक्षा एक नमुना गट अधिक वारंवार निवडला जातो.
निवड पूर्वाग्रह मान्य न केल्यास, त्याचा परिणाम चुकीच्या निष्कर्षात होऊ शकतो.
11. बेयसचे प्रमेय म्हणजे नेमके काय?
जेव्हा आपल्याला इतर संभाव्यतेची जाणीव असते, तेव्हा आपण Bayes चे प्रमेय वापरून संभाव्यता निश्चित करू शकतो. हे दुसर्या शब्दांत, आधीच्या माहितीवर आधारित एखाद्या घटनेची नंतरची संभाव्यता ऑफर करते.
या प्रमेयाद्वारे सशर्त संभाव्यतेचा अंदाज लावण्यासाठी एक ध्वनी पद्धत प्रदान केली आहे.
वर्गीकरण भविष्यसूचक मॉडेलिंग समस्या विकसित करताना आणि प्रशिक्षणासाठी मॉडेल फिट करताना मशीन लर्निंगमधील डेटासेट, बायेसचे प्रमेय लागू केले आहे (म्हणजे नैव्ह बायेस, बेज इष्टतम वर्गीकरण).
12. मशीन लर्निंग मॉडेलमध्ये, 'ट्रेनिंग सेट' आणि 'टेस्ट सेट' काय आहेत?
प्रशिक्षण संच:
- प्रशिक्षण संचामध्ये उदाहरणे असतात जी विश्लेषण आणि शिकण्यासाठी मॉडेलकडे पाठविली जातात.
- हा लेबल केलेला डेटा आहे जो मॉडेलला प्रशिक्षण देण्यासाठी वापरला जाईल.
- सामान्यतः, एकूण डेटापैकी 70% प्रशिक्षण डेटासेट म्हणून वापरला जातो.
चाचणी संच:
- चाचणी संच मॉडेलच्या गृहीतक निर्मितीच्या अचूकतेचे मूल्यांकन करण्यासाठी वापरला जातो.
- आम्ही लेबल केलेल्या डेटाशिवाय चाचणी करतो आणि नंतर परिणामांची पुष्टी करण्यासाठी लेबले वापरतो.
- उर्वरित 30% चाचणी डेटासेट म्हणून वापरला जातो.
13. मशीन लर्निंगमध्ये हायपोथेसिस म्हणजे काय?
मशीन लर्निंग, इनपुटला आउटपुट जोडणारे फंक्शन अधिक चांगल्या प्रकारे समजून घेण्यासाठी विद्यमान डेटासेटचा वापर सक्षम करते. याला फंक्शन ऍप्रॉक्सिमेशन असे म्हणतात.
या प्रकरणात, दिलेल्या परिस्थितीवर आधारित सर्व कल्पनीय निरीक्षणे शक्य तितक्या चांगल्या प्रकारे हस्तांतरित करण्यासाठी अज्ञात लक्ष्य कार्यासाठी अंदाजे वापरणे आवश्यक आहे.
मशीन लर्निंगमध्ये, गृहीतक हे एक मॉडेल आहे जे लक्ष्य कार्याचा अंदाज लावण्यास आणि योग्य इनपुट-टू-आउटपुट मॅपिंग पूर्ण करण्यात मदत करते.
अल्गोरिदमची निवड आणि डिझाइन संभाव्य गृहितकांच्या जागेची व्याख्या करण्यास अनुमती देते जी मॉडेलद्वारे दर्शविली जाऊ शकते.
एका गृहीतकासाठी, लोअरकेस h (h) वापरला जातो, परंतु संपूर्ण गृहीतकाच्या जागेसाठी कॅपिटल h (H) वापरला जातो. आम्ही या नोटेशन्सचे थोडक्यात पुनरावलोकन करू:
- गृहीतक (h) हे एक विशिष्ट मॉडेल आहे जे इनपुट ते आउटपुटचे मॅपिंग सुलभ करते, जे नंतर मूल्यमापन आणि भविष्यवाणीसाठी वापरले जाऊ शकते.
- गृहीतक संच (H) ही गृहितकांची शोधण्यायोग्य जागा आहे जी आउटपुटमध्ये इनपुट मॅप करण्यासाठी वापरली जाऊ शकते. इश्यू फ्रेमिंग, मॉडेल आणि मॉडेल कॉन्फिगरेशन ही जेनेरिक मर्यादांची काही उदाहरणे आहेत.
14. मशीन लर्निंग ओव्हरफिटिंग म्हणजे काय आणि ते कसे टाळता येईल?
जेव्हा मशीन अपुऱ्या डेटासेटमधून शिकण्याचा प्रयत्न करते तेव्हा ओव्हरफिटिंग होते.
परिणामी, ओव्हरफिटिंगचा डेटा व्हॉल्यूमशी विपरित संबंध आहे. क्रॉस-व्हॅलिडेशन दृष्टिकोन लहान डेटासेटसाठी ओव्हरफिटिंग टाळण्याची परवानगी देतो. या पद्धतीमध्ये डेटासेट दोन भागांमध्ये विभागलेला आहे.
चाचणी आणि प्रशिक्षणासाठी डेटासेटमध्ये हे दोन भाग असतील. प्रशिक्षण डेटासेट मॉडेल तयार करण्यासाठी वापरला जातो, तर चाचणी डेटासेट भिन्न इनपुट वापरून मॉडेलचे मूल्यांकन करण्यासाठी वापरला जातो.
ओव्हरफिटिंग कसे टाळायचे ते हे आहे.
15. Naive Bayes क्लासिफायर्स नेमके काय आहेत?
विविध वर्गीकरण पद्धती नेव्ह बेज क्लासिफायर्स बनवतात. हे वर्गीकरण म्हणून ओळखल्या जाणार्या अल्गोरिदमचा संच सर्व समान मूलभूत कल्पनेवर कार्य करतात.
भोळ्या बायेस वर्गीकरणकर्त्यांनी बनवलेले गृहीतक असे आहे की एका वैशिष्ट्याची उपस्थिती किंवा अनुपस्थिती दुसर्या वैशिष्ट्याच्या उपस्थिती किंवा अनुपस्थितीवर कोणताही परिणाम करत नाही.
दुसऱ्या शब्दांत, यालाच आपण "निरागस" म्हणतो कारण ते प्रत्येक डेटासेट विशेषता तितकीच महत्त्वाची आणि स्वतंत्र आहे असे गृहीत धरते.
निरागस बायेस क्लासिफायर्स वापरून वर्गीकरण केले जाते. ते वापरण्यास सोपे आहेत आणि जेव्हा स्वातंत्र्याचा पूर्वाधार खरा असेल तेव्हा अधिक जटिल भविष्यसूचकांपेक्षा चांगले परिणाम देतात.
मजकूर विश्लेषण, स्पॅम फिल्टरिंग आणि शिफारस प्रणालींमध्ये, ते कार्यरत आहेत.
16. कॉस्ट फंक्शन्स आणि लॉस फंक्शन्सचा अर्थ काय?
"लॉस फंक्शन" हा वाक्यांश जेव्हा डेटाचा फक्त एक भाग विचारात घेतला जातो तेव्हा तोटा गणना करण्याच्या प्रक्रियेस सूचित करतो.
याउलट, आम्ही असंख्य डेटासाठी एकूण चुकांचे प्रमाण निर्धारित करण्यासाठी खर्च कार्याचा वापर करतो. कोणताही महत्त्वपूर्ण फरक अस्तित्वात नाही.
दुस-या शब्दात सांगायचे तर, खर्च फंक्शन्स संपूर्ण प्रशिक्षण डेटासेटसाठी फरक एकत्रित करतात, तर नुकसान कार्ये एका रेकॉर्डसाठी वास्तविक आणि अंदाजित मूल्यांमधील फरक कॅप्चर करण्यासाठी डिझाइन केलेली आहेत.
17. जनरेटिव्ह मॉडेलला भेदभाव करणाऱ्या मॉडेलपासून काय वेगळे करते?
एक भेदभाव मॉडेल अनेक डेटा श्रेणींमधील फरक शिकतो. जनरेटिव्ह मॉडेल विविध डेटा प्रकारांवर आधारित आहे.
वर्गीकरण समस्यांवर, भेदभाव करणारे मॉडेल सहसा इतर मॉडेल्सपेक्षा जास्त कामगिरी करतात.
18. प्रकार I आणि प्रकार II त्रुटींमधील फरकांचे वर्णन करा.
फॉल्स पॉझिटिव्ह टाइप I एररच्या श्रेणीत येतात, तर खोटे नकारात्मक टाइप II एरर अंतर्गत येतात (जेव्हा प्रत्यक्षात काहीही झाले नाही असा दावा करणे).
19. मशीन लर्निंगमध्ये, एन्सेम्बल लर्निंग तंत्र काय आहे?
एन्सेम्बल लर्निंग नावाचे तंत्र अधिक प्रभावी मॉडेल तयार करण्यासाठी अनेक मशीन लर्निंग मॉडेल्सचे मिश्रण करते.
एक मॉडेल विविध कारणांमुळे बदलू शकते. अनेक कारणे आहेत:
- विविध लोकसंख्या
- विविध गृहीतके
- विविध मॉडेलिंग पद्धती
मॉडेलचे प्रशिक्षण आणि चाचणी डेटा वापरताना आम्हाला समस्या येईल. पूर्वाग्रह, भिन्नता आणि अपरिवर्तनीय त्रुटी हे या चुकीचे संभाव्य प्रकार आहेत.
आता, आम्ही मॉडेलमधील पूर्वाग्रह आणि भिन्नता यांच्यातील या समतोलाला बायस-वेरियंस ट्रेड-ऑफ म्हणतो आणि ते नेहमी अस्तित्वात असले पाहिजे. हे ट्रेड-ऑफ एकत्रित शिक्षणाच्या वापराद्वारे पूर्ण केले जाते.
जरी विविध जोडपद्धती उपलब्ध आहेत, तरीही अनेक मॉडेल्स एकत्र करण्यासाठी दोन सामान्य धोरणे आहेत:
- बॅगिंग नावाचा स्थानिक दृष्टिकोन अतिरिक्त प्रशिक्षण संच तयार करण्यासाठी प्रशिक्षण संच वापरतो.
- बूस्टिंग, एक अधिक अत्याधुनिक तंत्र: बॅगिंगप्रमाणेच, बूस्टिंगचा वापर प्रशिक्षण सेटसाठी आदर्श वेटिंग फॉर्म्युला शोधण्यासाठी केला जातो.
20. पॅरामेट्रिक मॉडेल्स नक्की काय आहेत? एक उदाहरण द्या.
पॅरामेट्रिक मॉडेल्समध्ये मर्यादित प्रमाणात पॅरामीटर्स आहेत. डेटाचा अंदाज लावण्यासाठी, तुम्हाला फक्त मॉडेलचे पॅरामीटर्स माहित असणे आवश्यक आहे.
खालील विशिष्ट उदाहरणे आहेत: लॉजिस्टिक रीग्रेशन, रेखीय प्रतिगमन आणि रेखीय SVM. नॉन-पॅरामेट्रिक मॉडेल्स लवचिक असतात कारण त्यात अमर्यादित पॅरामीटर्स असू शकतात.
डेटा अंदाजांसाठी मॉडेलचे पॅरामीटर्स आणि निरीक्षण केलेल्या डेटाची स्थिती आवश्यक आहे. येथे काही विशिष्ट उदाहरणे आहेत: विषय मॉडेल, निर्णय झाडे, आणि k-जवळचे शेजारी.
21. सहयोगी फिल्टरिंगचे वर्णन करा. तसेच सामग्री-आधारित फिल्टरिंग?
अनुकूल सामग्री सूचना तयार करण्यासाठी प्रयत्न केलेली आणि खरी पद्धत म्हणजे सहयोगी फिल्टरिंग.
सहयोगी फिल्टरिंग नावाच्या शिफारस प्रणालीचा एक प्रकार सामायिक स्वारस्यांसह वापरकर्ता प्राधान्ये संतुलित करून नवीन सामग्रीचे भाकीत करते.
वापरकर्ता प्राधान्ये ही एकमेव गोष्ट आहे जी सामग्री-आधारित शिफारस प्रणाली विचारात घेते. वापरकर्त्याच्या पूर्वीच्या निवडींच्या प्रकाशात, संबंधित सामग्रीमधून नवीन शिफारसी प्रदान केल्या जातात.
22. टाईम सिरीज म्हणजे नक्की काय?
वेळ मालिका म्हणजे चढत्या क्रमाने संख्यांचा संग्रह. पूर्वनिर्धारित कालावधीत, ते निवडलेल्या डेटा पॉइंटच्या हालचालीवर लक्ष ठेवते आणि वेळोवेळी डेटा पॉइंट्स कॅप्चर करते.
वेळ मालिकेसाठी किमान किंवा कमाल वेळ इनपुट नाही.
वेळ मालिका विश्लेषक त्यांच्या अद्वितीय आवश्यकतांनुसार डेटाचे विश्लेषण करण्यासाठी वारंवार वापरतात.
23. ग्रेडियंट बूस्टिंग आणि रँडम फॉरेस्ट अल्गोरिदममधील फरकांचे वर्णन करा.
यादृच्छिक वन:
- मोठ्या संख्येने निर्णय वृक्ष शेवटी एकत्र केले जातात आणि यादृच्छिक जंगले म्हणून ओळखले जातात.
- ग्रेडियंट बूस्टिंगमुळे प्रत्येक झाड इतरांपेक्षा स्वतंत्रपणे तयार होते, तर यादृच्छिक जंगल प्रत्येक झाड एका वेळी एक तयार करते.
- मल्टीक्लास ऑब्जेक्ट शोध यादृच्छिक जंगलांसह चांगले कार्य करते.
ग्रेडियंट बूस्टिंग:
- यादृच्छिक जंगले प्रक्रियेच्या शेवटी निर्णय झाडांमध्ये सामील होतात, तर ग्रेडियंट बूस्टिंग मशीन्स त्यांना सुरुवातीपासून एकत्र करतात.
- पॅरामीटर्स योग्यरित्या समायोजित केले असल्यास, ग्रेडियंट बूस्टिंग परिणामांच्या बाबतीत यादृच्छिक जंगलांना मागे टाकते, परंतु डेटा सेटमध्ये बरेच आउटलियर, विसंगती किंवा आवाज असल्यास ही स्मार्ट निवड नाही कारण यामुळे मॉडेल ओव्हरफिट होऊ शकते.
- जेव्हा असंतुलित डेटा असतो, जसे की रिअल-टाइम जोखीम मूल्यांकन असते, तेव्हा ग्रेडियंट बूस्टिंग चांगली कामगिरी करते.
24. तुम्हाला कन्फ्युजन मॅट्रिक्सची गरज का आहे? हे काय आहे?
गोंधळ मॅट्रिक्स म्हणून ओळखले जाणारे टेबल, कधीकधी एरर मॅट्रिक्स म्हणून ओळखले जाते, वर्गीकरण मॉडेल किंवा क्लासिफायर, चाचणी डेटाच्या सेटवर किती चांगले कार्य करते हे दाखवण्यासाठी मोठ्या प्रमाणावर वापरले जाते ज्यासाठी वास्तविक मूल्ये ज्ञात आहेत.
हे आम्हाला मॉडेल किंवा अल्गोरिदम कसे कार्य करते हे पाहण्यास सक्षम करते. विविध अभ्यासक्रमांमधील गैरसमज शोधणे आपल्यासाठी सोपे करते.
हे मॉडेल किंवा अल्गोरिदम किती चांगले कार्य करते याचे मूल्यांकन करण्याचा एक मार्ग म्हणून काम करते.
वर्गीकरण मॉडेलचे अंदाज एका गोंधळ मॅट्रिक्समध्ये संकलित केले जातात. योग्य आणि चुकीच्या अंदाजांची एकूण संख्या कमी करण्यासाठी प्रत्येक वर्ग लेबलची गणना मूल्ये वापरली गेली.
हे क्लासिफायरद्वारे केलेल्या चुका तसेच क्लासिफायरमुळे झालेल्या विविध प्रकारच्या त्रुटींचे तपशील प्रदान करते.
25. तत्त्व घटक विश्लेषण म्हणजे नेमके काय?
एकमेकांशी सहसंबंधित व्हेरिएबल्सची संख्या कमी करून, डेटा संकलनाची परिमाण कमी करणे हे लक्ष्य आहे. परंतु शक्य तितकी विविधता ठेवणे महत्वाचे आहे.
व्हेरिएबल्स पूर्णपणे नवीन व्हेरिएबल्समध्ये बदलले जातात ज्याला मुख्य घटक म्हणतात.
हे पीसी ऑर्थोगोनल आहेत कारण ते कोव्हेरिअन्स मॅट्रिक्सचे इजेनव्हेक्टर्स आहेत.
26. PCA (मुख्य घटक विश्लेषण) साठी घटक रोटेशन इतके महत्त्वाचे का आहे?
PCA मध्ये रोटेशन महत्त्वपूर्ण आहे कारण ते प्रत्येक घटकाद्वारे प्राप्त केलेल्या भिन्नतांमधील पृथक्करण ऑप्टिमाइझ करते, ज्यामुळे घटकांचे स्पष्टीकरण सोपे होते.
घटक फिरवले नसल्यास घटक भिन्नता व्यक्त करण्यासाठी आम्हाला विस्तारित घटकांची आवश्यकता असते.
27. नियमितीकरण आणि सामान्यीकरण एकमेकांपासून कसे वेगळे आहेत?
सामान्यीकरण:
सामान्यीकरण दरम्यान डेटा बदलला जातो. जर डेटामध्ये स्केल खूप भिन्न असतील, विशेषत: कमी ते उच्च पर्यंत तुम्ही डेटा सामान्य करा. प्रत्येक स्तंभ समायोजित करा जेणेकरून मूलभूत आकडेवारी सर्व सुसंगत असेल.
अचूकता कमी होणार नाही याची खात्री करण्यासाठी, हे उपयुक्त ठरू शकते. आवाजाकडे दुर्लक्ष करून सिग्नल शोधणे हे मॉडेल प्रशिक्षणाचे एक उद्दिष्ट आहे.
त्रुटी कमी करण्यासाठी मॉडेलला पूर्ण नियंत्रण दिले असल्यास ओव्हरफिटिंगची शक्यता असते.
नियमितीकरण:
नियमितीकरणामध्ये, अंदाज कार्य सुधारित केले जाते. हे नियमितीकरणाद्वारे काही नियंत्रणाच्या अधीन आहे, जे क्लिष्ट गोष्टींपेक्षा सोप्या फिटिंग फंक्शन्सला अनुकूल करते.
28. सामान्यीकरण आणि मानकीकरण एकमेकांपेक्षा वेगळे कसे आहेत?
वैशिष्ट्य स्केलिंगसाठी सर्वात जास्त वापरल्या जाणार्या दोन तंत्रे म्हणजे सामान्यीकरण आणि मानकीकरण.
सामान्यीकरण:
- [०,१] श्रेणीनुसार डेटा पुन्हा स्केल करणे सामान्यीकरण म्हणून ओळखले जाते.
- जेव्हा सर्व पॅरामीटर्समध्ये समान सकारात्मक स्केल असणे आवश्यक आहे, तेव्हा सामान्यीकरण उपयुक्त आहे, परंतु डेटा सेटचे आउटलियर गमावले आहेत.
नियमितीकरण:
- मानकीकरण प्रक्रियेचा भाग म्हणून 0 ची सरासरी आणि 1 चे मानक विचलन करण्यासाठी डेटा पुन्हा स्केल केला जातो (युनिट भिन्नता)
29. "वेरियंस इन्फ्लेशन फॅक्टर" चा नेमका अर्थ काय?
मॉडेलच्या भिन्नतेचे आणि मॉडेलच्या भिन्नतेचे गुणोत्तर केवळ एक स्वतंत्र चल असलेल्या भिन्नता चलनवाढ घटक (VIF) म्हणून ओळखले जाते.
VIF अनेक रीग्रेशन व्हेरिएबल्सच्या संचामध्ये उपस्थित असलेल्या मल्टीकोलाइनरिटीच्या प्रमाणाचा अंदाज लावतो.
एक स्वतंत्र व्हेरिएबल व्हेरियंस असलेले मॉडेल (VIF) मॉडेलचे भिन्नता
30. प्रशिक्षण संचाच्या आकारावर आधारित, तुम्ही क्लासिफायर कसे निवडता?
एक उच्च पूर्वाग्रह, कमी भिन्नता मॉडेल लहान प्रशिक्षण सेटसाठी चांगले कार्य करते कारण ओव्हरफिटिंगची शक्यता कमी असते. भोळे बायेस हे एक उदाहरण आहे.
मोठ्या प्रशिक्षण संचासाठी अधिक क्लिष्ट परस्परसंवादाचे प्रतिनिधित्व करण्यासाठी, कमी पूर्वाग्रह आणि उच्च भिन्नता असलेले मॉडेल श्रेयस्कर आहे. लॉजिस्टिक रिग्रेशन हे एक उत्तम उदाहरण आहे.
31. मशीन लर्निंगमधील कोणत्या अल्गोरिदमला "आळशी शिकणारा" म्हणून संबोधले जाते आणि का?
एक आळशी शिकणारा, KNN हा एक मशीन लर्निंग अल्गोरिदम आहे. कारण K-NN प्रशिक्षण डेटामधून कोणतीही मशीन-शिकलेली मूल्ये किंवा व्हेरिएबल्स शिकण्याऐवजी प्रत्येक वेळी वर्गीकरण करू इच्छित अंतराची गतीशीलपणे गणना करते, ते प्रशिक्षण डेटासेट लक्षात ठेवते.
हे K-NN ला आळशी विद्यार्थी बनवते.
32. आरओसी वक्र आणि एयूसी काय आहेत?
सर्व थ्रेशोल्डवर वर्गीकरण मॉडेलचे कार्यप्रदर्शन आरओसी वक्र द्वारे ग्राफिकरित्या दर्शविले जाते. यात खरे सकारात्मक दर आणि खोटे सकारात्मक दर निकष आहेत.
सोप्या भाषेत सांगायचे तर आरओसी वक्राखालील क्षेत्र AUC (आरओसी वक्राखालील क्षेत्र) म्हणून ओळखले जाते. ROC वक्रचे द्विमितीय क्षेत्र (0,0) ते AUC पर्यंत मोजले जाते (1,1). बायनरी वर्गीकरण मॉडेलचे मूल्यांकन करण्यासाठी, ते कार्यप्रदर्शन आकडेवारी म्हणून वापरले जाते.
33. हायपरपॅरामीटर्स म्हणजे काय? त्यांना मॉडेल पॅरामीटर्समधून अद्वितीय काय बनवते?
मॉडेलचे अंतर्गत व्हेरिएबल मॉडेल पॅरामीटर म्हणून ओळखले जाते. प्रशिक्षण डेटाचा वापर करून, पॅरामीटरचे मूल्य अंदाजे केले जाते.
मॉडेलला अज्ञात, हायपरपॅरामीटर एक व्हेरिएबल आहे. डेटावरून मूल्य निर्धारित केले जाऊ शकत नाही, अशा प्रकारे मॉडेल पॅरामीटर्सची गणना करण्यासाठी ते वारंवार वापरले जातात.
34. F1 स्कोअर, रिकॉल आणि अचूकता म्हणजे काय?
गोंधळ मापन हे वर्गीकरण मॉडेलची परिणामकारकता मोजण्यासाठी वापरलेले मेट्रिक आहे. गोंधळ मेट्रिक चांगल्या प्रकारे स्पष्ट करण्यासाठी खालील वाक्ये वापरली जाऊ शकतात:
TP: खरे सकारात्मक - ही सकारात्मक मूल्ये आहेत जी योग्यरित्या अपेक्षित होती. हे सूचित करते की प्रक्षेपित वर्ग आणि वास्तविक वर्गाची मूल्ये दोन्ही सकारात्मक आहेत.
TN: खरे नकारात्मक- ही प्रतिकूल मूल्ये आहेत ज्यांचा अचूक अंदाज लावला गेला होता. हे सूचित करते की वास्तविक वर्गाचे मूल्य आणि अपेक्षित वर्ग दोन्ही नकारात्मक आहेत.
जेव्हा तुमचा वास्तविक वर्ग अपेक्षित वर्गापेक्षा वेगळा असतो तेव्हा ही मूल्ये-खोटे सकारात्मक आणि चुकीचे नकारात्मक-आढळतात.
आता,
वास्तविक वर्गात केलेल्या सर्व निरीक्षणांच्या खऱ्या सकारात्मक दराच्या (TP) गुणोत्तराला रिकॉल म्हणतात, याला संवेदनशीलता देखील म्हणतात.
रिकॉल TP/(TP+FN) आहे.
अचूकता हे सकारात्मक भविष्यसूचक मूल्याचे एक मोजमाप आहे, जे मॉडेलने खरोखर अंदाज लावलेल्या सकारात्मकतेच्या संख्येशी ते अचूकपणे किती अचूक सकारात्मक अंदाज लावते याची तुलना करते.
अचूकता TP/(TP + FP) आहे
समजण्यासाठी सर्वात सोपा कार्यप्रदर्शन मेट्रिक म्हणजे अचूकता, जे सर्व निरीक्षणांसाठी योग्यरित्या अंदाज केलेल्या निरीक्षणांचे प्रमाण आहे.
अचूकता (TP+TN)/(TP+FP+FN+TN) च्या बरोबरीची आहे.
F1 स्कोअर प्रदान करण्यासाठी प्रेसिजन आणि रिकॉलचे वजन आणि सरासरी केली जाते. परिणामी, हा स्कोअर चुकीचा सकारात्मक आणि चुकीचा नकारात्मक दोन्ही मानतो.
F1 अचूकतेपेक्षा वारंवार अधिक मौल्यवान आहे, विशेषतः जर तुमच्याकडे असमान वर्ग वितरण असेल, जरी अंतर्ज्ञानाने ते अचूकतेइतके समजणे सोपे नाही.
जेव्हा खोट्या सकारात्मक आणि खोट्या नकारात्मकांची किंमत तुलना करता येते तेव्हा सर्वोत्तम अचूकता प्राप्त होते. खोट्या सकारात्मक आणि खोट्या नकारात्मकांशी संबंधित खर्च लक्षणीयरीत्या भिन्न असल्यास अचूकता आणि रिकॉल दोन्ही समाविष्ट करणे श्रेयस्कर आहे.
35. क्रॉस-व्हॅलिडेशन म्हणजे नक्की काय?
मशीन लर्निंगमध्ये क्रॉस-व्हॅलिडेशन नावाचा सांख्यिकीय पुनर्नमुनाकरण दृष्टीकोन अनेक फेऱ्यांमध्ये मशीन लर्निंग अल्गोरिदमचे प्रशिक्षण आणि मूल्यांकन करण्यासाठी अनेक डेटासेट उपसंच वापरतो.
मॉडेलला प्रशिक्षित करण्यासाठी न वापरलेल्या डेटाच्या एका नवीन बॅचची चाचणी क्रॉस-व्हॅलिडेशन वापरून मॉडेलने किती अचूकपणे केली आहे हे पाहण्यासाठी केले जाते. क्रॉस-व्हॅलिडेशनद्वारे डेटा ओव्हरफिटिंगला प्रतिबंध केला जातो.
के-फोल्ड बहुतेकदा वापरल्या जाणार्या रीसॅम्पलिंग पद्धतीमुळे संपूर्ण डेटासेट समान आकाराच्या K सेटमध्ये विभाजित होतो. त्याला क्रॉस-व्हॅलिडेशन म्हणतात.
36. समजा तुमच्या मॉडेलमध्ये लक्षणीय फरक आहे हे तुम्हाला आढळले आहे. तुमच्या मते, ही परिस्थिती हाताळण्यासाठी कोणता अल्गोरिदम सर्वात योग्य आहे?
उच्च परिवर्तनशीलता व्यवस्थापित करणे
मोठ्या फरकांच्या समस्यांसाठी आपण बॅगिंग तंत्राचा वापर केला पाहिजे.
डेटाचे उपसमूहांमध्ये विभाजन करण्यासाठी बॅगिंग अल्गोरिदमद्वारे यादृच्छिक डेटाचे पुनरावृत्ती केलेले सॅम्पलिंग वापरले जाईल. एकदा डेटा विभाजित केल्यावर, आम्ही नियम तयार करण्यासाठी यादृच्छिक डेटा आणि विशिष्ट प्रशिक्षण प्रक्रियेचा वापर करू शकतो.
त्यानंतर, मॉडेलचे अंदाज एकत्र करण्यासाठी मतदानाचा वापर केला जाऊ शकतो.
37. रिज रिग्रेशनला लासो रिग्रेशनपासून काय वेगळे करते?
दोन मोठ्या प्रमाणात वापरल्या जाणार्या नियमितीकरण पद्धती म्हणजे Lasso (L1 देखील म्हणतात) आणि Ridge (कधीकधी L2 म्हणतात) प्रतिगमन. ते डेटाचे ओव्हरफिटिंग टाळण्यासाठी वापरले जातात.
सर्वोत्तम उपाय शोधण्यासाठी आणि गुंतागुंत कमी करण्यासाठी, या तंत्रांचा वापर गुणांकांना शिक्षा देण्यासाठी केला जातो. गुणांकांच्या एकूण मूल्यांना दंडित करून, लॅसो रिग्रेशन चालते.
रिज किंवा L2 रीग्रेशनमधील पेनल्टी फंक्शन गुणांकांच्या वर्गांच्या बेरजेवरून घेतले जाते.
38. कोणते अधिक महत्त्वाचे आहे: मॉडेल कामगिरी किंवा मॉडेल अचूकता? तुम्ही कोणाला आणि का पसंत कराल?
हा एक भ्रामक प्रश्न आहे, अशा प्रकारे प्रथम मॉडेल परफॉर्मन्स म्हणजे काय हे समजून घेतले पाहिजे. कार्यप्रदर्शन गती म्हणून परिभाषित केले असल्यास, ते अनुप्रयोगाच्या प्रकारावर अवलंबून असते; रिअल-टाइम परिस्थितीचा समावेश असलेल्या कोणत्याही अनुप्रयोगास महत्त्वपूर्ण घटक म्हणून उच्च गतीची आवश्यकता असते.
उदाहरणार्थ, क्वेरी परिणाम येण्यास खूप वेळ लागल्यास सर्वोत्तम शोध परिणाम कमी मूल्यवान होतील.
अचूकतेपेक्षा अचूकता आणि रिकॉलला प्राधान्य का दिले पाहिजे याचे औचित्य म्हणून कार्यप्रदर्शन वापरले जात असल्यास, असंतुलित असलेल्या कोणत्याही डेटा सेटसाठी व्यावसायिक केस प्रदर्शित करण्यासाठी अचूकतेपेक्षा F1 स्कोअर अधिक उपयुक्त ठरेल.
39. तुम्ही असमानता असलेला डेटासेट कसा व्यवस्थापित कराल?
असंतुलित डेटासेट सॅम्पलिंग तंत्राचा फायदा घेऊ शकतो. सॅम्पलिंग एकतर अंडर किंवा ओव्हर सॅम्पल पद्धतीने केले जाऊ शकते.
सॅम्पलिंग अंतर्गत आम्हाला अल्पसंख्याक वर्गाशी जुळण्यासाठी बहुसंख्य वर्गाचा आकार कमी करण्यास अनुमती देते, जे स्टोरेज आणि रन-टाइम अंमलबजावणीच्या संदर्भात गती वाढविण्यास मदत करते परंतु मूल्यवान डेटाचे नुकसान देखील करू शकते.
ओव्हरसॅम्पलिंगमुळे माहिती गमावण्याच्या समस्येवर उपाय करण्यासाठी, आम्ही अल्पसंख्याक वर्गाचे नमुने तयार करतो; तरीसुद्धा, यामुळे आपल्याला ओव्हरफिटिंगच्या समस्या येतात.
अतिरिक्त धोरणांमध्ये हे समाविष्ट आहे:
- क्लस्टर-आधारित ओव्हर सॅम्पलिंग- या परिस्थितीत अल्पसंख्याक आणि बहुसंख्य वर्ग उदाहरणे वैयक्तिकरित्या K-मीन्स क्लस्टरिंग तंत्राच्या अधीन आहेत. हे डेटासेट क्लस्टर्स शोधण्यासाठी केले जाते. त्यानंतर, प्रत्येक क्लस्टरचे ओव्हरसॅम्पल केले जाते जेणेकरून सर्व वर्गांचा आकार समान असेल आणि वर्गातील सर्व क्लस्टर्समध्ये समान संख्या असेल.
- SMOTE: सिंथेटिक मायनॉरिटी ओव्हर-सॅम्पलिंग तंत्र- अल्पसंख्याक वर्गातील डेटाचा एक तुकडा उदाहरण म्हणून वापरला जातो, त्यानंतर त्याच्याशी तुलना करता येणारी अतिरिक्त कृत्रिम उदाहरणे तयार केली जातात आणि मूळ डेटासेटमध्ये जोडली जातात. ही पद्धत संख्यात्मक डेटा बिंदूंसह चांगले कार्य करते.
40. तुम्ही बूस्टिंग आणि बॅगिंगमध्ये फरक कसा करू शकता?
एन्सेम्बल टेक्निकमध्ये बॅगिंग आणि बूस्टिंग म्हणून ओळखल्या जाणार्या आवृत्त्या आहेत.
बॅगिंग-
उच्च भिन्नता असलेल्या अल्गोरिदमसाठी, बॅगिंग हे भिन्नता कमी करण्यासाठी वापरले जाणारे तंत्र आहे. वर्गीकरण करणार्यांचे असे एक कुटुंब जे पूर्वाग्रहाला प्रवण असते ते म्हणजे निर्णय वृक्ष कुटुंब.
निर्णय वृक्षांना ज्या डेटाचे प्रशिक्षण दिले जाते त्याचा त्यांच्या कार्यक्षमतेवर महत्त्वपूर्ण प्रभाव पडतो. यामुळे, अगदी उच्च फाइन-ट्यूनिंगसह देखील, परिणामांचे सामान्यीकरण कधीकधी त्यांच्यामध्ये प्राप्त करणे अधिक कठीण असते.
निर्णय वृक्ष प्रशिक्षण डेटा बदलल्यास, परिणाम लक्षणीय बदलू शकतात.
परिणामी, बॅगिंगचा वापर केला जातो, ज्यामध्ये अनेक निर्णय वृक्ष तयार केले जातात, त्यापैकी प्रत्येकाला मूळ डेटाचा नमुना वापरून प्रशिक्षण दिले जाते आणि अंतिम परिणाम या सर्व भिन्न मॉडेल्सची सरासरी आहे.
बूस्टिंग:
बूस्टिंग हे एन-कमकुवत क्लासिफायर सिस्टमसह अंदाज बांधण्याचे तंत्र आहे ज्यामध्ये प्रत्येक कमकुवत क्लासिफायर त्याच्या मजबूत क्लासिफायरच्या कमतरतेची पूर्तता करतो. दिलेल्या डेटा सेटवर "कमकुवत क्लासिफायर" म्हणून वाईट कामगिरी करणाऱ्या क्लासिफायरचा आम्ही संदर्भ देतो.
बूस्टिंग ही अल्गोरिदम ऐवजी एक प्रक्रिया आहे. लॉजिस्टिक रिग्रेशन आणि उथळ निर्णय झाडे ही कमकुवत वर्गीकरणाची सामान्य उदाहरणे आहेत.
Adaboost, Gradient Boosting, आणि XGBoost हे दोन सर्वात लोकप्रिय बूस्टिंग अल्गोरिदम आहेत, तथापि, बरेच काही आहेत.
41. प्रेरक आणि व्युत्पन्न शिक्षणातील फरक स्पष्ट करा.
निरीक्षण केलेल्या उदाहरणांच्या संचामधून उदाहरणाद्वारे शिकताना, मॉडेल सामान्यीकृत निष्कर्षापर्यंत पोहोचण्यासाठी प्रेरक शिक्षणाचा वापर करते. दुसरीकडे, वजावटी शिक्षणासह, मॉडेल स्वतःचे तयार करण्यापूर्वी परिणाम वापरते.
प्रेरक शिक्षण ही निरीक्षणातून निष्कर्ष काढण्याची प्रक्रिया आहे.
डिडक्टिव लर्निंग ही निष्कर्षांवर आधारित निरीक्षणे तयार करण्याची प्रक्रिया आहे.
निष्कर्ष
अभिनंदन! मशीन लर्निंगसाठी हे टॉप 40 आणि त्यावरील मुलाखतीचे प्रश्न आहेत ज्यांची उत्तरे तुम्हाला आता माहित आहेत. डेटा सायन्स आणि कृत्रिम बुद्धिमत्ता तंत्रज्ञानाच्या प्रगतीप्रमाणे व्यवसायांना मागणी राहील.
जे उमेदवार या अत्याधुनिक तंत्रज्ञानाचे त्यांचे ज्ञान अद्ययावत करतात आणि त्यांचे कौशल्य संच सुधारतात त्यांना स्पर्धात्मक पगारासह विविध प्रकारच्या रोजगाराच्या संधी मिळू शकतात.
तुम्ही आता मुलाखतींना उत्तरे देऊन पुढे जाऊ शकता कारण तुम्हाला काही मोठ्या प्रमाणावर विचारल्या जाणार्या मशीन लर्निंग मुलाखतीच्या प्रश्नांची उत्तरे कशी द्यायची याची ठोस समज आहे.
तुमच्या उद्दिष्टांवर अवलंबून, पुढील चरण घ्या. हॅशडॉर्कला भेट देऊन मुलाखतीची तयारी करा मुलाखत मालिका.
प्रत्युत्तर द्या