టాప్ 40+ మెషిన్ లెర్నింగ్ ఇంటర్వ్యూ ప్రశ్నలు (2024)

విషయ సూచిక[దాచు][చూపండి]

1. మెషిన్ లెర్నింగ్, ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ మరియు డీప్ లెర్నింగ్ మధ్య తేడాలను వివరించండి.
2. దయచేసి వివిధ రకాల మెషిన్ లెర్నింగ్ గురించి వివరించండి.
3. బయాస్ వర్సెస్ వేరియెన్స్ ట్రేడ్-ఆఫ్ అంటే ఏమిటి?
4. మెషిన్ లెర్నింగ్ అల్గోరిథంలు కాలక్రమేణా గణనీయంగా అభివృద్ధి చెందాయి. ఇచ్చిన డేటా సెట్‌ను ఉపయోగించుకోవడానికి సరైన అల్గారిథమ్‌ను ఎలా ఎంచుకోవాలి?
5. సహసంబంధం మరియు సహసంబంధం ఎలా విభిన్నంగా ఉంటాయి?
6. మెషిన్ లెర్నింగ్‌లో, క్లస్టరింగ్ అంటే ఏమిటి?
7. మీరు ఇష్టపడే మెషిన్ లెర్నింగ్ అల్గారిథమ్ ఏమిటి?
8. మెషిన్ లెర్నింగ్‌లో లీనియర్ రిగ్రెషన్: ఇది ఏమిటి?
9. KNN మరియు k-మీన్స్ క్లస్టరింగ్ మధ్య తేడాలను వివరించండి.
10. "ఎంపిక పక్షపాతం" అంటే మీకు అర్థం ఏమిటి?
11. బేయెస్ సిద్ధాంతం అంటే ఏమిటి?
12. మెషిన్ లెర్నింగ్ మోడల్‌లో, 'ట్రైనింగ్ సెట్' మరియు 'టెస్ట్ సెట్' అంటే ఏమిటి?
13. మెషిన్ లెర్నింగ్‌లో పరికల్పన అంటే ఏమిటి?
14. మెషిన్ లెర్నింగ్ ఓవర్ ఫిట్టింగ్ అంటే ఏమిటి మరియు దానిని ఎలా నిరోధించవచ్చు?
15. నైవ్ బేస్ వర్గీకరణలు అంటే ఏమిటి?
16. కాస్ట్ ఫంక్షన్‌లు మరియు లాస్ ఫంక్షన్‌లు అంటే ఏమిటి?
17. ఉత్పాదక నమూనాను వివక్షతతో కూడిన నమూనా నుండి ఏది వేరు చేస్తుంది?
18. టైప్ I మరియు టైప్ II లోపాల మధ్య వైవిధ్యాలను వివరించండి.
19. మెషిన్ లెర్నింగ్‌లో, సమిష్టి అభ్యాస సాంకేతికత అంటే ఏమిటి?
20. పారామెట్రిక్ మోడల్స్ అంటే ఏమిటి? ఒక ఉదాహరణ ఇవ్వండి.
21. సహకార వడపోతను వివరించండి. అలాగే కంటెంట్ ఆధారిత ఫిల్టరింగ్?
22. టైమ్ సిరీస్ ద్వారా మీరు సరిగ్గా అర్థం ఏమిటి?
23. గ్రేడియంట్ బూస్టింగ్ మరియు రాండమ్ ఫారెస్ట్ అల్గారిథమ్‌ల మధ్య వైవిధ్యాలను వివరించండి.
24. మీకు గందరగోళ మాతృక ఎందుకు అవసరం? ఇది ఏమిటి?
25. సూత్రప్రాయ భాగాల విశ్లేషణ అంటే ఏమిటి?
26. PCA (ప్రిన్సిపల్ కాంపోనెంట్ అనాలిసిస్)కి కాంపోనెంట్ రొటేషన్ ఎందుకు చాలా కీలకం?
27. క్రమబద్ధీకరణ మరియు సాధారణీకరణ ఒకదానికొకటి ఎలా మారుతాయి?
28. సాధారణీకరణ మరియు ప్రమాణీకరణ ఒకదానికొకటి ఎలా భిన్నంగా ఉంటాయి?
29. “వైవిధ్య ద్రవ్యోల్బణం కారకం” అంటే సరిగ్గా ఏమిటి?
30. శిక్షణ సెట్ పరిమాణం ఆధారంగా, మీరు వర్గీకరణను ఎలా ఎంచుకుంటారు?
31. మెషిన్ లెర్నింగ్‌లో ఏ అల్గారిథమ్‌ను "లేజీ లెర్నర్" అని పిలుస్తారు మరియు ఎందుకు?
32. ROC కర్వ్ మరియు AUC అంటే ఏమిటి?
33. హైపర్ పారామీటర్లు అంటే ఏమిటి? మోడల్ పారామితుల నుండి వాటిని ప్రత్యేకంగా ఏమి చేస్తుంది?
34. F1 స్కోర్, రీకాల్ మరియు ఖచ్చితత్వం అంటే ఏమిటి?
35. క్రాస్ ధ్రువీకరణ అంటే ఏమిటి?
36. మీ మోడల్‌లో గణనీయమైన వ్యత్యాసాన్ని మీరు కనుగొన్నారని అనుకుందాం. మీ అభిప్రాయం ప్రకారం, ఈ పరిస్థితిని నిర్వహించడానికి ఏ అల్గోరిథం బాగా సరిపోతుంది?
37. లాస్సో రిగ్రెషన్ నుండి రిడ్జ్ రిగ్రెషన్‌ను ఏది వేరు చేస్తుంది?
38. ఏది మరింత ముఖ్యమైనది: మోడల్ పనితీరు లేదా మోడల్ ఖచ్చితత్వం? ఏది మరియు మీరు దానిని ఎందుకు ఇష్టపడతారు?
39. మీరు అసమానతలతో డేటాసెట్‌ను ఎలా నిర్వహిస్తారు?
40. మీరు బూస్టింగ్ మరియు బ్యాగింగ్ మధ్య తేడాను ఎలా గుర్తించగలరు?
41. ఇండక్టివ్ మరియు డిడక్టివ్ లెర్నింగ్ మధ్య తేడాలను వివరించండి.
ముగింపు

వ్యక్తులకు సమాచారం మరియు సేవల ప్రాప్యతను పెంచడానికి వ్యాపారాలు కృత్రిమ మేధస్సు (AI) మరియు మెషిన్ లెర్నింగ్ వంటి అత్యాధునిక సాంకేతికతను ఉపయోగించుకుంటున్నాయి.

ఈ సాంకేతికతలను బ్యాంకింగ్, ఫైనాన్స్, రిటైల్, తయారీ మరియు ఆరోగ్య సంరక్షణ వంటి వివిధ పరిశ్రమలు అవలంబిస్తున్నాయి.

డేటా సైంటిస్టులు, ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ ఇంజనీర్లు, మెషిన్ లెర్నింగ్ ఇంజనీర్లు మరియు డేటా అనలిస్ట్‌ల కోసం AIని ఉపయోగించుకునే సంస్థాగత పాత్రలలో అత్యంత డిమాండ్ ఉంది.

ఈ పోస్ట్ మిమ్మల్ని వివిధ రకాలుగా నడిపిస్తుంది యంత్ర అభ్యాసం మీ ఆదర్శ ఉద్యోగం కోసం వెతుకుతున్నప్పుడు మీరు అడిగే ఏవైనా ప్రశ్నల కోసం సిద్ధంగా ఉండటానికి మీకు సహాయం చేయడానికి, ప్రాథమిక నుండి సంక్లిష్టమైన వరకు ఇంటర్వ్యూ ప్రశ్నలు.

1. మెషిన్ లెర్నింగ్, ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ మరియు డీప్ లెర్నింగ్ మధ్య తేడాలను వివరించండి.

ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ వివిధ రకాల మెషిన్ లెర్నింగ్ మరియు డీప్ లెర్నింగ్ విధానాలను ఉపయోగిస్తుంది, ఇవి కంప్యూటర్ సిస్టమ్‌లు తర్కం మరియు నియమాలతో మానవ-వంటి మేధస్సును ఉపయోగించి పనులను నిర్వహించడానికి అనుమతిస్తాయి.

మెషిన్ లెర్నింగ్ వివిధ రకాల గణాంకాలు మరియు డీప్ లెర్నింగ్ విధానాలను ఉపయోగిస్తుంది, యంత్రాలు వాటి పూర్వ పనితీరు నుండి నేర్చుకునేలా మరియు మానవ పర్యవేక్షణ లేకుండా వారి స్వంతంగా కొన్ని పనులను చేయడంలో మరింత ప్రవీణులుగా మారతాయి.

డీప్ లెర్నింగ్ అనేది సాఫ్ట్‌వేర్ దాని నుండి నేర్చుకోవడానికి మరియు వాయిస్ మరియు పిక్చర్ రికగ్నిషన్ వంటి వివిధ రకాల వాణిజ్య విధులను నిర్వహించడానికి అనుమతించే అల్గారిథమ్‌ల సమాహారం.

వారి బహుళస్థాయిలను బహిర్గతం చేసే వ్యవస్థలు నరాల నెట్వర్క్ నేర్చుకోవడం కోసం చాలా ఎక్కువ మొత్తంలో డేటా లోతైన అభ్యాసం చేయగలదు.

2. దయచేసి వివిధ రకాల మెషిన్ లెర్నింగ్ గురించి వివరించండి.

మెషిన్ లెర్నింగ్ మూడు విభిన్న రకాలుగా విస్తృతంగా ఉంది:

పర్యవేక్షించబడే అభ్యాసం: పర్యవేక్షించబడే యంత్ర అభ్యాసంలో లేబుల్ చేయబడిన లేదా చారిత్రక డేటాను ఉపయోగించి మోడల్ అంచనాలు లేదా తీర్పులను సృష్టిస్తుంది. వాటి అర్థాన్ని పెంచడానికి ట్యాగ్ చేయబడిన లేదా లేబుల్ చేయబడిన డేటా సెట్‌లను లేబుల్ చేయబడిన డేటాగా సూచిస్తారు.
పర్యవేక్షించబడని అభ్యాసం: మా వద్ద పర్యవేక్షించబడని అభ్యాసం కోసం లేబుల్ చేయబడిన డేటా లేదు. ఇన్‌కమింగ్ డేటాలో, మోడల్ నమూనాలు, విచిత్రాలు మరియు సహసంబంధాలను కనుగొనగలదు.
ఉపబల అభ్యాసం: మోడల్ చేయగలదు ఉపబలాన్ని ఉపయోగించడం ద్వారా నేర్చుకోండి అభ్యాసం మరియు దాని పూర్వ ప్రవర్తనకు లభించిన బహుమతులు.

3. బయాస్ వర్సెస్ వేరియెన్స్ ట్రేడ్-ఆఫ్ అంటే ఏమిటి?

ఓవర్ ఫిట్టింగ్ అనేది పక్షపాతం యొక్క ఫలితం, ఇది మోడల్ డేటాకు సరిపోయే స్థాయి. పక్షపాతం అనేది మీలో సరికాని లేదా చాలా సులభమైన ఊహల వల్ల కలుగుతుంది యంత్ర అభ్యాస అల్గోరిథం.

వైవిధ్యం అనేది మీ ML అల్గారిథమ్‌లోని సంక్లిష్టత వలన సంభవించే పొరపాట్లను సూచిస్తుంది, ఇది శిక్షణ డేటా మరియు ఓవర్ ఫిట్టింగ్‌లో పెద్ద స్థాయి వ్యత్యాసానికి సున్నితత్వాన్ని ఉత్పత్తి చేస్తుంది.

వైవిధ్యం అనేది ఇన్‌పుట్‌లపై ఆధారపడి మోడల్ ఎంత మారుతుందో.

మరో మాటలో చెప్పాలంటే, ప్రాథమిక నమూనాలు చాలా పక్షపాతంతో ఉన్నప్పటికీ స్థిరంగా ఉంటాయి (తక్కువ వ్యత్యాసం). సంక్లిష్టమైన మోడళ్లతో ఓవర్‌ఫిట్ చేయడం అనేది ఒక సమస్య, అయినప్పటికీ అవి మోడల్ యొక్క వాస్తవికతను (తక్కువ పక్షపాతం) సంగ్రహిస్తాయి.

అధిక వైవిధ్యం మరియు అధిక పక్షపాతం రెండింటినీ నిరోధించడానికి, ఉత్తమ లోపం తగ్గింపు కోసం పక్షపాతం మరియు వ్యత్యాసాల మధ్య ట్రేడ్-ఆఫ్ అవసరం.

4. మెషిన్ లెర్నింగ్ అల్గోరిథంలు కాలక్రమేణా గణనీయంగా అభివృద్ధి చెందాయి. ఇచ్చిన డేటా సెట్‌ను ఉపయోగించుకోవడానికి సరైన అల్గారిథమ్‌ను ఎలా ఎంచుకోవాలి?

ఉపయోగించాల్సిన యంత్ర అభ్యాస సాంకేతికత నిర్దిష్ట డేటాసెట్‌లోని డేటా రకంపై మాత్రమే ఆధారపడి ఉంటుంది.

డేటా లీనియర్‌గా ఉన్నప్పుడు, లీనియర్ రిగ్రెషన్ ఉపయోగించబడుతుంది. డేటా నాన్-లీనియారిటీని సూచిస్తే బ్యాగింగ్ పద్ధతి మెరుగ్గా పని చేస్తుంది. డేటా మూల్యాంకనం లేదా వాణిజ్య ప్రయోజనాల కోసం అన్వయించబడినట్లయితే మేము నిర్ణయం ట్రీలను లేదా SVMని ఉపయోగించుకోవచ్చు.

డేటాసెట్‌లో ఫోటోలు, వీడియోలు మరియు ఆడియో ఉంటే ఖచ్చితమైన సమాధానాన్ని పొందడానికి న్యూరల్ నెట్‌వర్క్‌లు ఉపయోగపడతాయి.

ఒక నిర్దిష్ట పరిస్థితి లేదా డేటా సేకరణ కోసం అల్గారిథమ్ ఎంపిక కేవలం ఒకే కొలతపై చేయలేము.

ఉత్తమ ఫిట్ పద్ధతిని అభివృద్ధి చేసే లక్ష్యం కోసం, మేము ముందుగా అన్వేషణాత్మక డేటా విశ్లేషణ (EDA)ని ఉపయోగించి డేటాను పరిశీలించాలి మరియు డేటాసెట్‌ను ఉపయోగించుకునే లక్ష్యాన్ని అర్థం చేసుకోవాలి.

5. సహసంబంధం మరియు సహసంబంధం ఎలా విభిన్నంగా ఉంటాయి?

రెండు వేరియబుల్స్ ఒకదానికొకటి ఎలా అనుసంధానించబడి ఉన్నాయో మరియు మరొకదానిలో మార్పులకు ప్రతిస్పందనగా ఒకటి ఎలా మారవచ్చో కోవియారెన్స్ అంచనా వేస్తుంది.

ఫలితం సానుకూలంగా ఉంటే, వేరియబుల్స్ మధ్య ప్రత్యక్ష సంబంధం ఉందని మరియు అన్ని ఇతర పరిస్థితులు స్థిరంగా ఉన్నాయని భావించి, బేస్ వేరియబుల్‌లో పెరుగుదల లేదా తగ్గుదలతో ఒకటి పెరుగుతుందని లేదా తగ్గుతుందని సూచిస్తుంది.

సహసంబంధం రెండు యాదృచ్ఛిక వేరియబుల్స్ మధ్య లింక్‌ను కొలుస్తుంది మరియు మూడు విభిన్న విలువలను మాత్రమే కలిగి ఉంటుంది: 1, 0 మరియు -1.

6. మెషిన్ లెర్నింగ్‌లో, క్లస్టరింగ్ అంటే ఏమిటి?

సమూహ డేటా పాయింట్లను కలిపి ఉంచే పర్యవేక్షించబడని అభ్యాస పద్ధతులను క్లస్టరింగ్ అంటారు. డేటా పాయింట్ల సేకరణతో, క్లస్టరింగ్ టెక్నిక్‌ని అన్వయించవచ్చు.

ఈ వ్యూహాన్ని ఉపయోగించి మీరు అన్ని డేటా పాయింట్‌లను వాటి ఫంక్షన్‌ల ప్రకారం సమూహపరచవచ్చు.

ఒకే వర్గానికి చెందిన డేటా పాయింట్‌ల లక్షణాలు మరియు లక్షణాలు ఒకే విధంగా ఉంటాయి, అయితే ప్రత్యేక సమూహాలలోకి వచ్చే డేటా పాయింట్‌లు భిన్నంగా ఉంటాయి.

గణాంక డేటాను విశ్లేషించడానికి ఈ విధానాన్ని ఉపయోగించవచ్చు.

7. మీరు ఇష్టపడే మెషిన్ లెర్నింగ్ అల్గారిథమ్ ఏమిటి?

ఈ ప్రశ్నలో మీ ప్రాధాన్యతలను మరియు ప్రత్యేక ప్రతిభను ప్రదర్శించడానికి మీకు అవకాశం ఉంది, అలాగే అనేక మెషీన్ లెర్నింగ్ టెక్నిక్‌ల గురించి మీకున్న సమగ్ర పరిజ్ఞానం కూడా ఉంది.

ఆలోచించడానికి ఇక్కడ కొన్ని సాధారణ యంత్ర అభ్యాస అల్గారిథమ్‌లు ఉన్నాయి:

లీనియర్ రిగ్రెషన్
లాజిస్టిక్ రిగ్రెషన్
నైవ్ బేయెస్
నిర్ణయం చెట్లు
K అంటే
యాదృచ్ఛిక అటవీ అల్గోరిథం
K-సమీప పొరుగు (KNN)

8. మెషిన్ లెర్నింగ్‌లో లీనియర్ రిగ్రెషన్: ఇది ఏమిటి?

పర్యవేక్షించబడే మెషీన్ లెర్నింగ్ అల్గోరిథం లీనియర్ రిగ్రెషన్.

డిపెండెంట్ మరియు ఇండిపెండెంట్ వేరియబుల్స్ మధ్య లీనియర్ కనెక్షన్‌ని నిర్ణయించడానికి ప్రిడిక్టివ్ అనాలిసిస్‌లో ఇది ఉపయోగించబడుతుంది.

లీనియర్ రిగ్రెషన్ యొక్క సమీకరణం క్రింది విధంగా ఉంది:

Y = A + BX

ఎక్కడ:

ఇన్‌పుట్ లేదా ఇండిపెండెంట్ వేరియబుల్‌ని X అంటారు.
డిపెండెంట్ లేదా అవుట్‌పుట్ వేరియబుల్ Y.
X యొక్క గుణకం b, మరియు దాని అంతరాయం a.

9. KNN మరియు k-మీన్స్ క్లస్టరింగ్ మధ్య తేడాలను వివరించండి.

ప్రాథమిక వ్యత్యాసం ఏమిటంటే, KNN (వర్గీకరణ పద్ధతి, పర్యవేక్షించబడిన అభ్యాసం)కి లేబుల్ చేయబడిన పాయింట్లు అవసరం అయితే k-అంటే కాదు (క్లస్టరింగ్ అల్గోరిథం, పర్యవేక్షించబడని అభ్యాసం).

మీరు K-సమీప పొరుగువారిని ఉపయోగించడం ద్వారా లేబుల్ చేయబడిన డేటాను లేబుల్ చేయని పాయింట్‌గా వర్గీకరించవచ్చు. K-అంటే క్లస్టరింగ్ అనేది లేబుల్ చేయని పాయింట్‌లను ఎలా సమూహపరచాలో తెలుసుకోవడానికి పాయింట్‌ల మధ్య సగటు దూరాన్ని ఉపయోగిస్తుంది.

10. "ఎంపిక పక్షపాతం" అంటే మీకు అర్థం ఏమిటి?

ప్రయోగం యొక్క నమూనా దశలో పక్షపాతం గణాంక సరికాని కారణంగా ఉంది.

ఒక నమూనా సమూహం సరికాని ఫలితంగా ప్రయోగంలో ఇతర సమూహాల కంటే తరచుగా ఎంపిక చేయబడుతుంది.

ఎంపిక పక్షపాతం గుర్తించబడకపోతే, అది తప్పు ముగింపుకు దారితీయవచ్చు.

11. బేయెస్ సిద్ధాంతం అంటే ఏమిటి?

మేము ఇతర సంభావ్యతలను గురించి తెలుసుకున్నప్పుడు, మేము బేయస్ సిద్ధాంతాన్ని ఉపయోగించి సంభావ్యతను గుర్తించగలము. ఇది ఇతర మాటలలో, ముందస్తు సమాచారం ఆధారంగా సంభవించే పృష్ఠ సంభావ్యతను అందిస్తుంది.

షరతులతో కూడిన సంభావ్యతలను అంచనా వేయడానికి ఒక ధ్వని పద్ధతి ఈ సిద్ధాంతం ద్వారా అందించబడింది.

వర్గీకరణ ప్రిడిక్టివ్ మోడలింగ్ సమస్యలను అభివృద్ధి చేసినప్పుడు మరియు శిక్షణకు నమూనాను అమర్చినప్పుడు యంత్ర అభ్యాసంలో డేటాసెట్, బేయెస్ సిద్ధాంతం వర్తించబడుతుంది (అనగా నైవ్ బేస్, బేయెస్ ఆప్టిమల్ క్లాసిఫైయర్).

12. మెషిన్ లెర్నింగ్ మోడల్‌లో, 'ట్రైనింగ్ సెట్' మరియు 'టెస్ట్ సెట్' అంటే ఏమిటి?

శిక్షణ సెట్:

శిక్షణ సెట్‌లో విశ్లేషణ మరియు అభ్యాసం కోసం మోడల్‌కు పంపబడే సందర్భాలు ఉంటాయి.
మోడల్‌కు శిక్షణ ఇవ్వడానికి ఉపయోగించే లేబుల్ డేటా ఇది.
సాధారణంగా, మొత్తం డేటాలో 70% శిక్షణ డేటాసెట్‌గా ఉపయోగించబడుతుంది.

పరీక్ష సెట్:

మోడల్ యొక్క పరికల్పన ఉత్పత్తి ఖచ్చితత్వాన్ని అంచనా వేయడానికి పరీక్ష సెట్ ఉపయోగించబడుతుంది.
మేము లేబుల్ చేయబడిన డేటా లేకుండా పరీక్షిస్తాము మరియు ఫలితాలను నిర్ధారించడానికి లేబుల్‌లను ఉపయోగిస్తాము.
మిగిలిన 30% పరీక్ష డేటాసెట్‌గా ఉపయోగించబడుతుంది.

13. మెషిన్ లెర్నింగ్‌లో పరికల్పన అంటే ఏమిటి?

మెషిన్ లెర్నింగ్ అనేది ఇన్‌పుట్‌కి లింక్ చేసే ఫంక్షన్‌ను బాగా అర్థం చేసుకోవడానికి ఇప్పటికే ఉన్న డేటాసెట్‌ల వినియోగాన్ని అనుమతిస్తుంది. దీనిని ఫంక్షన్ ఉజ్జాయింపు అంటారు.

ఈ సందర్భంలో, ఇవ్వబడిన పరిస్థితి ఆధారంగా సాధ్యమయ్యే ఉత్తమ మార్గంలో అన్ని ఊహించదగిన పరిశీలనలను బదిలీ చేయడానికి తెలియని లక్ష్య విధికి ఉజ్జాయింపు తప్పనిసరిగా ఉపయోగించాలి.

మెషిన్ లెర్నింగ్‌లో, పరికల్పన అనేది లక్ష్య పనితీరును అంచనా వేయడంలో మరియు తగిన ఇన్‌పుట్-టు-అవుట్‌పుట్ మ్యాపింగ్‌లను పూర్తి చేయడంలో సహాయపడే నమూనా.

అల్గారిథమ్‌ల ఎంపిక మరియు రూపకల్పన మోడల్ ద్వారా సూచించబడే సాధ్యమైన పరికల్పనల స్థలాన్ని నిర్వచించడానికి అనుమతిస్తుంది.

ఒకే పరికల్పన కోసం, చిన్న అక్షరం h (h) ఉపయోగించబడుతుంది, అయితే శోధించబడుతున్న మొత్తం పరికల్పన స్థలం కోసం మూలధనం h (H) ఉపయోగించబడుతుంది. మేము ఈ సంకేతాలను క్లుప్తంగా సమీక్షిస్తాము:

పరికల్పన (h) అనేది ఒక నిర్దిష్ట నమూనా, ఇది అవుట్‌పుట్‌కు ఇన్‌పుట్ యొక్క మ్యాపింగ్‌ను సులభతరం చేస్తుంది, ఇది మూల్యాంకనం మరియు అంచనా కోసం ఉపయోగించబడుతుంది.
పరికల్పన సమితి (H) అనేది అవుట్‌పుట్‌లకు ఇన్‌పుట్‌లను మ్యాప్ చేయడానికి ఉపయోగించే పరికల్పనల యొక్క శోధించదగిన స్థలం. ఇష్యూ ఫ్రేమింగ్, మోడల్ మరియు మోడల్ కాన్ఫిగరేషన్ సాధారణ పరిమితులకు కొన్ని ఉదాహరణలు.

14. మెషిన్ లెర్నింగ్ ఓవర్ ఫిట్టింగ్ అంటే ఏమిటి మరియు దానిని ఎలా నిరోధించవచ్చు?

ఒక యంత్రం తగినంత డేటాసెట్ నుండి తెలుసుకోవడానికి ప్రయత్నించినప్పుడు, ఓవర్ ఫిట్టింగ్ జరుగుతుంది.

ఫలితంగా, ఓవర్‌ఫిట్టింగ్ డేటా వాల్యూమ్‌తో విలోమ సంబంధం కలిగి ఉంటుంది. క్రాస్-ధృవీకరణ విధానం చిన్న డేటాసెట్‌ల కోసం ఓవర్‌ఫిట్‌ను నివారించేందుకు అనుమతిస్తుంది. ఈ పద్ధతిలో డేటాసెట్ రెండు భాగాలుగా విభజించబడింది.

పరీక్ష మరియు శిక్షణ కోసం డేటాసెట్ ఈ రెండు భాగాలను కలిగి ఉంటుంది. శిక్షణ డేటాసెట్ మోడల్‌ను రూపొందించడానికి ఉపయోగించబడుతుంది, అయితే టెస్టింగ్ డేటాసెట్ విభిన్న ఇన్‌పుట్‌లను ఉపయోగించి మోడల్‌ను మూల్యాంకనం చేయడానికి ఉపయోగించబడుతుంది.

అతిగా అమర్చడాన్ని నిరోధించడం ఇలా.

15. నైవ్ బేస్ వర్గీకరణలు అంటే ఏమిటి?

వివిధ వర్గీకరణ పద్ధతులు నైవ్ బేయెస్ వర్గీకరణదారులను తయారు చేస్తాయి. ఈ వర్గీకరణలు అని పిలువబడే అల్గారిథమ్‌ల సమితి అన్నీ ఒకే ప్రాథమిక ఆలోచనపై పనిచేస్తాయి.

అమాయక బేయెస్ వర్గీకరణదారులు చేసిన ఊహ ఏమిటంటే, ఒక ఫీచర్ యొక్క ఉనికి లేదా లేకపోవడం మరొక లక్షణం యొక్క ఉనికి లేదా లేకపోవడంపై ఎటువంటి ప్రభావం చూపదు.

మరో మాటలో చెప్పాలంటే, ప్రతి డేటాసెట్ లక్షణం సమానంగా ముఖ్యమైనది మరియు స్వతంత్రంగా ఉంటుందని ఊహిస్తున్నందున దీనిని మనం "అమాయక" అని సూచిస్తాము.

అమాయక బేయెస్ వర్గీకరణలను ఉపయోగించి వర్గీకరణ జరుగుతుంది. స్వాతంత్ర్య ఆవరణ నిజమైనప్పుడు అవి చాలా క్లిష్టమైన ప్రిడిక్టర్‌ల కంటే ఉపయోగించడానికి సులభమైనవి మరియు మెరుగైన ఫలితాలను ఉత్పత్తి చేస్తాయి.

టెక్స్ట్ అనాలిసిస్, స్పామ్ ఫిల్టరింగ్ మరియు రికమండేషన్ సిస్టమ్‌లలో, వారు పని చేస్తారు.

16. కాస్ట్ ఫంక్షన్‌లు మరియు లాస్ ఫంక్షన్‌లు అంటే ఏమిటి?

"లాస్ ఫంక్షన్" అనే పదబంధం కేవలం ఒక డేటాను పరిగణనలోకి తీసుకున్నప్పుడు నష్టాన్ని కంప్యూటింగ్ చేసే ప్రక్రియను సూచిస్తుంది.

దీనికి విరుద్ధంగా, మేము అనేక డేటా కోసం మొత్తం తప్పులను గుర్తించడానికి ఖర్చు ఫంక్షన్‌ను ఉపయోగిస్తాము. ముఖ్యమైన వ్యత్యాసం లేదు.

మరో మాటలో చెప్పాలంటే, కాస్ట్ ఫంక్షన్‌లు మొత్తం శిక్షణ డేటాసెట్‌కు వ్యత్యాసాన్ని కలుపుతాయి, నష్ట విధులు ఒకే రికార్డ్ కోసం వాస్తవ మరియు అంచనా విలువల మధ్య వ్యత్యాసాన్ని సంగ్రహించడానికి రూపొందించబడ్డాయి.

17. ఉత్పాదక నమూనాను వివక్షతతో కూడిన నమూనా నుండి ఏది వేరు చేస్తుంది?

ఒక వివక్షత మోడల్ అనేక డేటా వర్గాల మధ్య తేడాలను నేర్చుకుంటుంది. ఉత్పాదక నమూనా వివిధ డేటా రకాలను ఎంచుకుంటుంది.

వర్గీకరణ సమస్యలపై, వివక్షత గల నమూనాలు తరచుగా ఇతర నమూనాలను అధిగమిస్తాయి.

18. టైప్ I మరియు టైప్ II లోపాల మధ్య వైవిధ్యాలను వివరించండి.

తప్పుడు పాజిటివ్‌లు టైప్ I ఎర్రర్‌ల కేటగిరీ కిందకు వస్తాయి, అయితే తప్పుడు ప్రతికూలతలు టైప్ II ఎర్రర్‌ల కిందకు వస్తాయి (వాస్తవానికి ఇది జరిగినప్పుడు ఏమీ జరగలేదని క్లెయిమ్ చేయడం).

19. మెషిన్ లెర్నింగ్‌లో, సమిష్టి అభ్యాస సాంకేతికత అంటే ఏమిటి?

సమిష్టి అభ్యాసం అని పిలువబడే ఒక సాంకేతికత మరింత శక్తివంతమైన నమూనాలను ఉత్పత్తి చేయడానికి అనేక యంత్ర అభ్యాస నమూనాలను మిళితం చేస్తుంది.

వివిధ కారణాల వల్ల మోడల్ మారవచ్చు. అనేక కారణాలు:

వివిధ జనాభా
వివిధ పరికల్పనలు
వివిధ మోడలింగ్ పద్ధతులు

మోడల్ శిక్షణ మరియు పరీక్ష డేటాను ఉపయోగిస్తున్నప్పుడు మేము సమస్యను ఎదుర్కొంటాము. పక్షపాతం, వైవిధ్యం మరియు తగ్గించలేని లోపం ఈ పొరపాటు యొక్క సాధ్యమైన రకాలు.

ఇప్పుడు, మేము మోడల్‌లో పక్షపాతం మరియు వ్యత్యాసాల మధ్య ఈ బ్యాలెన్స్‌ను బయాస్-వేరియెన్స్ ట్రేడ్-ఆఫ్ అని పిలుస్తాము మరియు ఇది ఎల్లప్పుడూ ఉనికిలో ఉండాలి. సమిష్టి అభ్యాసాన్ని ఉపయోగించడం ద్వారా ఈ ట్రేడ్-ఆఫ్ సాధించబడుతుంది.

వివిధ సమిష్టి విధానాలు అందుబాటులో ఉన్నప్పటికీ, అనేక నమూనాలను కలపడానికి రెండు సాధారణ వ్యూహాలు ఉన్నాయి:

బ్యాగింగ్ అని పిలువబడే స్థానిక విధానం అదనపు శిక్షణా సెట్‌లను ఉత్పత్తి చేయడానికి శిక్షణా సమితిని ఉపయోగిస్తుంది.
బూస్టింగ్, మరింత అధునాతన సాంకేతికత: శిక్షణా సెట్ కోసం ఆదర్శవంతమైన వెయిటింగ్ ఫార్ములాను కనుగొనడానికి బ్యాగింగ్ వంటిది, బూస్టింగ్ ఉపయోగించబడుతుంది.

20. పారామెట్రిక్ మోడల్స్ అంటే ఏమిటి? ఒక ఉదాహరణ ఇవ్వండి.

పారామెట్రిక్ మోడళ్లలో పరిమిత మొత్తంలో పారామితులు ఉన్నాయి. డేటాను అంచనా వేయడానికి, మీరు తెలుసుకోవలసినది మోడల్ పారామితులను మాత్రమే.

కిందివి సాధారణ ఉదాహరణలు: లాజిస్టిక్ రిగ్రెషన్, లీనియర్ రిగ్రెషన్ మరియు లీనియర్ SVMలు. నాన్-పారామెట్రిక్ మోడల్‌లు అనువైనవి ఎందుకంటే అవి అపరిమిత సంఖ్యలో పారామితులను కలిగి ఉంటాయి.

డేటా అంచనాల కోసం మోడల్ యొక్క పారామితులు మరియు గమనించిన డేటా స్థితి అవసరం. ఇక్కడ కొన్ని సాధారణ ఉదాహరణలు ఉన్నాయి: టాపిక్ మోడల్స్, నిర్ణయం చెట్లు మరియు k-సమీప పొరుగువారు.

21. సహకార వడపోతను వివరించండి. అలాగే కంటెంట్ ఆధారిత ఫిల్టరింగ్?

అనుకూలమైన కంటెంట్ సూచనలను రూపొందించడానికి ప్రయత్నించిన మరియు నిజమైన పద్ధతి సహకార వడపోత.

సహకార వడపోత అని పిలువబడే సిఫార్సు వ్యవస్థ యొక్క రూపం వినియోగదారు ప్రాధాన్యతలను భాగస్వామ్య ఆసక్తులతో సమతుల్యం చేయడం ద్వారా తాజా విషయాలను తెలియజేస్తుంది.

కంటెంట్ ఆధారిత సిఫార్సు సిస్టమ్‌లు పరిగణించే ఏకైక విషయం వినియోగదారు ప్రాధాన్యతలు. వినియోగదారు ముందస్తు ఎంపికల దృష్ట్యా, సంబంధిత మెటీరియల్ నుండి కొత్త సిఫార్సులు అందించబడ్డాయి.

22. టైమ్ సిరీస్ ద్వారా మీరు సరిగ్గా అర్థం ఏమిటి?

సమయ శ్రేణి అనేది ఆరోహణ క్రమంలో ఉన్న సంఖ్యల సమాహారం. ముందుగా నిర్ణయించిన సమయ వ్యవధిలో, ఇది ఎంచుకున్న డేటా పాయింట్‌ల కదలికను పర్యవేక్షిస్తుంది మరియు క్రమానుగతంగా డేటా పాయింట్‌లను సంగ్రహిస్తుంది.

సమయ శ్రేణికి కనీస లేదా గరిష్ట సమయ ఇన్‌పుట్ లేదు.

వారి ప్రత్యేక అవసరాలకు అనుగుణంగా డేటాను విశ్లేషించడానికి విశ్లేషకులు సమయ శ్రేణిని తరచుగా ఉపయోగిస్తారు.

23. గ్రేడియంట్ బూస్టింగ్ మరియు రాండమ్ ఫారెస్ట్ అల్గారిథమ్‌ల మధ్య వైవిధ్యాలను వివరించండి.

రాండమ్ ఫారెస్ట్:

పెద్ద సంఖ్యలో నిర్ణయ వృక్షాలు చివరలో కలిసి ఉంటాయి మరియు వాటిని యాదృచ్ఛిక అడవులు అంటారు.
గ్రేడియంట్ బూస్టింగ్ ప్రతి చెట్టును ఇతరులతో సంబంధం లేకుండా ఉత్పత్తి చేస్తుంది, యాదృచ్ఛిక అటవీ ప్రతి చెట్టును ఒక్కొక్కటిగా నిర్మిస్తుంది.
మల్టీక్లాస్ వస్తువు గుర్తింపు యాదృచ్ఛిక అడవులతో బాగా పనిచేస్తుంది.

గ్రేడియంట్ బూస్టింగ్:

యాదృచ్ఛిక అడవులు ప్రక్రియ ముగింపులో నిర్ణయ వృక్షాలను చేరినప్పుడు, గ్రేడియంట్ బూస్టింగ్ మెషీన్లు వాటిని మొదటి నుండి కలుపుతాయి.
పారామితులను సముచితంగా సర్దుబాటు చేస్తే, ఫలితాల పరంగా గ్రేడియంట్ బూస్టింగ్ యాదృచ్ఛిక అడవులను అధిగమిస్తుంది, అయితే డేటా సెట్‌లో చాలా అవుట్‌లయర్‌లు, క్రమరాహిత్యాలు లేదా శబ్దం ఉంటే అది స్మార్ట్ ఎంపిక కాదు, ఎందుకంటే ఇది మోడల్ ఓవర్‌ఫిట్‌గా మారవచ్చు.
అసమతుల్య డేటా ఉన్నప్పుడు, రియల్ టైమ్ రిస్క్ అసెస్‌మెంట్‌లో ఉన్నట్లుగా, గ్రేడియంట్ బూస్టింగ్ బాగా పనిచేస్తుంది.

24. మీకు గందరగోళ మాతృక ఎందుకు అవసరం? ఇది ఏమిటి?

కన్ఫ్యూజన్ మ్యాట్రిక్స్ అని పిలువబడే టేబుల్, కొన్నిసార్లు ఎర్రర్ మ్యాట్రిక్స్ అని పిలుస్తారు, నిజమైన విలువలు తెలిసిన పరీక్ష డేటా సెట్‌లో వర్గీకరణ మోడల్ లేదా వర్గీకరణ ఎంత బాగా పనిచేస్తుందో చూపించడానికి విస్తృతంగా ఉపయోగించబడుతుంది.

మోడల్ లేదా అల్గోరిథం ఎలా పని చేస్తుందో చూడడానికి ఇది మాకు వీలు కల్పిస్తుంది. ఇది వివిధ కోర్సుల మధ్య అపార్థాలను గుర్తించడాన్ని సులభతరం చేస్తుంది.

మోడల్ లేదా అల్గోరిథం ఎంత బాగా నిర్వహించబడుతుందో అంచనా వేయడానికి ఇది ఒక మార్గంగా ఉపయోగపడుతుంది.

వర్గీకరణ నమూనా యొక్క అంచనాలు గందరగోళ మాతృకలో సంకలనం చేయబడ్డాయి. ప్రతి తరగతి లేబుల్ యొక్క గణన విలువలు సరైన మరియు తప్పు అంచనాల మొత్తం సంఖ్యను విచ్ఛిన్నం చేయడానికి ఉపయోగించబడ్డాయి.

ఇది వర్గీకరణకర్త చేసిన లోపాలతో పాటు వర్గీకరణదారుల వల్ల కలిగే వివిధ రకాల లోపాల వివరాలను అందిస్తుంది.

25. సూత్రప్రాయ భాగాల విశ్లేషణ అంటే ఏమిటి?

ఒకదానితో ఒకటి పరస్పర సంబంధం ఉన్న వేరియబుల్స్ సంఖ్యను తగ్గించడం ద్వారా, డేటా సేకరణ యొక్క పరిమాణాన్ని తగ్గించడం లక్ష్యం. కానీ వైవిధ్యాన్ని వీలైనంత వరకు ఉంచడం ముఖ్యం.

వేరియబుల్స్ ప్రిన్సిపల్ కాంపోనెంట్స్ అని పిలువబడే వేరియబుల్స్ యొక్క పూర్తిగా కొత్త సెట్‌గా మార్చబడ్డాయి.

ఈ PCలు ఆర్తోగోనల్‌గా ఉంటాయి, ఎందుకంటే అవి కోవియారిన్స్ మ్యాట్రిక్స్ యొక్క ఈజెన్‌వెక్టర్‌లు.

26. PCA (ప్రిన్సిపల్ కాంపోనెంట్ అనాలిసిస్)కి కాంపోనెంట్ రొటేషన్ ఎందుకు చాలా కీలకం?

PCAలో భ్రమణం చాలా ముఖ్యమైనది ఎందుకంటే ఇది ప్రతి భాగం ద్వారా పొందబడిన వ్యత్యాసాల మధ్య విభజనను ఆప్టిమైజ్ చేస్తుంది, కాంపోనెంట్ ఇంటర్‌ప్రెటేషన్‌ను సులభతరం చేస్తుంది.

భాగాలు తిప్పబడనట్లయితే, కాంపోనెంట్ వైవిధ్యాన్ని వ్యక్తీకరించడానికి మాకు పొడిగించిన భాగాలు అవసరం.

27. క్రమబద్ధీకరణ మరియు సాధారణీకరణ ఒకదానికొకటి ఎలా మారుతాయి?

సాధారణీకరణ:

సాధారణీకరణ సమయంలో డేటా మార్చబడుతుంది. ముఖ్యంగా తక్కువ నుండి ఎక్కువ వరకు చాలా భిన్నమైన స్కేల్‌లను కలిగి ఉంటే మీరు డేటాను సాధారణీకరించాలి. ప్రాథమిక గణాంకాలు అన్నీ అనుకూలంగా ఉండేలా ప్రతి నిలువు వరుసను సర్దుబాటు చేయండి.

ఖచ్చితత్వం కోల్పోకుండా చూసుకోవడానికి, ఇది ఉపయోగకరంగా ఉంటుంది. శబ్దాన్ని విస్మరిస్తూ సిగ్నల్‌ను గుర్తించడం మోడల్ శిక్షణ యొక్క లక్ష్యాలలో ఒకటి.

లోపాన్ని తగ్గించడానికి మోడల్‌కు పూర్తి నియంత్రణ ఇస్తే ఓవర్‌ఫిట్ అయ్యే అవకాశం ఉంది.

క్రమబద్ధీకరణ:

క్రమబద్ధీకరణలో, ప్రిడిక్షన్ ఫంక్షన్ సవరించబడుతుంది. ఇది క్రమబద్ధీకరణ ద్వారా కొంత నియంత్రణకు లోబడి ఉంటుంది, ఇది సంక్లిష్టమైన వాటి కంటే సరళమైన అమరిక ఫంక్షన్‌లకు అనుకూలంగా ఉంటుంది.

28. సాధారణీకరణ మరియు ప్రమాణీకరణ ఒకదానికొకటి ఎలా భిన్నంగా ఉంటాయి?

ఫీచర్ స్కేలింగ్ కోసం విస్తృతంగా ఉపయోగించే రెండు పద్ధతులు సాధారణీకరణ మరియు ప్రమాణీకరణ.

సాధారణీకరణ:

[0,1] పరిధికి అనుగుణంగా డేటాను రీస్కేల్ చేయడాన్ని సాధారణీకరణ అంటారు.
అన్ని పారామీటర్‌లు ఒకే సానుకూల స్కేల్‌ను కలిగి ఉన్నప్పుడు, సాధారణీకరణ సహాయకరంగా ఉంటుంది, అయితే డేటా సెట్ యొక్క అవుట్‌లయర్‌లు పోతాయి.

క్రమబద్ధీకరణ:

ప్రామాణీకరణ ప్రక్రియలో భాగంగా డేటా సగటు 0 మరియు 1 యొక్క ప్రామాణిక విచలనం కలిగి ఉండేలా రీస్కేల్ చేయబడింది (యూనిట్ వేరియెన్స్)

29. “వైవిధ్య ద్రవ్యోల్బణం కారకం” అంటే సరిగ్గా ఏమిటి?

ఒకే ఒక స్వతంత్ర వేరియబుల్‌తో మోడల్ యొక్క వ్యత్యాసానికి మోడల్ యొక్క వ్యత్యాసం యొక్క నిష్పత్తిని వైవిధ్య ద్రవ్యోల్బణం కారకం (VIF) అంటారు.

VIF అనేక రిగ్రెషన్ వేరియబుల్స్ సెట్‌లో ఉన్న మల్టీకాలినియారిటీ మొత్తాన్ని అంచనా వేస్తుంది.

వన్ ఇండిపెండెంట్ వేరియబుల్ వేరియెన్స్‌తో మోడల్ (VIF) మోడల్ యొక్క వైవిధ్యం

30. శిక్షణ సెట్ పరిమాణం ఆధారంగా, మీరు వర్గీకరణను ఎలా ఎంచుకుంటారు?

అధిక పక్షపాతం, తక్కువ వ్యత్యాస మోడల్ ఒక చిన్న శిక్షణా సెట్ కోసం మెరుగ్గా పని చేస్తుంది, ఎందుకంటే ఓవర్ ఫిట్టింగ్ తక్కువ అవకాశం ఉంటుంది. నైవ్ బేస్ ఒక ఉదాహరణ.

ఒక పెద్ద శిక్షణా సమితి కోసం మరింత సంక్లిష్టమైన పరస్పర చర్యలను సూచించడానికి, తక్కువ పక్షపాతం మరియు అధిక వైవిధ్యం ఉన్న మోడల్ ఉత్తమం. లాజిస్టిక్ రిగ్రెషన్ ఒక మంచి ఉదాహరణ.

31. మెషిన్ లెర్నింగ్‌లో ఏ అల్గారిథమ్‌ను "లేజీ లెర్నర్" అని పిలుస్తారు మరియు ఎందుకు?

నిదానమైన అభ్యాసకుడు, KNN అనేది మెషిన్ లెర్నింగ్ అల్గారిథమ్. K-NN శిక్షణ డేటా నుండి ఏదైనా యంత్రం-నేర్చుకున్న విలువలు లేదా వేరియబుల్‌లను నేర్చుకునే బదులు వర్గీకరించాలనుకునే ప్రతిసారీ దూరాన్ని డైనమిక్‌గా గణిస్తుంది, ఇది శిక్షణ డేటాసెట్‌ను గుర్తుంచుకుంటుంది.

ఇది K-NN ని సోమరిగా నేర్చుకునేవాడిని చేస్తుంది.

32. ROC కర్వ్ మరియు AUC అంటే ఏమిటి?

అన్ని థ్రెషోల్డ్‌ల వద్ద వర్గీకరణ నమూనా యొక్క పనితీరు ROC కర్వ్ ద్వారా గ్రాఫికల్‌గా సూచించబడుతుంది. ఇది నిజమైన సానుకూల రేటు మరియు తప్పుడు సానుకూల రేటు ప్రమాణాలను కలిగి ఉంది.

సరళంగా చెప్పాలంటే, ROC వక్రరేఖ క్రింద ఉన్న ప్రాంతాన్ని AUC (ROC కర్వ్ కింద ఉన్న ప్రాంతం) అంటారు. (0,0) నుండి AUC వరకు ROC వక్రరేఖ యొక్క ద్విమితీయ ప్రాంతం (1,1) కొలుస్తారు. బైనరీ వర్గీకరణ నమూనాలను అంచనా వేయడానికి, ఇది పనితీరు గణాంకాల వలె ఉపయోగించబడుతుంది.

33. హైపర్ పారామీటర్లు అంటే ఏమిటి? మోడల్ పారామితుల నుండి వాటిని ప్రత్యేకంగా ఏమి చేస్తుంది?

మోడల్ యొక్క అంతర్గత వేరియబుల్ మోడల్ పరామితిగా పిలువబడుతుంది. శిక్షణ డేటాను ఉపయోగించి, ఒక పరామితి విలువ సుమారుగా అంచనా వేయబడుతుంది.

మోడల్‌కు తెలియదు, హైపర్‌పారామీటర్ అనేది వేరియబుల్. డేటా నుండి విలువను నిర్ణయించడం సాధ్యం కాదు, అందువల్ల మోడల్ పారామితులను లెక్కించడానికి వారు తరచుగా ఉపయోగించబడతారు.

34. F1 స్కోర్, రీకాల్ మరియు ఖచ్చితత్వం అంటే ఏమిటి?

గందరగోళ కొలత అనేది వర్గీకరణ నమూనా యొక్క ప్రభావాన్ని అంచనా వేయడానికి ఉపయోగించే మెట్రిక్. గందరగోళ మెట్రిక్‌ను బాగా వివరించడానికి క్రింది పదబంధాలను ఉపయోగించవచ్చు:

TP: నిజమైన పాజిటివ్‌లు - ఇవి సరిగ్గా ఊహించిన సానుకూల విలువలు. అంచనా వేసిన తరగతి మరియు వాస్తవ తరగతి విలువలు రెండూ సానుకూలంగా ఉన్నాయని ఇది సూచిస్తుంది.

TN: నిజమైన ప్రతికూలతలు- ఇవి ఖచ్చితంగా అంచనా వేయబడిన ప్రతికూల విలువలు. వాస్తవ తరగతి మరియు ఊహించిన తరగతి విలువ రెండూ ప్రతికూలంగా ఉన్నాయని ఇది సూచిస్తుంది.

ఈ విలువలు-తప్పుడు పాజిటివ్‌లు మరియు తప్పుడు ప్రతికూలతలు-మీ వాస్తవ తరగతి ఊహించిన తరగతికి భిన్నంగా ఉన్నప్పుడు సంభవిస్తాయి.

ఇప్పుడు,

వాస్తవ తరగతిలో చేసిన అన్ని పరిశీలనలకు నిజమైన సానుకూల రేటు (TP) నిష్పత్తిని రీకాల్ అంటారు, దీనిని సున్నితత్వం అని కూడా పిలుస్తారు.

రీకాల్ TP/(TP+FN).

ఖచ్చితత్వం అనేది పాజిటివ్ ప్రిడిక్టివ్ విలువ యొక్క కొలత, ఇది మోడల్ నిజంగా అంచనా వేసే పాజిటివ్‌ల సంఖ్యను ఎంత సరైన పాజిటివ్‌లను ఖచ్చితంగా అంచనా వేస్తుందో పోల్చి చూస్తుంది.

ఖచ్చితత్వం TP/(TP + FP)

అర్థం చేసుకోవడానికి సులభమైన పనితీరు మెట్రిక్ ఖచ్చితత్వం, ఇది అన్ని పరిశీలనలకు సరిగ్గా అంచనా వేసిన పరిశీలనల నిష్పత్తి మాత్రమే.

ఖచ్చితత్వం (TP+TN)/(TP+FP+FN+TN)కి సమానం.

F1 స్కోర్‌ని అందించడానికి ఖచ్చితత్వం మరియు రీకాల్ బరువు మరియు సగటు. ఫలితంగా, ఈ స్కోర్ తప్పుడు పాజిటివ్‌లు మరియు తప్పుడు ప్రతికూలతలు రెండింటినీ పరిగణిస్తుంది.

F1 తరచుగా ఖచ్చితత్వం కంటే చాలా విలువైనది, ప్రత్యేకించి మీరు అసమాన తరగతి పంపిణీని కలిగి ఉంటే, అకారణంగా అది ఖచ్చితత్వాన్ని అర్థం చేసుకోవడం అంత సులభం కానప్పటికీ.

తప్పుడు పాజిటివ్‌లు మరియు తప్పుడు ప్రతికూలతల ధర పోల్చదగినప్పుడు ఉత్తమ ఖచ్చితత్వం సాధించబడుతుంది. తప్పుడు పాజిటివ్‌లు మరియు తప్పుడు ప్రతికూలతలతో అనుబంధించబడిన ఖర్చులు గణనీయంగా భిన్నంగా ఉంటే, ఖచ్చితత్వం మరియు రీకాల్ రెండింటినీ చేర్చడం ఉత్తమం.

35. క్రాస్ ధ్రువీకరణ అంటే ఏమిటి?

మెషిన్ లెర్నింగ్‌లో క్రాస్-వాలిడేషన్ అని పిలువబడే గణాంక రీసాంప్లింగ్ విధానం అనేక రౌండ్‌లలో మెషిన్ లెర్నింగ్ అల్గారిథమ్‌కు శిక్షణ ఇవ్వడానికి మరియు మూల్యాంకనం చేయడానికి అనేక డేటాసెట్ ఉపసమితులను ఉపయోగిస్తుంది.

మోడల్‌కు శిక్షణ ఇవ్వడానికి ఉపయోగించని కొత్త బ్యాచ్ డేటా మోడల్ దానిని ఎంత బాగా అంచనా వేస్తుందో చూడటానికి క్రాస్ ధ్రువీకరణను ఉపయోగించి పరీక్షించబడుతుంది. క్రాస్ ధ్రువీకరణ ద్వారా డేటా ఓవర్ ఫిట్టింగ్ నిరోధించబడుతుంది.

K-ఫోల్డ్ చాలా తరచుగా ఉపయోగించే రీసాంప్లింగ్ పద్ధతి మొత్తం డేటాసెట్‌ను సమాన పరిమాణాల K సెట్‌లుగా విభజిస్తుంది. దీనిని క్రాస్ ధ్రువీకరణ అంటారు.

36. మీ మోడల్‌లో గణనీయమైన వ్యత్యాసాన్ని మీరు కనుగొన్నారని అనుకుందాం. మీ అభిప్రాయం ప్రకారం, ఈ పరిస్థితిని నిర్వహించడానికి ఏ అల్గోరిథం బాగా సరిపోతుంది?

అధిక వైవిధ్యాన్ని నిర్వహించడం

పెద్ద వైవిధ్యాలతో సమస్యల కోసం మనం బ్యాగింగ్ టెక్నిక్‌ని ఉపయోగించాలి.

డేటాను ఉప సమూహాలుగా విభజించడానికి బ్యాగింగ్ అల్గోరిథం ద్వారా యాదృచ్ఛిక డేటా యొక్క పునరావృత నమూనా ఉపయోగించబడుతుంది. డేటా విభజించబడిన తర్వాత, మేము నియమాలను రూపొందించడానికి యాదృచ్ఛిక డేటా మరియు నిర్దిష్ట శిక్షణా విధానాన్ని ఉపయోగించుకోవచ్చు.

ఆ తర్వాత, మోడల్ అంచనాలను కలపడానికి పోలింగ్‌ను ఉపయోగించవచ్చు.

37. లాస్సో రిగ్రెషన్ నుండి రిడ్జ్ రిగ్రెషన్‌ను ఏది వేరు చేస్తుంది?

రెండు విస్తృతంగా ఉపయోగించే రెగ్యులరైజేషన్ పద్ధతులు లాస్సో (దీనిని L1 అని కూడా పిలుస్తారు) మరియు రిడ్జ్ (కొన్నిసార్లు L2 అని పిలుస్తారు) రిగ్రెషన్. డేటా అతిగా అమర్చడాన్ని నిరోధించడానికి అవి ఉపయోగించబడతాయి.

ఉత్తమ పరిష్కారాన్ని కనుగొనడానికి మరియు సంక్లిష్టతను తగ్గించడానికి, గుణకాలను శిక్షించడానికి ఈ పద్ధతులు ఉపయోగించబడతాయి. కోఎఫీషియంట్స్ యొక్క సంపూర్ణ విలువల మొత్తం జరిమానా విధించడం ద్వారా, లాస్సో రిగ్రెషన్ పనిచేస్తుంది.

రిడ్జ్ లేదా L2 రిగ్రెషన్‌లోని పెనాల్టీ ఫంక్షన్ కోఎఫీషియెంట్‌ల స్క్వేర్‌ల మొత్తం నుండి తీసుకోబడింది.

38. ఏది మరింత ముఖ్యమైనది: మోడల్ పనితీరు లేదా మోడల్ ఖచ్చితత్వం? ఏది మరియు మీరు దానిని ఎందుకు ఇష్టపడతారు?

ఇది మోసపూరిత ప్రశ్న, కాబట్టి మోడల్ పనితీరు అంటే ఏమిటో మొదట అర్థం చేసుకోవాలి. పనితీరు వేగంగా నిర్వచించబడితే, అది అప్లికేషన్ రకంపై ఆధారపడి ఉంటుంది; నిజ-సమయ పరిస్థితిని కలిగి ఉన్న ఏదైనా అప్లికేషన్ కీలకమైన అంశంగా అధిక వేగం అవసరం.

ఉదాహరణకు, ప్రశ్న ఫలితాలు రావడానికి చాలా సమయం తీసుకుంటే ఉత్తమ శోధన ఫలితాలు తక్కువ విలువైనవిగా మారతాయి.

ఖచ్చితత్వం కంటే ఖచ్చితత్వం మరియు రీకాల్‌కు ఎందుకు ప్రాధాన్యత ఇవ్వాలి అనేదానికి పనితీరు సమర్థనగా ఉపయోగించబడితే, అసమతుల్యమైన ఏదైనా డేటా సెట్ కోసం వ్యాపార కేసును ప్రదర్శించడంలో ఖచ్చితత్వం కంటే F1 స్కోర్ మరింత ఉపయోగకరంగా ఉంటుంది.

39. మీరు అసమానతలతో డేటాసెట్‌ను ఎలా నిర్వహిస్తారు?

అసమతుల్య డేటాసెట్ నమూనా పద్ధతుల నుండి ప్రయోజనం పొందవచ్చు. శాంప్లింగ్ అండర్ లేదా ఓవర్ శాంపిల్ పద్ధతిలో చేయవచ్చు.

శాంప్లింగ్ కింద మైనారిటీ తరగతికి సరిపోయేలా మెజారిటీ తరగతి పరిమాణాన్ని కుదించడానికి అనుమతిస్తుంది, ఇది నిల్వ మరియు రన్-టైమ్ ఎగ్జిక్యూషన్‌కు సంబంధించి వేగాన్ని పెంచడంలో సహాయపడుతుంది కానీ విలువైన డేటాను కోల్పోయేలా చేస్తుంది.

ఓవర్‌స్యాంప్లింగ్ వల్ల కలిగే సమాచార నష్టం సమస్యను పరిష్కరించడానికి, మేము మైనారిటీ తరగతిని అప్‌సాంప్ చేస్తాము; అయినప్పటికీ, ఇది మనకు అతిగా సరిపోయే సమస్యలను ఎదుర్కొంటుంది.

అదనపు వ్యూహాలు:

క్లస్టర్-బేస్డ్ ఓవర్ శాంప్లింగ్- ఈ పరిస్థితిలో మైనారిటీ మరియు మెజారిటీ క్లాస్ ఉదంతాలు వ్యక్తిగతంగా K-మీన్స్ క్లస్టరింగ్ టెక్నిక్‌కి లోబడి ఉంటాయి. డేటాసెట్ క్లస్టర్‌లను కనుగొనడానికి ఇది జరుగుతుంది. అప్పుడు, ప్రతి క్లస్టర్ ఓవర్‌సాంపిల్ చేయబడింది, తద్వారా అన్ని తరగతులు ఒకే పరిమాణంలో ఉంటాయి మరియు తరగతిలోని అన్ని క్లస్టర్‌లు సమాన సంఖ్యలో సందర్భాలను కలిగి ఉంటాయి.
SMOTE: సింథటిక్ మైనారిటీ ఓవర్ శాంప్లింగ్ టెక్నిక్- మైనారిటీ తరగతి నుండి డేటా యొక్క స్లైస్ ఉదాహరణగా ఉపయోగించబడుతుంది, దాని తర్వాత దానితో పోల్చదగిన అదనపు కృత్రిమ సందర్భాలు ఉత్పత్తి చేయబడతాయి మరియు అసలు డేటాసెట్‌కు జోడించబడతాయి. ఈ పద్ధతి సంఖ్యా డేటా పాయింట్లతో బాగా పనిచేస్తుంది.

40. మీరు బూస్టింగ్ మరియు బ్యాగింగ్ మధ్య తేడాను ఎలా గుర్తించగలరు?

సమిష్టి సాంకేతికతలు బ్యాగింగ్ మరియు బూస్టింగ్ అని పిలువబడే సంస్కరణలను కలిగి ఉంటాయి.

బ్యాగింగ్-

అధిక వైవిధ్యం ఉన్న అల్గారిథమ్‌ల కోసం, బ్యాగింగ్ అనేది వ్యత్యాసాన్ని తగ్గించడానికి ఉపయోగించే సాంకేతికత. పక్షపాతానికి గురయ్యే వర్గీకరణదారుల యొక్క అటువంటి కుటుంబం నిర్ణయం చెట్టు కుటుంబం.

నిర్ణయ వృక్షాలు శిక్షణ పొందిన డేటా రకం వారి పనితీరుపై గణనీయమైన ప్రభావాన్ని చూపుతుంది. దీని కారణంగా, చాలా ఎక్కువ ఫైన్-ట్యూనింగ్ ఉన్నప్పటికీ, ఫలితాల సాధారణీకరణ కొన్నిసార్లు వాటిని పొందడం చాలా కష్టం.

నిర్ణయం చెట్ల శిక్షణ డేటా మార్చబడినట్లయితే, ఫలితాలు గణనీయంగా మారుతాయి.

పర్యవసానంగా, బ్యాగింగ్ ఉపయోగించబడుతుంది, దీనిలో అనేక నిర్ణయ వృక్షాలు సృష్టించబడతాయి, వీటిలో ప్రతి ఒక్కటి అసలు డేటా యొక్క నమూనాను ఉపయోగించి శిక్షణ పొందుతుంది మరియు తుది ఫలితం ఈ విభిన్న నమూనాల సగటు.

బూస్టింగ్:

బూస్టింగ్ అనేది n-బలహీనమైన వర్గీకరణ వ్యవస్థతో అంచనాలను రూపొందించే సాంకేతికత, దీనిలో ప్రతి బలహీన వర్గీకరణ దాని బలమైన వర్గీకరణదారుల లోపాలను భర్తీ చేస్తుంది. మేము ఇచ్చిన డేటా సెట్‌లో చెడుగా పని చేసే వర్గీకరణను "బలహీనమైన వర్గీకరణ"గా సూచిస్తాము.

బూస్టింగ్ అనేది ఒక అల్గోరిథం కాకుండా ఒక ప్రక్రియ. లాజిస్టిక్ రిగ్రెషన్ మరియు నిస్సార నిర్ణయ వృక్షాలు బలహీన వర్గీకరణదారులకు సాధారణ ఉదాహరణలు.

అడాబూస్ట్, గ్రేడియంట్ బూస్టింగ్ మరియు XGBoost అనేవి రెండు అత్యంత ప్రజాదరణ పొందిన బూస్టింగ్ అల్గారిథమ్‌లు, అయితే ఇంకా చాలా ఉన్నాయి.

41. ఇండక్టివ్ మరియు డిడక్టివ్ లెర్నింగ్ మధ్య తేడాలను వివరించండి.

గమనించిన ఉదాహరణల సమితి నుండి ఉదాహరణ ద్వారా నేర్చుకునేటప్పుడు, ఒక మోడల్ సాధారణీకరించిన ముగింపుకు రావడానికి ప్రేరక అభ్యాసాన్ని ఉపయోగిస్తుంది. మరోవైపు, తగ్గింపు అభ్యాసంతో, మోడల్ దాని స్వంతంగా ఏర్పడే ముందు ఫలితాన్ని ఉపయోగిస్తుంది.

ఇండక్టివ్ లెర్నింగ్ అనేది పరిశీలనల నుండి తీర్మానాలు చేసే ప్రక్రియ.

డిడక్టివ్ లెర్నింగ్ అనేది అనుమితుల ఆధారంగా పరిశీలనలను సృష్టించే ప్రక్రియ.

ముగింపు

అభినందనలు! ఇవి మెషిన్ లెర్నింగ్ కోసం టాప్ 40 మరియు అంతకంటే ఎక్కువ ఇంటర్వ్యూ ప్రశ్నలు, వీటికి ఇప్పుడు మీకు సమాధానాలు తెలుసు. డేటా సైన్స్ మరియు కృత్రిమ మేధస్సు సాంకేతికత అభివృద్ధి చెందుతున్నందున వృత్తులకు డిమాండ్ కొనసాగుతుంది.

ఈ అత్యాధునిక సాంకేతికతల గురించి వారి పరిజ్ఞానాన్ని అప్‌డేట్ చేసే అభ్యర్థులు మరియు వారి నైపుణ్యాన్ని మెరుగుపరుచుకునే అభ్యర్థులు పోటీ చెల్లింపుతో అనేక రకాల ఉపాధి అవకాశాలను పొందవచ్చు.

విస్తృతంగా అడిగే కొన్ని మెషిన్ లెర్నింగ్ ఇంటర్వ్యూ ప్రశ్నలకు ఎలా ప్రత్యుత్తరం ఇవ్వాలో మీకు గట్టి అవగాహన ఉన్నందున మీరు ఇప్పుడు ఇంటర్వ్యూలకు సమాధానం ఇవ్వడం కొనసాగించవచ్చు.

మీ లక్ష్యాలను బట్టి, కింది దశను తీసుకోండి. Hashdork's సందర్శించడం ద్వారా ఇంటర్వ్యూల కోసం సిద్ధం చేయండి ఇంటర్వ్యూ సిరీస్.

టాప్ 40+ మెషిన్ లెర్నింగ్ ఇంటర్వ్యూ ప్రశ్నలు