విషయ సూచిక[దాచు][చూపండి]
- 1. మెషిన్ లెర్నింగ్, ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ మరియు డీప్ లెర్నింగ్ మధ్య తేడాలను వివరించండి.
- 2. దయచేసి వివిధ రకాల మెషిన్ లెర్నింగ్ గురించి వివరించండి.
- 3. బయాస్ వర్సెస్ వేరియెన్స్ ట్రేడ్-ఆఫ్ అంటే ఏమిటి?
- 4. మెషిన్ లెర్నింగ్ అల్గోరిథంలు కాలక్రమేణా గణనీయంగా అభివృద్ధి చెందాయి. ఇచ్చిన డేటా సెట్ను ఉపయోగించుకోవడానికి సరైన అల్గారిథమ్ను ఎలా ఎంచుకోవాలి?
- 5. సహసంబంధం మరియు సహసంబంధం ఎలా విభిన్నంగా ఉంటాయి?
- 6. మెషిన్ లెర్నింగ్లో, క్లస్టరింగ్ అంటే ఏమిటి?
- 7. మీరు ఇష్టపడే మెషిన్ లెర్నింగ్ అల్గారిథమ్ ఏమిటి?
- 8. మెషిన్ లెర్నింగ్లో లీనియర్ రిగ్రెషన్: ఇది ఏమిటి?
- 9. KNN మరియు k-మీన్స్ క్లస్టరింగ్ మధ్య తేడాలను వివరించండి.
- 10. "ఎంపిక పక్షపాతం" అంటే మీకు అర్థం ఏమిటి?
- 11. బేయెస్ సిద్ధాంతం అంటే ఏమిటి?
- 12. మెషిన్ లెర్నింగ్ మోడల్లో, 'ట్రైనింగ్ సెట్' మరియు 'టెస్ట్ సెట్' అంటే ఏమిటి?
- 13. మెషిన్ లెర్నింగ్లో పరికల్పన అంటే ఏమిటి?
- 14. మెషిన్ లెర్నింగ్ ఓవర్ ఫిట్టింగ్ అంటే ఏమిటి మరియు దానిని ఎలా నిరోధించవచ్చు?
- 15. నైవ్ బేస్ వర్గీకరణలు అంటే ఏమిటి?
- 16. కాస్ట్ ఫంక్షన్లు మరియు లాస్ ఫంక్షన్లు అంటే ఏమిటి?
- 17. ఉత్పాదక నమూనాను వివక్షతతో కూడిన నమూనా నుండి ఏది వేరు చేస్తుంది?
- 18. టైప్ I మరియు టైప్ II లోపాల మధ్య వైవిధ్యాలను వివరించండి.
- 19. మెషిన్ లెర్నింగ్లో, సమిష్టి అభ్యాస సాంకేతికత అంటే ఏమిటి?
- 20. పారామెట్రిక్ మోడల్స్ అంటే ఏమిటి? ఒక ఉదాహరణ ఇవ్వండి.
- 21. సహకార వడపోతను వివరించండి. అలాగే కంటెంట్ ఆధారిత ఫిల్టరింగ్?
- 22. టైమ్ సిరీస్ ద్వారా మీరు సరిగ్గా అర్థం ఏమిటి?
- 23. గ్రేడియంట్ బూస్టింగ్ మరియు రాండమ్ ఫారెస్ట్ అల్గారిథమ్ల మధ్య వైవిధ్యాలను వివరించండి.
- 24. మీకు గందరగోళ మాతృక ఎందుకు అవసరం? ఇది ఏమిటి?
- 25. సూత్రప్రాయ భాగాల విశ్లేషణ అంటే ఏమిటి?
- 26. PCA (ప్రిన్సిపల్ కాంపోనెంట్ అనాలిసిస్)కి కాంపోనెంట్ రొటేషన్ ఎందుకు చాలా కీలకం?
- 27. క్రమబద్ధీకరణ మరియు సాధారణీకరణ ఒకదానికొకటి ఎలా మారుతాయి?
- 28. సాధారణీకరణ మరియు ప్రమాణీకరణ ఒకదానికొకటి ఎలా భిన్నంగా ఉంటాయి?
- 29. “వైవిధ్య ద్రవ్యోల్బణం కారకం” అంటే సరిగ్గా ఏమిటి?
- 30. శిక్షణ సెట్ పరిమాణం ఆధారంగా, మీరు వర్గీకరణను ఎలా ఎంచుకుంటారు?
- 31. మెషిన్ లెర్నింగ్లో ఏ అల్గారిథమ్ను "లేజీ లెర్నర్" అని పిలుస్తారు మరియు ఎందుకు?
- 32. ROC కర్వ్ మరియు AUC అంటే ఏమిటి?
- 33. హైపర్ పారామీటర్లు అంటే ఏమిటి? మోడల్ పారామితుల నుండి వాటిని ప్రత్యేకంగా ఏమి చేస్తుంది?
- 34. F1 స్కోర్, రీకాల్ మరియు ఖచ్చితత్వం అంటే ఏమిటి?
- 35. క్రాస్ ధ్రువీకరణ అంటే ఏమిటి?
- 36. మీ మోడల్లో గణనీయమైన వ్యత్యాసాన్ని మీరు కనుగొన్నారని అనుకుందాం. మీ అభిప్రాయం ప్రకారం, ఈ పరిస్థితిని నిర్వహించడానికి ఏ అల్గోరిథం బాగా సరిపోతుంది?
- 37. లాస్సో రిగ్రెషన్ నుండి రిడ్జ్ రిగ్రెషన్ను ఏది వేరు చేస్తుంది?
- 38. ఏది మరింత ముఖ్యమైనది: మోడల్ పనితీరు లేదా మోడల్ ఖచ్చితత్వం? ఏది మరియు మీరు దానిని ఎందుకు ఇష్టపడతారు?
- 39. మీరు అసమానతలతో డేటాసెట్ను ఎలా నిర్వహిస్తారు?
- 40. మీరు బూస్టింగ్ మరియు బ్యాగింగ్ మధ్య తేడాను ఎలా గుర్తించగలరు?
- 41. ఇండక్టివ్ మరియు డిడక్టివ్ లెర్నింగ్ మధ్య తేడాలను వివరించండి.
- ముగింపు
వ్యక్తులకు సమాచారం మరియు సేవల ప్రాప్యతను పెంచడానికి వ్యాపారాలు కృత్రిమ మేధస్సు (AI) మరియు మెషిన్ లెర్నింగ్ వంటి అత్యాధునిక సాంకేతికతను ఉపయోగించుకుంటున్నాయి.
ఈ సాంకేతికతలను బ్యాంకింగ్, ఫైనాన్స్, రిటైల్, తయారీ మరియు ఆరోగ్య సంరక్షణ వంటి వివిధ పరిశ్రమలు అవలంబిస్తున్నాయి.
డేటా సైంటిస్టులు, ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ ఇంజనీర్లు, మెషిన్ లెర్నింగ్ ఇంజనీర్లు మరియు డేటా అనలిస్ట్ల కోసం AIని ఉపయోగించుకునే సంస్థాగత పాత్రలలో అత్యంత డిమాండ్ ఉంది.
ఈ పోస్ట్ మిమ్మల్ని వివిధ రకాలుగా నడిపిస్తుంది యంత్ర అభ్యాసం మీ ఆదర్శ ఉద్యోగం కోసం వెతుకుతున్నప్పుడు మీరు అడిగే ఏవైనా ప్రశ్నల కోసం సిద్ధంగా ఉండటానికి మీకు సహాయం చేయడానికి, ప్రాథమిక నుండి సంక్లిష్టమైన వరకు ఇంటర్వ్యూ ప్రశ్నలు.
1. మెషిన్ లెర్నింగ్, ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ మరియు డీప్ లెర్నింగ్ మధ్య తేడాలను వివరించండి.
ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ వివిధ రకాల మెషిన్ లెర్నింగ్ మరియు డీప్ లెర్నింగ్ విధానాలను ఉపయోగిస్తుంది, ఇవి కంప్యూటర్ సిస్టమ్లు తర్కం మరియు నియమాలతో మానవ-వంటి మేధస్సును ఉపయోగించి పనులను నిర్వహించడానికి అనుమతిస్తాయి.
మెషిన్ లెర్నింగ్ వివిధ రకాల గణాంకాలు మరియు డీప్ లెర్నింగ్ విధానాలను ఉపయోగిస్తుంది, యంత్రాలు వాటి పూర్వ పనితీరు నుండి నేర్చుకునేలా మరియు మానవ పర్యవేక్షణ లేకుండా వారి స్వంతంగా కొన్ని పనులను చేయడంలో మరింత ప్రవీణులుగా మారతాయి.
డీప్ లెర్నింగ్ అనేది సాఫ్ట్వేర్ దాని నుండి నేర్చుకోవడానికి మరియు వాయిస్ మరియు పిక్చర్ రికగ్నిషన్ వంటి వివిధ రకాల వాణిజ్య విధులను నిర్వహించడానికి అనుమతించే అల్గారిథమ్ల సమాహారం.
వారి బహుళస్థాయిలను బహిర్గతం చేసే వ్యవస్థలు నరాల నెట్వర్క్ నేర్చుకోవడం కోసం చాలా ఎక్కువ మొత్తంలో డేటా లోతైన అభ్యాసం చేయగలదు.
2. దయచేసి వివిధ రకాల మెషిన్ లెర్నింగ్ గురించి వివరించండి.
మెషిన్ లెర్నింగ్ మూడు విభిన్న రకాలుగా విస్తృతంగా ఉంది:
- పర్యవేక్షించబడే అభ్యాసం: పర్యవేక్షించబడే యంత్ర అభ్యాసంలో లేబుల్ చేయబడిన లేదా చారిత్రక డేటాను ఉపయోగించి మోడల్ అంచనాలు లేదా తీర్పులను సృష్టిస్తుంది. వాటి అర్థాన్ని పెంచడానికి ట్యాగ్ చేయబడిన లేదా లేబుల్ చేయబడిన డేటా సెట్లను లేబుల్ చేయబడిన డేటాగా సూచిస్తారు.
- పర్యవేక్షించబడని అభ్యాసం: మా వద్ద పర్యవేక్షించబడని అభ్యాసం కోసం లేబుల్ చేయబడిన డేటా లేదు. ఇన్కమింగ్ డేటాలో, మోడల్ నమూనాలు, విచిత్రాలు మరియు సహసంబంధాలను కనుగొనగలదు.
- ఉపబల అభ్యాసం: మోడల్ చేయగలదు ఉపబలాన్ని ఉపయోగించడం ద్వారా నేర్చుకోండి అభ్యాసం మరియు దాని పూర్వ ప్రవర్తనకు లభించిన బహుమతులు.
3. బయాస్ వర్సెస్ వేరియెన్స్ ట్రేడ్-ఆఫ్ అంటే ఏమిటి?
ఓవర్ ఫిట్టింగ్ అనేది పక్షపాతం యొక్క ఫలితం, ఇది మోడల్ డేటాకు సరిపోయే స్థాయి. పక్షపాతం అనేది మీలో సరికాని లేదా చాలా సులభమైన ఊహల వల్ల కలుగుతుంది యంత్ర అభ్యాస అల్గోరిథం.
వైవిధ్యం అనేది మీ ML అల్గారిథమ్లోని సంక్లిష్టత వలన సంభవించే పొరపాట్లను సూచిస్తుంది, ఇది శిక్షణ డేటా మరియు ఓవర్ ఫిట్టింగ్లో పెద్ద స్థాయి వ్యత్యాసానికి సున్నితత్వాన్ని ఉత్పత్తి చేస్తుంది.
వైవిధ్యం అనేది ఇన్పుట్లపై ఆధారపడి మోడల్ ఎంత మారుతుందో.
మరో మాటలో చెప్పాలంటే, ప్రాథమిక నమూనాలు చాలా పక్షపాతంతో ఉన్నప్పటికీ స్థిరంగా ఉంటాయి (తక్కువ వ్యత్యాసం). సంక్లిష్టమైన మోడళ్లతో ఓవర్ఫిట్ చేయడం అనేది ఒక సమస్య, అయినప్పటికీ అవి మోడల్ యొక్క వాస్తవికతను (తక్కువ పక్షపాతం) సంగ్రహిస్తాయి.
అధిక వైవిధ్యం మరియు అధిక పక్షపాతం రెండింటినీ నిరోధించడానికి, ఉత్తమ లోపం తగ్గింపు కోసం పక్షపాతం మరియు వ్యత్యాసాల మధ్య ట్రేడ్-ఆఫ్ అవసరం.
4. మెషిన్ లెర్నింగ్ అల్గోరిథంలు కాలక్రమేణా గణనీయంగా అభివృద్ధి చెందాయి. ఇచ్చిన డేటా సెట్ను ఉపయోగించుకోవడానికి సరైన అల్గారిథమ్ను ఎలా ఎంచుకోవాలి?
ఉపయోగించాల్సిన యంత్ర అభ్యాస సాంకేతికత నిర్దిష్ట డేటాసెట్లోని డేటా రకంపై మాత్రమే ఆధారపడి ఉంటుంది.
డేటా లీనియర్గా ఉన్నప్పుడు, లీనియర్ రిగ్రెషన్ ఉపయోగించబడుతుంది. డేటా నాన్-లీనియారిటీని సూచిస్తే బ్యాగింగ్ పద్ధతి మెరుగ్గా పని చేస్తుంది. డేటా మూల్యాంకనం లేదా వాణిజ్య ప్రయోజనాల కోసం అన్వయించబడినట్లయితే మేము నిర్ణయం ట్రీలను లేదా SVMని ఉపయోగించుకోవచ్చు.
డేటాసెట్లో ఫోటోలు, వీడియోలు మరియు ఆడియో ఉంటే ఖచ్చితమైన సమాధానాన్ని పొందడానికి న్యూరల్ నెట్వర్క్లు ఉపయోగపడతాయి.
ఒక నిర్దిష్ట పరిస్థితి లేదా డేటా సేకరణ కోసం అల్గారిథమ్ ఎంపిక కేవలం ఒకే కొలతపై చేయలేము.
ఉత్తమ ఫిట్ పద్ధతిని అభివృద్ధి చేసే లక్ష్యం కోసం, మేము ముందుగా అన్వేషణాత్మక డేటా విశ్లేషణ (EDA)ని ఉపయోగించి డేటాను పరిశీలించాలి మరియు డేటాసెట్ను ఉపయోగించుకునే లక్ష్యాన్ని అర్థం చేసుకోవాలి.
5. సహసంబంధం మరియు సహసంబంధం ఎలా విభిన్నంగా ఉంటాయి?
రెండు వేరియబుల్స్ ఒకదానికొకటి ఎలా అనుసంధానించబడి ఉన్నాయో మరియు మరొకదానిలో మార్పులకు ప్రతిస్పందనగా ఒకటి ఎలా మారవచ్చో కోవియారెన్స్ అంచనా వేస్తుంది.
ఫలితం సానుకూలంగా ఉంటే, వేరియబుల్స్ మధ్య ప్రత్యక్ష సంబంధం ఉందని మరియు అన్ని ఇతర పరిస్థితులు స్థిరంగా ఉన్నాయని భావించి, బేస్ వేరియబుల్లో పెరుగుదల లేదా తగ్గుదలతో ఒకటి పెరుగుతుందని లేదా తగ్గుతుందని సూచిస్తుంది.
సహసంబంధం రెండు యాదృచ్ఛిక వేరియబుల్స్ మధ్య లింక్ను కొలుస్తుంది మరియు మూడు విభిన్న విలువలను మాత్రమే కలిగి ఉంటుంది: 1, 0 మరియు -1.
6. మెషిన్ లెర్నింగ్లో, క్లస్టరింగ్ అంటే ఏమిటి?
సమూహ డేటా పాయింట్లను కలిపి ఉంచే పర్యవేక్షించబడని అభ్యాస పద్ధతులను క్లస్టరింగ్ అంటారు. డేటా పాయింట్ల సేకరణతో, క్లస్టరింగ్ టెక్నిక్ని అన్వయించవచ్చు.
ఈ వ్యూహాన్ని ఉపయోగించి మీరు అన్ని డేటా పాయింట్లను వాటి ఫంక్షన్ల ప్రకారం సమూహపరచవచ్చు.
ఒకే వర్గానికి చెందిన డేటా పాయింట్ల లక్షణాలు మరియు లక్షణాలు ఒకే విధంగా ఉంటాయి, అయితే ప్రత్యేక సమూహాలలోకి వచ్చే డేటా పాయింట్లు భిన్నంగా ఉంటాయి.
గణాంక డేటాను విశ్లేషించడానికి ఈ విధానాన్ని ఉపయోగించవచ్చు.
7. మీరు ఇష్టపడే మెషిన్ లెర్నింగ్ అల్గారిథమ్ ఏమిటి?
ఈ ప్రశ్నలో మీ ప్రాధాన్యతలను మరియు ప్రత్యేక ప్రతిభను ప్రదర్శించడానికి మీకు అవకాశం ఉంది, అలాగే అనేక మెషీన్ లెర్నింగ్ టెక్నిక్ల గురించి మీకున్న సమగ్ర పరిజ్ఞానం కూడా ఉంది.
ఆలోచించడానికి ఇక్కడ కొన్ని సాధారణ యంత్ర అభ్యాస అల్గారిథమ్లు ఉన్నాయి:
- లీనియర్ రిగ్రెషన్
- లాజిస్టిక్ రిగ్రెషన్
- నైవ్ బేయెస్
- నిర్ణయం చెట్లు
- K అంటే
- యాదృచ్ఛిక అటవీ అల్గోరిథం
- K-సమీప పొరుగు (KNN)
8. మెషిన్ లెర్నింగ్లో లీనియర్ రిగ్రెషన్: ఇది ఏమిటి?
పర్యవేక్షించబడే మెషీన్ లెర్నింగ్ అల్గోరిథం లీనియర్ రిగ్రెషన్.
డిపెండెంట్ మరియు ఇండిపెండెంట్ వేరియబుల్స్ మధ్య లీనియర్ కనెక్షన్ని నిర్ణయించడానికి ప్రిడిక్టివ్ అనాలిసిస్లో ఇది ఉపయోగించబడుతుంది.
లీనియర్ రిగ్రెషన్ యొక్క సమీకరణం క్రింది విధంగా ఉంది:
Y = A + BX
ఎక్కడ:
- ఇన్పుట్ లేదా ఇండిపెండెంట్ వేరియబుల్ని X అంటారు.
- డిపెండెంట్ లేదా అవుట్పుట్ వేరియబుల్ Y.
- X యొక్క గుణకం b, మరియు దాని అంతరాయం a.
9. KNN మరియు k-మీన్స్ క్లస్టరింగ్ మధ్య తేడాలను వివరించండి.
ప్రాథమిక వ్యత్యాసం ఏమిటంటే, KNN (వర్గీకరణ పద్ధతి, పర్యవేక్షించబడిన అభ్యాసం)కి లేబుల్ చేయబడిన పాయింట్లు అవసరం అయితే k-అంటే కాదు (క్లస్టరింగ్ అల్గోరిథం, పర్యవేక్షించబడని అభ్యాసం).
మీరు K-సమీప పొరుగువారిని ఉపయోగించడం ద్వారా లేబుల్ చేయబడిన డేటాను లేబుల్ చేయని పాయింట్గా వర్గీకరించవచ్చు. K-అంటే క్లస్టరింగ్ అనేది లేబుల్ చేయని పాయింట్లను ఎలా సమూహపరచాలో తెలుసుకోవడానికి పాయింట్ల మధ్య సగటు దూరాన్ని ఉపయోగిస్తుంది.
10. "ఎంపిక పక్షపాతం" అంటే మీకు అర్థం ఏమిటి?
ప్రయోగం యొక్క నమూనా దశలో పక్షపాతం గణాంక సరికాని కారణంగా ఉంది.
ఒక నమూనా సమూహం సరికాని ఫలితంగా ప్రయోగంలో ఇతర సమూహాల కంటే తరచుగా ఎంపిక చేయబడుతుంది.
ఎంపిక పక్షపాతం గుర్తించబడకపోతే, అది తప్పు ముగింపుకు దారితీయవచ్చు.
11. బేయెస్ సిద్ధాంతం అంటే ఏమిటి?
మేము ఇతర సంభావ్యతలను గురించి తెలుసుకున్నప్పుడు, మేము బేయస్ సిద్ధాంతాన్ని ఉపయోగించి సంభావ్యతను గుర్తించగలము. ఇది ఇతర మాటలలో, ముందస్తు సమాచారం ఆధారంగా సంభవించే పృష్ఠ సంభావ్యతను అందిస్తుంది.
షరతులతో కూడిన సంభావ్యతలను అంచనా వేయడానికి ఒక ధ్వని పద్ధతి ఈ సిద్ధాంతం ద్వారా అందించబడింది.
వర్గీకరణ ప్రిడిక్టివ్ మోడలింగ్ సమస్యలను అభివృద్ధి చేసినప్పుడు మరియు శిక్షణకు నమూనాను అమర్చినప్పుడు యంత్ర అభ్యాసంలో డేటాసెట్, బేయెస్ సిద్ధాంతం వర్తించబడుతుంది (అనగా నైవ్ బేస్, బేయెస్ ఆప్టిమల్ క్లాసిఫైయర్).
12. మెషిన్ లెర్నింగ్ మోడల్లో, 'ట్రైనింగ్ సెట్' మరియు 'టెస్ట్ సెట్' అంటే ఏమిటి?
శిక్షణ సెట్:
- శిక్షణ సెట్లో విశ్లేషణ మరియు అభ్యాసం కోసం మోడల్కు పంపబడే సందర్భాలు ఉంటాయి.
- మోడల్కు శిక్షణ ఇవ్వడానికి ఉపయోగించే లేబుల్ డేటా ఇది.
- సాధారణంగా, మొత్తం డేటాలో 70% శిక్షణ డేటాసెట్గా ఉపయోగించబడుతుంది.
పరీక్ష సెట్:
- మోడల్ యొక్క పరికల్పన ఉత్పత్తి ఖచ్చితత్వాన్ని అంచనా వేయడానికి పరీక్ష సెట్ ఉపయోగించబడుతుంది.
- మేము లేబుల్ చేయబడిన డేటా లేకుండా పరీక్షిస్తాము మరియు ఫలితాలను నిర్ధారించడానికి లేబుల్లను ఉపయోగిస్తాము.
- మిగిలిన 30% పరీక్ష డేటాసెట్గా ఉపయోగించబడుతుంది.
13. మెషిన్ లెర్నింగ్లో పరికల్పన అంటే ఏమిటి?
మెషిన్ లెర్నింగ్ అనేది ఇన్పుట్కి లింక్ చేసే ఫంక్షన్ను బాగా అర్థం చేసుకోవడానికి ఇప్పటికే ఉన్న డేటాసెట్ల వినియోగాన్ని అనుమతిస్తుంది. దీనిని ఫంక్షన్ ఉజ్జాయింపు అంటారు.
ఈ సందర్భంలో, ఇవ్వబడిన పరిస్థితి ఆధారంగా సాధ్యమయ్యే ఉత్తమ మార్గంలో అన్ని ఊహించదగిన పరిశీలనలను బదిలీ చేయడానికి తెలియని లక్ష్య విధికి ఉజ్జాయింపు తప్పనిసరిగా ఉపయోగించాలి.
మెషిన్ లెర్నింగ్లో, పరికల్పన అనేది లక్ష్య పనితీరును అంచనా వేయడంలో మరియు తగిన ఇన్పుట్-టు-అవుట్పుట్ మ్యాపింగ్లను పూర్తి చేయడంలో సహాయపడే నమూనా.
అల్గారిథమ్ల ఎంపిక మరియు రూపకల్పన మోడల్ ద్వారా సూచించబడే సాధ్యమైన పరికల్పనల స్థలాన్ని నిర్వచించడానికి అనుమతిస్తుంది.
ఒకే పరికల్పన కోసం, చిన్న అక్షరం h (h) ఉపయోగించబడుతుంది, అయితే శోధించబడుతున్న మొత్తం పరికల్పన స్థలం కోసం మూలధనం h (H) ఉపయోగించబడుతుంది. మేము ఈ సంకేతాలను క్లుప్తంగా సమీక్షిస్తాము:
- పరికల్పన (h) అనేది ఒక నిర్దిష్ట నమూనా, ఇది అవుట్పుట్కు ఇన్పుట్ యొక్క మ్యాపింగ్ను సులభతరం చేస్తుంది, ఇది మూల్యాంకనం మరియు అంచనా కోసం ఉపయోగించబడుతుంది.
- పరికల్పన సమితి (H) అనేది అవుట్పుట్లకు ఇన్పుట్లను మ్యాప్ చేయడానికి ఉపయోగించే పరికల్పనల యొక్క శోధించదగిన స్థలం. ఇష్యూ ఫ్రేమింగ్, మోడల్ మరియు మోడల్ కాన్ఫిగరేషన్ సాధారణ పరిమితులకు కొన్ని ఉదాహరణలు.
14. మెషిన్ లెర్నింగ్ ఓవర్ ఫిట్టింగ్ అంటే ఏమిటి మరియు దానిని ఎలా నిరోధించవచ్చు?
ఒక యంత్రం తగినంత డేటాసెట్ నుండి తెలుసుకోవడానికి ప్రయత్నించినప్పుడు, ఓవర్ ఫిట్టింగ్ జరుగుతుంది.
ఫలితంగా, ఓవర్ఫిట్టింగ్ డేటా వాల్యూమ్తో విలోమ సంబంధం కలిగి ఉంటుంది. క్రాస్-ధృవీకరణ విధానం చిన్న డేటాసెట్ల కోసం ఓవర్ఫిట్ను నివారించేందుకు అనుమతిస్తుంది. ఈ పద్ధతిలో డేటాసెట్ రెండు భాగాలుగా విభజించబడింది.
పరీక్ష మరియు శిక్షణ కోసం డేటాసెట్ ఈ రెండు భాగాలను కలిగి ఉంటుంది. శిక్షణ డేటాసెట్ మోడల్ను రూపొందించడానికి ఉపయోగించబడుతుంది, అయితే టెస్టింగ్ డేటాసెట్ విభిన్న ఇన్పుట్లను ఉపయోగించి మోడల్ను మూల్యాంకనం చేయడానికి ఉపయోగించబడుతుంది.
అతిగా అమర్చడాన్ని నిరోధించడం ఇలా.
15. నైవ్ బేస్ వర్గీకరణలు అంటే ఏమిటి?
వివిధ వర్గీకరణ పద్ధతులు నైవ్ బేయెస్ వర్గీకరణదారులను తయారు చేస్తాయి. ఈ వర్గీకరణలు అని పిలువబడే అల్గారిథమ్ల సమితి అన్నీ ఒకే ప్రాథమిక ఆలోచనపై పనిచేస్తాయి.
అమాయక బేయెస్ వర్గీకరణదారులు చేసిన ఊహ ఏమిటంటే, ఒక ఫీచర్ యొక్క ఉనికి లేదా లేకపోవడం మరొక లక్షణం యొక్క ఉనికి లేదా లేకపోవడంపై ఎటువంటి ప్రభావం చూపదు.
మరో మాటలో చెప్పాలంటే, ప్రతి డేటాసెట్ లక్షణం సమానంగా ముఖ్యమైనది మరియు స్వతంత్రంగా ఉంటుందని ఊహిస్తున్నందున దీనిని మనం "అమాయక" అని సూచిస్తాము.
అమాయక బేయెస్ వర్గీకరణలను ఉపయోగించి వర్గీకరణ జరుగుతుంది. స్వాతంత్ర్య ఆవరణ నిజమైనప్పుడు అవి చాలా క్లిష్టమైన ప్రిడిక్టర్ల కంటే ఉపయోగించడానికి సులభమైనవి మరియు మెరుగైన ఫలితాలను ఉత్పత్తి చేస్తాయి.
టెక్స్ట్ అనాలిసిస్, స్పామ్ ఫిల్టరింగ్ మరియు రికమండేషన్ సిస్టమ్లలో, వారు పని చేస్తారు.
16. కాస్ట్ ఫంక్షన్లు మరియు లాస్ ఫంక్షన్లు అంటే ఏమిటి?
"లాస్ ఫంక్షన్" అనే పదబంధం కేవలం ఒక డేటాను పరిగణనలోకి తీసుకున్నప్పుడు నష్టాన్ని కంప్యూటింగ్ చేసే ప్రక్రియను సూచిస్తుంది.
దీనికి విరుద్ధంగా, మేము అనేక డేటా కోసం మొత్తం తప్పులను గుర్తించడానికి ఖర్చు ఫంక్షన్ను ఉపయోగిస్తాము. ముఖ్యమైన వ్యత్యాసం లేదు.
మరో మాటలో చెప్పాలంటే, కాస్ట్ ఫంక్షన్లు మొత్తం శిక్షణ డేటాసెట్కు వ్యత్యాసాన్ని కలుపుతాయి, నష్ట విధులు ఒకే రికార్డ్ కోసం వాస్తవ మరియు అంచనా విలువల మధ్య వ్యత్యాసాన్ని సంగ్రహించడానికి రూపొందించబడ్డాయి.
17. ఉత్పాదక నమూనాను వివక్షతతో కూడిన నమూనా నుండి ఏది వేరు చేస్తుంది?
ఒక వివక్షత మోడల్ అనేక డేటా వర్గాల మధ్య తేడాలను నేర్చుకుంటుంది. ఉత్పాదక నమూనా వివిధ డేటా రకాలను ఎంచుకుంటుంది.
వర్గీకరణ సమస్యలపై, వివక్షత గల నమూనాలు తరచుగా ఇతర నమూనాలను అధిగమిస్తాయి.
18. టైప్ I మరియు టైప్ II లోపాల మధ్య వైవిధ్యాలను వివరించండి.
తప్పుడు పాజిటివ్లు టైప్ I ఎర్రర్ల కేటగిరీ కిందకు వస్తాయి, అయితే తప్పుడు ప్రతికూలతలు టైప్ II ఎర్రర్ల కిందకు వస్తాయి (వాస్తవానికి ఇది జరిగినప్పుడు ఏమీ జరగలేదని క్లెయిమ్ చేయడం).
19. మెషిన్ లెర్నింగ్లో, సమిష్టి అభ్యాస సాంకేతికత అంటే ఏమిటి?
సమిష్టి అభ్యాసం అని పిలువబడే ఒక సాంకేతికత మరింత శక్తివంతమైన నమూనాలను ఉత్పత్తి చేయడానికి అనేక యంత్ర అభ్యాస నమూనాలను మిళితం చేస్తుంది.
వివిధ కారణాల వల్ల మోడల్ మారవచ్చు. అనేక కారణాలు:
- వివిధ జనాభా
- వివిధ పరికల్పనలు
- వివిధ మోడలింగ్ పద్ధతులు
మోడల్ శిక్షణ మరియు పరీక్ష డేటాను ఉపయోగిస్తున్నప్పుడు మేము సమస్యను ఎదుర్కొంటాము. పక్షపాతం, వైవిధ్యం మరియు తగ్గించలేని లోపం ఈ పొరపాటు యొక్క సాధ్యమైన రకాలు.
ఇప్పుడు, మేము మోడల్లో పక్షపాతం మరియు వ్యత్యాసాల మధ్య ఈ బ్యాలెన్స్ను బయాస్-వేరియెన్స్ ట్రేడ్-ఆఫ్ అని పిలుస్తాము మరియు ఇది ఎల్లప్పుడూ ఉనికిలో ఉండాలి. సమిష్టి అభ్యాసాన్ని ఉపయోగించడం ద్వారా ఈ ట్రేడ్-ఆఫ్ సాధించబడుతుంది.
వివిధ సమిష్టి విధానాలు అందుబాటులో ఉన్నప్పటికీ, అనేక నమూనాలను కలపడానికి రెండు సాధారణ వ్యూహాలు ఉన్నాయి:
- బ్యాగింగ్ అని పిలువబడే స్థానిక విధానం అదనపు శిక్షణా సెట్లను ఉత్పత్తి చేయడానికి శిక్షణా సమితిని ఉపయోగిస్తుంది.
- బూస్టింగ్, మరింత అధునాతన సాంకేతికత: శిక్షణా సెట్ కోసం ఆదర్శవంతమైన వెయిటింగ్ ఫార్ములాను కనుగొనడానికి బ్యాగింగ్ వంటిది, బూస్టింగ్ ఉపయోగించబడుతుంది.
20. పారామెట్రిక్ మోడల్స్ అంటే ఏమిటి? ఒక ఉదాహరణ ఇవ్వండి.
పారామెట్రిక్ మోడళ్లలో పరిమిత మొత్తంలో పారామితులు ఉన్నాయి. డేటాను అంచనా వేయడానికి, మీరు తెలుసుకోవలసినది మోడల్ పారామితులను మాత్రమే.
కిందివి సాధారణ ఉదాహరణలు: లాజిస్టిక్ రిగ్రెషన్, లీనియర్ రిగ్రెషన్ మరియు లీనియర్ SVMలు. నాన్-పారామెట్రిక్ మోడల్లు అనువైనవి ఎందుకంటే అవి అపరిమిత సంఖ్యలో పారామితులను కలిగి ఉంటాయి.
డేటా అంచనాల కోసం మోడల్ యొక్క పారామితులు మరియు గమనించిన డేటా స్థితి అవసరం. ఇక్కడ కొన్ని సాధారణ ఉదాహరణలు ఉన్నాయి: టాపిక్ మోడల్స్, నిర్ణయం చెట్లు మరియు k-సమీప పొరుగువారు.
21. సహకార వడపోతను వివరించండి. అలాగే కంటెంట్ ఆధారిత ఫిల్టరింగ్?
అనుకూలమైన కంటెంట్ సూచనలను రూపొందించడానికి ప్రయత్నించిన మరియు నిజమైన పద్ధతి సహకార వడపోత.
సహకార వడపోత అని పిలువబడే సిఫార్సు వ్యవస్థ యొక్క రూపం వినియోగదారు ప్రాధాన్యతలను భాగస్వామ్య ఆసక్తులతో సమతుల్యం చేయడం ద్వారా తాజా విషయాలను తెలియజేస్తుంది.
కంటెంట్ ఆధారిత సిఫార్సు సిస్టమ్లు పరిగణించే ఏకైక విషయం వినియోగదారు ప్రాధాన్యతలు. వినియోగదారు ముందస్తు ఎంపికల దృష్ట్యా, సంబంధిత మెటీరియల్ నుండి కొత్త సిఫార్సులు అందించబడ్డాయి.
22. టైమ్ సిరీస్ ద్వారా మీరు సరిగ్గా అర్థం ఏమిటి?
సమయ శ్రేణి అనేది ఆరోహణ క్రమంలో ఉన్న సంఖ్యల సమాహారం. ముందుగా నిర్ణయించిన సమయ వ్యవధిలో, ఇది ఎంచుకున్న డేటా పాయింట్ల కదలికను పర్యవేక్షిస్తుంది మరియు క్రమానుగతంగా డేటా పాయింట్లను సంగ్రహిస్తుంది.
సమయ శ్రేణికి కనీస లేదా గరిష్ట సమయ ఇన్పుట్ లేదు.
వారి ప్రత్యేక అవసరాలకు అనుగుణంగా డేటాను విశ్లేషించడానికి విశ్లేషకులు సమయ శ్రేణిని తరచుగా ఉపయోగిస్తారు.
23. గ్రేడియంట్ బూస్టింగ్ మరియు రాండమ్ ఫారెస్ట్ అల్గారిథమ్ల మధ్య వైవిధ్యాలను వివరించండి.
రాండమ్ ఫారెస్ట్:
- పెద్ద సంఖ్యలో నిర్ణయ వృక్షాలు చివరలో కలిసి ఉంటాయి మరియు వాటిని యాదృచ్ఛిక అడవులు అంటారు.
- గ్రేడియంట్ బూస్టింగ్ ప్రతి చెట్టును ఇతరులతో సంబంధం లేకుండా ఉత్పత్తి చేస్తుంది, యాదృచ్ఛిక అటవీ ప్రతి చెట్టును ఒక్కొక్కటిగా నిర్మిస్తుంది.
- మల్టీక్లాస్ వస్తువు గుర్తింపు యాదృచ్ఛిక అడవులతో బాగా పనిచేస్తుంది.
గ్రేడియంట్ బూస్టింగ్:
- యాదృచ్ఛిక అడవులు ప్రక్రియ ముగింపులో నిర్ణయ వృక్షాలను చేరినప్పుడు, గ్రేడియంట్ బూస్టింగ్ మెషీన్లు వాటిని మొదటి నుండి కలుపుతాయి.
- పారామితులను సముచితంగా సర్దుబాటు చేస్తే, ఫలితాల పరంగా గ్రేడియంట్ బూస్టింగ్ యాదృచ్ఛిక అడవులను అధిగమిస్తుంది, అయితే డేటా సెట్లో చాలా అవుట్లయర్లు, క్రమరాహిత్యాలు లేదా శబ్దం ఉంటే అది స్మార్ట్ ఎంపిక కాదు, ఎందుకంటే ఇది మోడల్ ఓవర్ఫిట్గా మారవచ్చు.
- అసమతుల్య డేటా ఉన్నప్పుడు, రియల్ టైమ్ రిస్క్ అసెస్మెంట్లో ఉన్నట్లుగా, గ్రేడియంట్ బూస్టింగ్ బాగా పనిచేస్తుంది.
24. మీకు గందరగోళ మాతృక ఎందుకు అవసరం? ఇది ఏమిటి?
కన్ఫ్యూజన్ మ్యాట్రిక్స్ అని పిలువబడే టేబుల్, కొన్నిసార్లు ఎర్రర్ మ్యాట్రిక్స్ అని పిలుస్తారు, నిజమైన విలువలు తెలిసిన పరీక్ష డేటా సెట్లో వర్గీకరణ మోడల్ లేదా వర్గీకరణ ఎంత బాగా పనిచేస్తుందో చూపించడానికి విస్తృతంగా ఉపయోగించబడుతుంది.
మోడల్ లేదా అల్గోరిథం ఎలా పని చేస్తుందో చూడడానికి ఇది మాకు వీలు కల్పిస్తుంది. ఇది వివిధ కోర్సుల మధ్య అపార్థాలను గుర్తించడాన్ని సులభతరం చేస్తుంది.
మోడల్ లేదా అల్గోరిథం ఎంత బాగా నిర్వహించబడుతుందో అంచనా వేయడానికి ఇది ఒక మార్గంగా ఉపయోగపడుతుంది.
వర్గీకరణ నమూనా యొక్క అంచనాలు గందరగోళ మాతృకలో సంకలనం చేయబడ్డాయి. ప్రతి తరగతి లేబుల్ యొక్క గణన విలువలు సరైన మరియు తప్పు అంచనాల మొత్తం సంఖ్యను విచ్ఛిన్నం చేయడానికి ఉపయోగించబడ్డాయి.
ఇది వర్గీకరణకర్త చేసిన లోపాలతో పాటు వర్గీకరణదారుల వల్ల కలిగే వివిధ రకాల లోపాల వివరాలను అందిస్తుంది.
25. సూత్రప్రాయ భాగాల విశ్లేషణ అంటే ఏమిటి?
ఒకదానితో ఒకటి పరస్పర సంబంధం ఉన్న వేరియబుల్స్ సంఖ్యను తగ్గించడం ద్వారా, డేటా సేకరణ యొక్క పరిమాణాన్ని తగ్గించడం లక్ష్యం. కానీ వైవిధ్యాన్ని వీలైనంత వరకు ఉంచడం ముఖ్యం.
వేరియబుల్స్ ప్రిన్సిపల్ కాంపోనెంట్స్ అని పిలువబడే వేరియబుల్స్ యొక్క పూర్తిగా కొత్త సెట్గా మార్చబడ్డాయి.
ఈ PCలు ఆర్తోగోనల్గా ఉంటాయి, ఎందుకంటే అవి కోవియారిన్స్ మ్యాట్రిక్స్ యొక్క ఈజెన్వెక్టర్లు.
26. PCA (ప్రిన్సిపల్ కాంపోనెంట్ అనాలిసిస్)కి కాంపోనెంట్ రొటేషన్ ఎందుకు చాలా కీలకం?
PCAలో భ్రమణం చాలా ముఖ్యమైనది ఎందుకంటే ఇది ప్రతి భాగం ద్వారా పొందబడిన వ్యత్యాసాల మధ్య విభజనను ఆప్టిమైజ్ చేస్తుంది, కాంపోనెంట్ ఇంటర్ప్రెటేషన్ను సులభతరం చేస్తుంది.
భాగాలు తిప్పబడనట్లయితే, కాంపోనెంట్ వైవిధ్యాన్ని వ్యక్తీకరించడానికి మాకు పొడిగించిన భాగాలు అవసరం.
27. క్రమబద్ధీకరణ మరియు సాధారణీకరణ ఒకదానికొకటి ఎలా మారుతాయి?
సాధారణీకరణ:
సాధారణీకరణ సమయంలో డేటా మార్చబడుతుంది. ముఖ్యంగా తక్కువ నుండి ఎక్కువ వరకు చాలా భిన్నమైన స్కేల్లను కలిగి ఉంటే మీరు డేటాను సాధారణీకరించాలి. ప్రాథమిక గణాంకాలు అన్నీ అనుకూలంగా ఉండేలా ప్రతి నిలువు వరుసను సర్దుబాటు చేయండి.
ఖచ్చితత్వం కోల్పోకుండా చూసుకోవడానికి, ఇది ఉపయోగకరంగా ఉంటుంది. శబ్దాన్ని విస్మరిస్తూ సిగ్నల్ను గుర్తించడం మోడల్ శిక్షణ యొక్క లక్ష్యాలలో ఒకటి.
లోపాన్ని తగ్గించడానికి మోడల్కు పూర్తి నియంత్రణ ఇస్తే ఓవర్ఫిట్ అయ్యే అవకాశం ఉంది.
క్రమబద్ధీకరణ:
క్రమబద్ధీకరణలో, ప్రిడిక్షన్ ఫంక్షన్ సవరించబడుతుంది. ఇది క్రమబద్ధీకరణ ద్వారా కొంత నియంత్రణకు లోబడి ఉంటుంది, ఇది సంక్లిష్టమైన వాటి కంటే సరళమైన అమరిక ఫంక్షన్లకు అనుకూలంగా ఉంటుంది.
28. సాధారణీకరణ మరియు ప్రమాణీకరణ ఒకదానికొకటి ఎలా భిన్నంగా ఉంటాయి?
ఫీచర్ స్కేలింగ్ కోసం విస్తృతంగా ఉపయోగించే రెండు పద్ధతులు సాధారణీకరణ మరియు ప్రమాణీకరణ.
సాధారణీకరణ:
- [0,1] పరిధికి అనుగుణంగా డేటాను రీస్కేల్ చేయడాన్ని సాధారణీకరణ అంటారు.
- అన్ని పారామీటర్లు ఒకే సానుకూల స్కేల్ను కలిగి ఉన్నప్పుడు, సాధారణీకరణ సహాయకరంగా ఉంటుంది, అయితే డేటా సెట్ యొక్క అవుట్లయర్లు పోతాయి.
క్రమబద్ధీకరణ:
- ప్రామాణీకరణ ప్రక్రియలో భాగంగా డేటా సగటు 0 మరియు 1 యొక్క ప్రామాణిక విచలనం కలిగి ఉండేలా రీస్కేల్ చేయబడింది (యూనిట్ వేరియెన్స్)
29. “వైవిధ్య ద్రవ్యోల్బణం కారకం” అంటే సరిగ్గా ఏమిటి?
ఒకే ఒక స్వతంత్ర వేరియబుల్తో మోడల్ యొక్క వ్యత్యాసానికి మోడల్ యొక్క వ్యత్యాసం యొక్క నిష్పత్తిని వైవిధ్య ద్రవ్యోల్బణం కారకం (VIF) అంటారు.
VIF అనేక రిగ్రెషన్ వేరియబుల్స్ సెట్లో ఉన్న మల్టీకాలినియారిటీ మొత్తాన్ని అంచనా వేస్తుంది.
వన్ ఇండిపెండెంట్ వేరియబుల్ వేరియెన్స్తో మోడల్ (VIF) మోడల్ యొక్క వైవిధ్యం
30. శిక్షణ సెట్ పరిమాణం ఆధారంగా, మీరు వర్గీకరణను ఎలా ఎంచుకుంటారు?
అధిక పక్షపాతం, తక్కువ వ్యత్యాస మోడల్ ఒక చిన్న శిక్షణా సెట్ కోసం మెరుగ్గా పని చేస్తుంది, ఎందుకంటే ఓవర్ ఫిట్టింగ్ తక్కువ అవకాశం ఉంటుంది. నైవ్ బేస్ ఒక ఉదాహరణ.
ఒక పెద్ద శిక్షణా సమితి కోసం మరింత సంక్లిష్టమైన పరస్పర చర్యలను సూచించడానికి, తక్కువ పక్షపాతం మరియు అధిక వైవిధ్యం ఉన్న మోడల్ ఉత్తమం. లాజిస్టిక్ రిగ్రెషన్ ఒక మంచి ఉదాహరణ.
31. మెషిన్ లెర్నింగ్లో ఏ అల్గారిథమ్ను "లేజీ లెర్నర్" అని పిలుస్తారు మరియు ఎందుకు?
నిదానమైన అభ్యాసకుడు, KNN అనేది మెషిన్ లెర్నింగ్ అల్గారిథమ్. K-NN శిక్షణ డేటా నుండి ఏదైనా యంత్రం-నేర్చుకున్న విలువలు లేదా వేరియబుల్లను నేర్చుకునే బదులు వర్గీకరించాలనుకునే ప్రతిసారీ దూరాన్ని డైనమిక్గా గణిస్తుంది, ఇది శిక్షణ డేటాసెట్ను గుర్తుంచుకుంటుంది.
ఇది K-NN ని సోమరిగా నేర్చుకునేవాడిని చేస్తుంది.
32. ROC కర్వ్ మరియు AUC అంటే ఏమిటి?
అన్ని థ్రెషోల్డ్ల వద్ద వర్గీకరణ నమూనా యొక్క పనితీరు ROC కర్వ్ ద్వారా గ్రాఫికల్గా సూచించబడుతుంది. ఇది నిజమైన సానుకూల రేటు మరియు తప్పుడు సానుకూల రేటు ప్రమాణాలను కలిగి ఉంది.
సరళంగా చెప్పాలంటే, ROC వక్రరేఖ క్రింద ఉన్న ప్రాంతాన్ని AUC (ROC కర్వ్ కింద ఉన్న ప్రాంతం) అంటారు. (0,0) నుండి AUC వరకు ROC వక్రరేఖ యొక్క ద్విమితీయ ప్రాంతం (1,1) కొలుస్తారు. బైనరీ వర్గీకరణ నమూనాలను అంచనా వేయడానికి, ఇది పనితీరు గణాంకాల వలె ఉపయోగించబడుతుంది.
33. హైపర్ పారామీటర్లు అంటే ఏమిటి? మోడల్ పారామితుల నుండి వాటిని ప్రత్యేకంగా ఏమి చేస్తుంది?
మోడల్ యొక్క అంతర్గత వేరియబుల్ మోడల్ పరామితిగా పిలువబడుతుంది. శిక్షణ డేటాను ఉపయోగించి, ఒక పరామితి విలువ సుమారుగా అంచనా వేయబడుతుంది.
మోడల్కు తెలియదు, హైపర్పారామీటర్ అనేది వేరియబుల్. డేటా నుండి విలువను నిర్ణయించడం సాధ్యం కాదు, అందువల్ల మోడల్ పారామితులను లెక్కించడానికి వారు తరచుగా ఉపయోగించబడతారు.
34. F1 స్కోర్, రీకాల్ మరియు ఖచ్చితత్వం అంటే ఏమిటి?
గందరగోళ కొలత అనేది వర్గీకరణ నమూనా యొక్క ప్రభావాన్ని అంచనా వేయడానికి ఉపయోగించే మెట్రిక్. గందరగోళ మెట్రిక్ను బాగా వివరించడానికి క్రింది పదబంధాలను ఉపయోగించవచ్చు:
TP: నిజమైన పాజిటివ్లు - ఇవి సరిగ్గా ఊహించిన సానుకూల విలువలు. అంచనా వేసిన తరగతి మరియు వాస్తవ తరగతి విలువలు రెండూ సానుకూలంగా ఉన్నాయని ఇది సూచిస్తుంది.
TN: నిజమైన ప్రతికూలతలు- ఇవి ఖచ్చితంగా అంచనా వేయబడిన ప్రతికూల విలువలు. వాస్తవ తరగతి మరియు ఊహించిన తరగతి విలువ రెండూ ప్రతికూలంగా ఉన్నాయని ఇది సూచిస్తుంది.
ఈ విలువలు-తప్పుడు పాజిటివ్లు మరియు తప్పుడు ప్రతికూలతలు-మీ వాస్తవ తరగతి ఊహించిన తరగతికి భిన్నంగా ఉన్నప్పుడు సంభవిస్తాయి.
ఇప్పుడు,
వాస్తవ తరగతిలో చేసిన అన్ని పరిశీలనలకు నిజమైన సానుకూల రేటు (TP) నిష్పత్తిని రీకాల్ అంటారు, దీనిని సున్నితత్వం అని కూడా పిలుస్తారు.
రీకాల్ TP/(TP+FN).
ఖచ్చితత్వం అనేది పాజిటివ్ ప్రిడిక్టివ్ విలువ యొక్క కొలత, ఇది మోడల్ నిజంగా అంచనా వేసే పాజిటివ్ల సంఖ్యను ఎంత సరైన పాజిటివ్లను ఖచ్చితంగా అంచనా వేస్తుందో పోల్చి చూస్తుంది.
ఖచ్చితత్వం TP/(TP + FP)
అర్థం చేసుకోవడానికి సులభమైన పనితీరు మెట్రిక్ ఖచ్చితత్వం, ఇది అన్ని పరిశీలనలకు సరిగ్గా అంచనా వేసిన పరిశీలనల నిష్పత్తి మాత్రమే.
ఖచ్చితత్వం (TP+TN)/(TP+FP+FN+TN)కి సమానం.
F1 స్కోర్ని అందించడానికి ఖచ్చితత్వం మరియు రీకాల్ బరువు మరియు సగటు. ఫలితంగా, ఈ స్కోర్ తప్పుడు పాజిటివ్లు మరియు తప్పుడు ప్రతికూలతలు రెండింటినీ పరిగణిస్తుంది.
F1 తరచుగా ఖచ్చితత్వం కంటే చాలా విలువైనది, ప్రత్యేకించి మీరు అసమాన తరగతి పంపిణీని కలిగి ఉంటే, అకారణంగా అది ఖచ్చితత్వాన్ని అర్థం చేసుకోవడం అంత సులభం కానప్పటికీ.
తప్పుడు పాజిటివ్లు మరియు తప్పుడు ప్రతికూలతల ధర పోల్చదగినప్పుడు ఉత్తమ ఖచ్చితత్వం సాధించబడుతుంది. తప్పుడు పాజిటివ్లు మరియు తప్పుడు ప్రతికూలతలతో అనుబంధించబడిన ఖర్చులు గణనీయంగా భిన్నంగా ఉంటే, ఖచ్చితత్వం మరియు రీకాల్ రెండింటినీ చేర్చడం ఉత్తమం.
35. క్రాస్ ధ్రువీకరణ అంటే ఏమిటి?
మెషిన్ లెర్నింగ్లో క్రాస్-వాలిడేషన్ అని పిలువబడే గణాంక రీసాంప్లింగ్ విధానం అనేక రౌండ్లలో మెషిన్ లెర్నింగ్ అల్గారిథమ్కు శిక్షణ ఇవ్వడానికి మరియు మూల్యాంకనం చేయడానికి అనేక డేటాసెట్ ఉపసమితులను ఉపయోగిస్తుంది.
మోడల్కు శిక్షణ ఇవ్వడానికి ఉపయోగించని కొత్త బ్యాచ్ డేటా మోడల్ దానిని ఎంత బాగా అంచనా వేస్తుందో చూడటానికి క్రాస్ ధ్రువీకరణను ఉపయోగించి పరీక్షించబడుతుంది. క్రాస్ ధ్రువీకరణ ద్వారా డేటా ఓవర్ ఫిట్టింగ్ నిరోధించబడుతుంది.
K-ఫోల్డ్ చాలా తరచుగా ఉపయోగించే రీసాంప్లింగ్ పద్ధతి మొత్తం డేటాసెట్ను సమాన పరిమాణాల K సెట్లుగా విభజిస్తుంది. దీనిని క్రాస్ ధ్రువీకరణ అంటారు.
36. మీ మోడల్లో గణనీయమైన వ్యత్యాసాన్ని మీరు కనుగొన్నారని అనుకుందాం. మీ అభిప్రాయం ప్రకారం, ఈ పరిస్థితిని నిర్వహించడానికి ఏ అల్గోరిథం బాగా సరిపోతుంది?
అధిక వైవిధ్యాన్ని నిర్వహించడం
పెద్ద వైవిధ్యాలతో సమస్యల కోసం మనం బ్యాగింగ్ టెక్నిక్ని ఉపయోగించాలి.
డేటాను ఉప సమూహాలుగా విభజించడానికి బ్యాగింగ్ అల్గోరిథం ద్వారా యాదృచ్ఛిక డేటా యొక్క పునరావృత నమూనా ఉపయోగించబడుతుంది. డేటా విభజించబడిన తర్వాత, మేము నియమాలను రూపొందించడానికి యాదృచ్ఛిక డేటా మరియు నిర్దిష్ట శిక్షణా విధానాన్ని ఉపయోగించుకోవచ్చు.
ఆ తర్వాత, మోడల్ అంచనాలను కలపడానికి పోలింగ్ను ఉపయోగించవచ్చు.
37. లాస్సో రిగ్రెషన్ నుండి రిడ్జ్ రిగ్రెషన్ను ఏది వేరు చేస్తుంది?
రెండు విస్తృతంగా ఉపయోగించే రెగ్యులరైజేషన్ పద్ధతులు లాస్సో (దీనిని L1 అని కూడా పిలుస్తారు) మరియు రిడ్జ్ (కొన్నిసార్లు L2 అని పిలుస్తారు) రిగ్రెషన్. డేటా అతిగా అమర్చడాన్ని నిరోధించడానికి అవి ఉపయోగించబడతాయి.
ఉత్తమ పరిష్కారాన్ని కనుగొనడానికి మరియు సంక్లిష్టతను తగ్గించడానికి, గుణకాలను శిక్షించడానికి ఈ పద్ధతులు ఉపయోగించబడతాయి. కోఎఫీషియంట్స్ యొక్క సంపూర్ణ విలువల మొత్తం జరిమానా విధించడం ద్వారా, లాస్సో రిగ్రెషన్ పనిచేస్తుంది.
రిడ్జ్ లేదా L2 రిగ్రెషన్లోని పెనాల్టీ ఫంక్షన్ కోఎఫీషియెంట్ల స్క్వేర్ల మొత్తం నుండి తీసుకోబడింది.
38. ఏది మరింత ముఖ్యమైనది: మోడల్ పనితీరు లేదా మోడల్ ఖచ్చితత్వం? ఏది మరియు మీరు దానిని ఎందుకు ఇష్టపడతారు?
ఇది మోసపూరిత ప్రశ్న, కాబట్టి మోడల్ పనితీరు అంటే ఏమిటో మొదట అర్థం చేసుకోవాలి. పనితీరు వేగంగా నిర్వచించబడితే, అది అప్లికేషన్ రకంపై ఆధారపడి ఉంటుంది; నిజ-సమయ పరిస్థితిని కలిగి ఉన్న ఏదైనా అప్లికేషన్ కీలకమైన అంశంగా అధిక వేగం అవసరం.
ఉదాహరణకు, ప్రశ్న ఫలితాలు రావడానికి చాలా సమయం తీసుకుంటే ఉత్తమ శోధన ఫలితాలు తక్కువ విలువైనవిగా మారతాయి.
ఖచ్చితత్వం కంటే ఖచ్చితత్వం మరియు రీకాల్కు ఎందుకు ప్రాధాన్యత ఇవ్వాలి అనేదానికి పనితీరు సమర్థనగా ఉపయోగించబడితే, అసమతుల్యమైన ఏదైనా డేటా సెట్ కోసం వ్యాపార కేసును ప్రదర్శించడంలో ఖచ్చితత్వం కంటే F1 స్కోర్ మరింత ఉపయోగకరంగా ఉంటుంది.
39. మీరు అసమానతలతో డేటాసెట్ను ఎలా నిర్వహిస్తారు?
అసమతుల్య డేటాసెట్ నమూనా పద్ధతుల నుండి ప్రయోజనం పొందవచ్చు. శాంప్లింగ్ అండర్ లేదా ఓవర్ శాంపిల్ పద్ధతిలో చేయవచ్చు.
శాంప్లింగ్ కింద మైనారిటీ తరగతికి సరిపోయేలా మెజారిటీ తరగతి పరిమాణాన్ని కుదించడానికి అనుమతిస్తుంది, ఇది నిల్వ మరియు రన్-టైమ్ ఎగ్జిక్యూషన్కు సంబంధించి వేగాన్ని పెంచడంలో సహాయపడుతుంది కానీ విలువైన డేటాను కోల్పోయేలా చేస్తుంది.
ఓవర్స్యాంప్లింగ్ వల్ల కలిగే సమాచార నష్టం సమస్యను పరిష్కరించడానికి, మేము మైనారిటీ తరగతిని అప్సాంప్ చేస్తాము; అయినప్పటికీ, ఇది మనకు అతిగా సరిపోయే సమస్యలను ఎదుర్కొంటుంది.
అదనపు వ్యూహాలు:
- క్లస్టర్-బేస్డ్ ఓవర్ శాంప్లింగ్- ఈ పరిస్థితిలో మైనారిటీ మరియు మెజారిటీ క్లాస్ ఉదంతాలు వ్యక్తిగతంగా K-మీన్స్ క్లస్టరింగ్ టెక్నిక్కి లోబడి ఉంటాయి. డేటాసెట్ క్లస్టర్లను కనుగొనడానికి ఇది జరుగుతుంది. అప్పుడు, ప్రతి క్లస్టర్ ఓవర్సాంపిల్ చేయబడింది, తద్వారా అన్ని తరగతులు ఒకే పరిమాణంలో ఉంటాయి మరియు తరగతిలోని అన్ని క్లస్టర్లు సమాన సంఖ్యలో సందర్భాలను కలిగి ఉంటాయి.
- SMOTE: సింథటిక్ మైనారిటీ ఓవర్ శాంప్లింగ్ టెక్నిక్- మైనారిటీ తరగతి నుండి డేటా యొక్క స్లైస్ ఉదాహరణగా ఉపయోగించబడుతుంది, దాని తర్వాత దానితో పోల్చదగిన అదనపు కృత్రిమ సందర్భాలు ఉత్పత్తి చేయబడతాయి మరియు అసలు డేటాసెట్కు జోడించబడతాయి. ఈ పద్ధతి సంఖ్యా డేటా పాయింట్లతో బాగా పనిచేస్తుంది.
40. మీరు బూస్టింగ్ మరియు బ్యాగింగ్ మధ్య తేడాను ఎలా గుర్తించగలరు?
సమిష్టి సాంకేతికతలు బ్యాగింగ్ మరియు బూస్టింగ్ అని పిలువబడే సంస్కరణలను కలిగి ఉంటాయి.
బ్యాగింగ్-
అధిక వైవిధ్యం ఉన్న అల్గారిథమ్ల కోసం, బ్యాగింగ్ అనేది వ్యత్యాసాన్ని తగ్గించడానికి ఉపయోగించే సాంకేతికత. పక్షపాతానికి గురయ్యే వర్గీకరణదారుల యొక్క అటువంటి కుటుంబం నిర్ణయం చెట్టు కుటుంబం.
నిర్ణయ వృక్షాలు శిక్షణ పొందిన డేటా రకం వారి పనితీరుపై గణనీయమైన ప్రభావాన్ని చూపుతుంది. దీని కారణంగా, చాలా ఎక్కువ ఫైన్-ట్యూనింగ్ ఉన్నప్పటికీ, ఫలితాల సాధారణీకరణ కొన్నిసార్లు వాటిని పొందడం చాలా కష్టం.
నిర్ణయం చెట్ల శిక్షణ డేటా మార్చబడినట్లయితే, ఫలితాలు గణనీయంగా మారుతాయి.
పర్యవసానంగా, బ్యాగింగ్ ఉపయోగించబడుతుంది, దీనిలో అనేక నిర్ణయ వృక్షాలు సృష్టించబడతాయి, వీటిలో ప్రతి ఒక్కటి అసలు డేటా యొక్క నమూనాను ఉపయోగించి శిక్షణ పొందుతుంది మరియు తుది ఫలితం ఈ విభిన్న నమూనాల సగటు.
బూస్టింగ్:
బూస్టింగ్ అనేది n-బలహీనమైన వర్గీకరణ వ్యవస్థతో అంచనాలను రూపొందించే సాంకేతికత, దీనిలో ప్రతి బలహీన వర్గీకరణ దాని బలమైన వర్గీకరణదారుల లోపాలను భర్తీ చేస్తుంది. మేము ఇచ్చిన డేటా సెట్లో చెడుగా పని చేసే వర్గీకరణను "బలహీనమైన వర్గీకరణ"గా సూచిస్తాము.
బూస్టింగ్ అనేది ఒక అల్గోరిథం కాకుండా ఒక ప్రక్రియ. లాజిస్టిక్ రిగ్రెషన్ మరియు నిస్సార నిర్ణయ వృక్షాలు బలహీన వర్గీకరణదారులకు సాధారణ ఉదాహరణలు.
అడాబూస్ట్, గ్రేడియంట్ బూస్టింగ్ మరియు XGBoost అనేవి రెండు అత్యంత ప్రజాదరణ పొందిన బూస్టింగ్ అల్గారిథమ్లు, అయితే ఇంకా చాలా ఉన్నాయి.
41. ఇండక్టివ్ మరియు డిడక్టివ్ లెర్నింగ్ మధ్య తేడాలను వివరించండి.
గమనించిన ఉదాహరణల సమితి నుండి ఉదాహరణ ద్వారా నేర్చుకునేటప్పుడు, ఒక మోడల్ సాధారణీకరించిన ముగింపుకు రావడానికి ప్రేరక అభ్యాసాన్ని ఉపయోగిస్తుంది. మరోవైపు, తగ్గింపు అభ్యాసంతో, మోడల్ దాని స్వంతంగా ఏర్పడే ముందు ఫలితాన్ని ఉపయోగిస్తుంది.
ఇండక్టివ్ లెర్నింగ్ అనేది పరిశీలనల నుండి తీర్మానాలు చేసే ప్రక్రియ.
డిడక్టివ్ లెర్నింగ్ అనేది అనుమితుల ఆధారంగా పరిశీలనలను సృష్టించే ప్రక్రియ.
ముగింపు
అభినందనలు! ఇవి మెషిన్ లెర్నింగ్ కోసం టాప్ 40 మరియు అంతకంటే ఎక్కువ ఇంటర్వ్యూ ప్రశ్నలు, వీటికి ఇప్పుడు మీకు సమాధానాలు తెలుసు. డేటా సైన్స్ మరియు కృత్రిమ మేధస్సు సాంకేతికత అభివృద్ధి చెందుతున్నందున వృత్తులకు డిమాండ్ కొనసాగుతుంది.
ఈ అత్యాధునిక సాంకేతికతల గురించి వారి పరిజ్ఞానాన్ని అప్డేట్ చేసే అభ్యర్థులు మరియు వారి నైపుణ్యాన్ని మెరుగుపరుచుకునే అభ్యర్థులు పోటీ చెల్లింపుతో అనేక రకాల ఉపాధి అవకాశాలను పొందవచ్చు.
విస్తృతంగా అడిగే కొన్ని మెషిన్ లెర్నింగ్ ఇంటర్వ్యూ ప్రశ్నలకు ఎలా ప్రత్యుత్తరం ఇవ్వాలో మీకు గట్టి అవగాహన ఉన్నందున మీరు ఇప్పుడు ఇంటర్వ్యూలకు సమాధానం ఇవ్వడం కొనసాగించవచ్చు.
మీ లక్ష్యాలను బట్టి, కింది దశను తీసుకోండి. Hashdork's సందర్శించడం ద్వారా ఇంటర్వ్యూల కోసం సిద్ధం చేయండి ఇంటర్వ్యూ సిరీస్.
సమాధానం ఇవ్వూ