ඉහළම 40+ යන්ත්‍ර ඉගෙනීමේ සම්මුඛ පරීක්ෂණ ප්‍රශ්න (2024)

පටුන[සඟවන්න][පෙන්වන්න]

1. යන්ත්‍ර ඉගෙනීම, කෘතිම බුද්ධිය සහ ගැඹුරු ඉගෙනීම අතර වෙනස්කම් පැහැදිලි කරන්න.
2. කරුණාකර යන්ත්‍ර ඉගෙනීමේ විවිධ වර්ග විස්තර කරන්න.
3. විචල්‍ය වෙළඳාමට එරෙහිව පක්ෂග්‍රාහීත්වය යනු කුමක්ද?
4. යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම කාලයත් සමඟ සැලකිය යුතු ලෙස පරිණාමය වී ඇත. ලබා දී ඇති දත්ත කට්ටලයක් භාවිතා කිරීමට නිවැරදි ඇල්ගොරිතම තෝරා ගන්නේ කෙසේද?
5. සහජීවනය සහ සහසම්බන්ධතාවය වෙනස් වන්නේ කෙසේද?
6. යන්ත්‍ර ඉගෙනීමේදී, පොකුරු කිරීම යන්නෙන් අදහස් කරන්නේ කුමක්ද?
7. ඔබ කැමති යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම කුමක්ද?
8. යන්ත්‍ර ඉගෙනීමේ රේඛීය ප්‍රතිගාමීත්වය: එය කුමක්ද?
9. KNN සහ k-means clustering අතර වෙනස්කම් විස්තර කරන්න.
10. "තේරීමේ නැඹුරුව" යන්නෙන් ඔබට අදහස් කරන්නේ කුමක්ද?
11. ඇත්තටම Bayes ප්‍රමේයය යනු කුමක්ද?
12. යන්ත්‍ර ඉගෙනුම් ආකෘතියක, 'පුහුණු කට්ටලය' සහ 'පරීක්ෂණ කට්ටලය' යනු මොනවාද?
13. යන්ත්‍ර ඉගෙනීමේ උපකල්පනයක් යනු කුමක්ද?
14. යන්ත්‍ර ඉගෙනීම අධික ලෙස ගැලපීම යන්නෙන් අදහස් කරන්නේ කුමක්ද සහ එය වළක්වා ගත හැක්කේ කෙසේද?
15. ඇත්තටම Naive Bayes වර්ගීකරණ මොනවාද?
16. Cost Functions සහ Los Functions යන්නෙන් අදහස් කරන්නේ කුමක්ද?
17. ජනක ආකෘතියක් වෙනස් කොට සැලකීමේ ආකෘතියකින් වෙන්කර හඳුනා ගන්නේ කුමක් ද?
18. Type I සහ Type II දෝෂ අතර වෙනස්කම් විස්තර කරන්න.
19. යන්ත්‍ර ඉගෙනීමේදී, එන්සෙම්බල් ඉගෙනුම් තාක්ෂණය යනු කුමක්ද?
20. හරියටම පරාමිතික ආකෘති මොනවාද? උදාහරණයක් දෙන්න.
21. සහයෝගී පෙරහන විස්තර කරන්න. අන්තර්ගතය මත පදනම් වූ පෙරීම මෙන්ම?
22. කාල මාලාවෙන් ඔබ හරියටම අදහස් කරන්නේ කුමක්ද?
23. Gradient Boosting සහ Random Forest ඇල්ගොරිතම අතර වෙනස්කම් විස්තර කරන්න.
24. ඔබට ව්‍යාකූල අනුකෘතියක් අවශ්‍ය වන්නේ ඇයි? එය කුමක් ද?
25. මූලධර්ම සංරචක විශ්ලේෂණයක් යනු කුමක්ද?
26. PCA (ප්‍රධාන සංරචක විශ්ලේෂණය) සඳහා සංරචක භ්‍රමණය ඉතා තීරණාත්මක වන්නේ ඇයි?
27. විධිමත් කිරීම සහ සාමාන්‍යකරණය එකිනෙකාගෙන් වෙනස් වන්නේ කෙසේද?
28. සාමාන්‍යකරණය සහ ප්‍රමිතිකරණය එකිනෙකට වෙනස් වන්නේ කෙසේද?
29. හරියටම "විචල්‍ය උද්ධමන සාධකය" යන්නෙන් අදහස් කරන්නේ කුමක්ද?
30. පුහුණු කට්ටලයේ විශාලත්වය මත පදනම්ව, ඔබ වර්ගීකරණයක් තෝරා ගන්නේ කෙසේද?
31. යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම "කම්මැලි ඉගෙනුම්කරු" ලෙස හඳුන්වන්නේ සහ ඇයි?
32. ROC Curve සහ AUC යනු කුමක්ද?
33. අධි පරාමිතීන් යනු කුමක්ද? ආදර්ශ පරාමිතීන්ගෙන් ඔවුන් අද්විතීය වන්නේ කුමක් ද?
34. F1 ලකුණු, නැවත කැඳවීම සහ නිරවද්‍යතාවය යන්නෙන් අදහස් කරන්නේ කුමක්ද?
35. හරියටම හරස් වලංගුකරණය යනු කුමක්ද?
36. ඔබේ ආකෘතියේ සැලකිය යුතු වෙනසක් ඇති බව ඔබ සොයා ගත්තා යැයි සිතමු. ඔබගේ මතය අනුව මෙම තත්වය හැසිරවීමට වඩාත්ම ගැලපෙන ඇල්ගොරිතම මොනවාද?
37. රිජ් ප්‍රතිගාමීත්වය ලැසෝ ප්‍රතිගාමීත්වයෙන් වෙන්කර හඳුනා ගන්නේ කුමක් ද?
38. වඩා වැදගත් වන්නේ: ආදර්ශ කාර්ය සාධනය හෝ ආදර්ශ නිරවද්‍යතාවය? කුමන එක සහ ඔබ එයට කැමති වන්නේ ඇයි?
39. අසමානතා සහිත දත්ත කට්ටලයක් ඔබ කළමනාකරණය කරන්නේ කෙසේද?
40. වැඩි කිරීම සහ බෑග් අතර වෙනස හඳුනා ගන්නේ කෙසේද?
41. ප්‍රේරක සහ අඩු කිරීමේ ඉගෙනීම අතර වෙනස්කම් පැහැදිලි කරන්න.
නිගමනය

ව්‍යාපාර පුද්ගලයන්ට තොරතුරු සහ සේවාවන්හි ප්‍රවේශ්‍යතාව වැඩි කිරීමට කෘතිම බුද්ධිය (AI) සහ යන්ත්‍ර ඉගෙනීම වැනි අති නවීන තාක්‍ෂණය භාවිත කරයි.

මෙම තාක්ෂණයන් බැංකු, මූල්‍ය, සිල්ලර, නිෂ්පාදන සහ සෞඛ්‍ය සේවා ඇතුළු විවිධ කර්මාන්ත විසින් අනුගමනය කරනු ලැබේ.

දත්ත විද්‍යාඥයින්, කෘත්‍රිම බුද්ධි ඉංජිනේරුවන්, යන්ත්‍ර ඉගෙනුම් ඉංජිනේරුවන් සහ දත්ත විශ්ලේෂකයින් සඳහා AI භාවිතා කරන වඩාත්ම ඉල්ලූ ආයතනික භූමිකාවන්ගෙන් එකකි.

මෙම සටහන ඔබව විවිධාකාරයෙන් ගෙන යනු ඇත යන්ත්ර ඉගෙනීම සම්මුඛ පරීක්ෂණ ප්‍රශ්න, මූලික සිට සංකීර්ණ දක්වා, ඔබේ පරමාදර්ශී රැකියාවක් සොයන විට ඔබෙන් ඇසිය හැකි ඕනෑම ප්‍රශ්නයකට සූදානම් වීමට ඔබට උපකාර කිරීමට.

1. යන්ත්‍ර ඉගෙනීම, කෘතිම බුද්ධිය සහ ගැඹුරු ඉගෙනීම අතර වෙනස්කම් පැහැදිලි කරන්න.

කෘත්‍රිම බුද්ධිය විවිධාකාර යන්ත්‍ර ඉගෙනුම් සහ ගැඹුරු ඉගෙනුම් ප්‍රවේශයන් භාවිතා කරන අතර එමඟින් පරිගණක පද්ධතිවලට තර්කානුකූලව සහ නීතිරීති සමඟ මිනිසා වැනි බුද්ධිය උපයෝගී කර ගනිමින් කාර්යයන් සිදු කිරීමට ඉඩ සලසයි.

යන්ත්‍ර ඉගෙනීම විවිධ සංඛ්‍යාලේඛන සහ ගැඹුරු ඉගෙනුම් ප්‍රවේශයන් භාවිතා කරමින් යන්ත්‍රවලට ඔවුන්ගේ පෙර ක්‍රියාකාරීත්වයෙන් ඉගෙන ගැනීමටත්, මිනිස් අධීක්ෂණයකින් තොරව තමන් විසින්ම යම් යම් කාර්යයන් කිරීමට වඩාත් දක්ෂ වීමටත් හැකි වේ.

ගැඹුරු ඉගෙනීම යනු මෘදුකාංගයට තමාගෙන්ම ඉගෙන ගැනීමට සහ කටහඬ සහ පින්තූර හඳුනාගැනීම වැනි විවිධ වාණිජ කාර්යයන් සිදු කිරීමට ඉඩ සලසන ඇල්ගොරිතම එකතුවකි.

ඔවුන්ගේ බහු ස්ථර නිරාවරණය කරන පද්ධති ස්නායු ජාල ඉගෙනීම සඳහා විශාල දත්ත ප්‍රමාණයක් ගැඹුරින් ඉගෙනීමට හැකියාව ඇත.

2. කරුණාකර යන්ත්‍ර ඉගෙනීමේ විවිධ වර්ග විස්තර කරන්න.

යන්ත්‍ර ඉගෙනීම පුළුල් ලෙස විවිධ වර්ග තුනකින් පවතී:

අධීක්ෂණය කරන ලද ඉගෙනීම: අධීක්ෂණ යන්ත්‍ර ඉගෙනීමේදී ලේබල් කළ හෝ ඓතිහාසික දත්ත භාවිතයෙන් ආකෘතියක් අනාවැකි හෝ විනිශ්චයන් නිර්මාණය කරයි. ඒවායේ අර්ථය වැඩි කිරීම සඳහා ටැග් කර ඇති හෝ ලේබල් කර ඇති දත්ත කට්ටල ලේබල් කළ දත්ත ලෙස හැඳින්වේ.
අධීක්‍ෂණය නොකළ ඉගෙනීම: අධීක්‍ෂණය නොකළ ඉගෙනීම සඳහා ලේබල් කළ දත්ත අප සතුව නොමැත. එන දත්තවල, ආකෘතියකට රටා, අමුතුකම් සහ සහසම්බන්ධතා සොයා ගත හැක.
ශක්තිමත් කිරීමේ ඉගෙනීම: ආකෘතියට හැකිය ශක්තිමත් කිරීම භාවිතා කිරීමෙන් ඉගෙන ගන්න ඉගෙනීම සහ එහි පෙර හැසිරීම් සඳහා ලැබුණු විපාක.

3. විචල්‍ය වෙළඳාමට එරෙහිව පක්ෂග්‍රාහීත්වය යනු කුමක්ද?

ඕනෑවට වඩා ගැළපීම පක්ෂග්‍රාහී ප්‍රතිඵලයකි, එනම් ආකෘතියක් දත්තවලට ගැළපෙන ප්‍රමාණයයි. ඔබ තුළ ඇති වැරදි හෝ ඉතා සරල උපකල්පන නිසා අගතිය ඇතිවේ යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම.

විචලනය යන්නෙන් අදහස් කරන්නේ ඔබේ ML ඇල්ගොරිතමයේ ඇති සංකීර්ණත්වය නිසා ඇති වන වැරදියි, එය පුහුණු දත්තවල සහ වැඩිපුර ගැළපීමෙහි විශාල විචල්‍යතාවලට සංවේදීතාවයක් ඇති කරයි.

විචලනය යනු ආදාන මත රඳා පවතින ආකෘතියක් කෙතරම් වෙනස් වේ ද යන්නයි.

වෙනත් වචන වලින් කිවහොත්, මූලික මාදිලි අතිශයින් පක්ෂග්‍රාහී නමුත් ස්ථායී වේ (අඩු විචල්‍යතාවය). ඒවා කෙසේ වෙතත් ආකෘතියේ යථාර්ථය (අඩු පක්ෂග්‍රාහී) ග්‍රහණය කර ගත්තද, සංකීර්ණ මාදිලි සමඟ වැඩිපුර ගැළපීම ගැටලුවකි.

ඉහළ විචලනය සහ ඉහළ නැඹුරුව යන දෙකම වැළැක්වීම සඳහා, හොඳම දෝෂ අඩු කිරීම සඳහා පක්ෂග්‍රාහීත්වය සහ විචලනය අතර වෙළඳාමක් අවශ්‍ය වේ.

4. යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම කාලයත් සමඟ සැලකිය යුතු ලෙස පරිණාමය වී ඇත. ලබා දී ඇති දත්ත කට්ටලයක් භාවිතා කිරීමට නිවැරදි ඇල්ගොරිතම තෝරා ගන්නේ කෙසේද?

භාවිතා කළ යුතු යන්ත්‍ර ඉගෙනීමේ තාක්ෂණය නිශ්චිත දත්ත කට්ටලයක දත්ත වර්ගය මත පමණක් රඳා පවතී.

දත්ත රේඛීය වන විට රේඛීය ප්‍රතිගාමීත්වය භාවිතා වේ. දත්ත රේඛීය නොවන බව පෙන්නුම් කරන්නේ නම් බෑග් කිරීමේ ක්‍රමය වඩා හොඳින් ක්‍රියා කරයි. දත්ත ඇගයීමට හෝ වාණිජ අරමුණු සඳහා අර්ථකථනය කිරීමට සිදුවුවහොත් අපට තීරණ ගස් හෝ SVM භාවිත කළ හැක.

දත්ත කට්ටලයට ඡායාරූප, වීඩියෝ සහ ශ්‍රව්‍ය ඇතුළත් නම් නිවැරදි පිළිතුරක් ලබා ගැනීමට ස්නායුක ජාල ප්‍රයෝජනවත් විය හැකිය.

නිශ්චිත අවස්ථාවක් සඳහා ඇල්ගොරිතම තෝරාගැනීම හෝ දත්ත එකතු කිරීම තනි මිනුමක් මත සිදු කළ නොහැක.

හොඳම යෝග්‍යතා ක්‍රමය සංවර්ධනය කිරීමේ අරමුණ සඳහා, අප මුලින්ම ගවේෂණාත්මක දත්ත විශ්ලේෂණය (EDA) භාවිතයෙන් දත්ත පරීක්ෂා කර දත්ත කට්ටලය භාවිතා කිරීමේ ඉලක්කය අවබෝධ කර ගත යුතුය.

5. සහජීවනය සහ සහසම්බන්ධතාවය වෙනස් වන්නේ කෙසේද?

Covariance මගින් විචල්‍ය දෙකක් එකිනෙකට සම්බන්ධ වන ආකාරය සහ එකක් අනෙකෙහි වෙනස්වීම් වලට ප්‍රතිචාර වශයෙන් වෙනස් විය හැකි ආකාරය ඇගයීමට ලක් කරයි.

ප්‍රතිඵලය ධනාත්මක නම්, එයින් පෙන්නුම් කරන්නේ විචල්‍යයන් අතර සෘජු සම්බන්ධයක් පවතින බවත්, අනෙක් සියලුම තත්වයන් නියතව පවතිනු ඇතැයි උපකල්පනය කරමින් පාදක විචල්‍යයේ වැඩි වීමක් හෝ අඩුවීමක් සමඟින් එකක් අඩු වැඩි වන බවත් ය.

සහසම්බන්ධතාවය සසම්භාවී විචල්‍ය දෙකක් අතර සම්බන්ධය මනිනු ලබන අතර එහි ඇත්තේ වෙනස් අගයන් තුනක් පමණි: 1, 0, සහ -1.

6. යන්ත්‍ර ඉගෙනීමේදී, පොකුරු කිරීම යන්නෙන් අදහස් කරන්නේ කුමක්ද?

දත්ත සමූහගත කරන අධීක්‍ෂණය නොකළ ඉගෙනුම් ක්‍රම පොකුරු ලෙස හැඳින්වේ. දත්ත ලක්ෂ්‍ය එකතුවක් සමඟ, පොකුරු තාක්ෂණය යෙදිය හැක.

මෙම උපක්‍රමය භාවිතයෙන් ඔබට සියලු දත්ත ලක්ෂ්‍ය ඒවායේ ක්‍රියාකාරිත්වයට අනුව කාණ්ඩගත කළ හැක.

එකම ගණයට වැටෙන දත්ත ලක්ෂ්‍යවල ලක්ෂණ සහ ගුණාංග සමාන වන අතර, වෙනම කණ්ඩායම්වලට වැටෙන දත්ත ලක්ෂ්‍යවල ඒවා වෙනස් වේ.

මෙම ප්රවේශය සංඛ්යාන දත්ත විශ්ලේෂණය කිරීමට භාවිතා කළ හැක.

7. ඔබ කැමති යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම කුමක්ද?

මෙම ප්‍රශ්නය තුළ ඔබේ මනාපයන් සහ අද්විතීය කුසලතා මෙන්ම යන්ත්‍ර ඉගෙනීමේ ක්‍රම රාශියක් පිළිබඳ ඔබේ පුළුල් දැනුම ප්‍රදර්ශනය කිරීමට ඔබට අවස්ථාව තිබේ.

සිතීමට සාමාන්‍ය යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම කිහිපයක් මෙන්න:

රේඛීය ප්‍රතිගාමී වීම
ලොජිස්ටික් පසුබෑම
බොළඳ බොයිස්
තීරණ ගස්
කේ යන්නෙන් අදහස් වේ
අහඹු වනාන්තර ඇල්ගොරිතම
K-ළඟම අසල්වැසියා (KNN)

8. යන්ත්‍ර ඉගෙනීමේ රේඛීය ප්‍රතිගාමීත්වය: එය කුමක්ද?

අධීක්ෂණය කරන ලද යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතමයක් යනු රේඛීය ප්‍රතිගාමීත්වයයි.

පරායත්ත සහ ස්වාධීන විචල්‍යයන් අතර රේඛීය සම්බන්ධතාවය තීරණය කිරීම සඳහා පුරෝකථන විශ්ලේෂණයේදී එය භාවිතා වේ.

රේඛීය ප්‍රතිගාමී සමීකරණය පහත පරිදි වේ:

Y = A + BX

එහිදී:

ආදාන හෝ ස්වාධීන විචල්‍යය X ලෙස හැඳින්වේ.
යැපෙන හෝ ප්රතිදාන විචල්යය Y වේ.
X හි සංගුණකය b වන අතර එහි අන්තර් ඡේදනය a වේ.

9. KNN සහ k-means clustering අතර වෙනස්කම් විස්තර කරන්න.

මූලික වෙනස වන්නේ KNN (වර්ගීකරණ ක්‍රමයක්, අධීක්‍ෂණය කරන ලද ඉගෙනීම) සඳහා ලේබල් කළ ලකුණු අවශ්‍ය වන අතර k- අදහස් නොකෙරේ (පොකුරු ඇල්ගොරිතම, අධීක්ෂණය නොකළ ඉගෙනීම).

K-Nearest Neighbours භාවිතයෙන් ඔබට ලේබල් කළ දත්ත ලේබල් නොකළ ලක්ෂ්‍යයකට වර්ග කළ හැක. K-එනම් පොකුරු කිරීම යනු ලේබල් නොකළ ලකුණු කාණ්ඩ කරන ආකාරය ඉගෙන ගැනීමට ලක්ෂ්‍ය අතර සාමාන්‍ය දුර භාවිතා කරයි.

10. "තේරීමේ නැඹුරුව" යන්නෙන් ඔබට අදහස් කරන්නේ කුමක්ද?

අත්හදා බැලීමක නියැදීමේ අවධියේ ඇති පක්ෂග්‍රාහීත්වය සංඛ්‍යානමය සාවද්‍ය භාවය නිසාය.

එක් නියැදි කණ්ඩායමක් සාවද්‍ය භාවයේ ප්‍රතිඵලයක් ලෙස අත්හදා බැලීමේ අනෙක් කණ්ඩායම්වලට වඩා නිතර නිතර තෝරා ගනු ලැබේ.

තේරීමේ නැඹුරුව පිළි නොගන්නේ නම්, එය වැරදි නිගමනයකට තුඩු දිය හැකිය.

11. ඇත්තටම Bayes ප්‍රමේයය යනු කුමක්ද?

වෙනත් සම්භාවිතාවන් පිළිබඳව අප දැනුවත්ව සිටින විට, අපට Bayes ප්‍රමේයය භාවිතයෙන් සම්භාවිතාවක් තීරණය කළ හැක. එය වෙනත් වචන වලින් පෙර තොරතුරු මත පදනම්ව සිදුවීමක පසුකාලීන සම්භාවිතාව ඉදිරිපත් කරයි.

කොන්දේසි සහිත සම්භාවිතාවන් තක්සේරු කිරීම සඳහා ශබ්ද ක්රමයක් මෙම ප්රමේයය මගින් සපයනු ලැබේ.

වර්ගීකරණ අනාවැකි ආකෘති නිර්මාණය කිරීමේ ගැටළු සහ පුහුණුවකට ආකෘතියක් සවි කිරීමේදී යන්ත්‍ර ඉගෙනීමේ දත්ත කට්ටලය, Bayes ප්‍රමේයය යොදනු ලැබේ (එනම් Naive Bayes, Bayes Optimal Classifier).

12. යන්ත්‍ර ඉගෙනුම් ආකෘතියක, 'පුහුණු කට්ටලය' සහ 'පරීක්ෂණ කට්ටලය' යනු මොනවාද?

පුහුණු කට්ටලය:

පුහුණු කට්ටලය විශ්ලේෂණය සහ ඉගෙනීම සඳහා ආකෘතියට යවනු ලබන අවස්ථා වලින් සමන්විත වේ.
ආකෘතිය පුහුණු කිරීම සඳහා භාවිතා කරනු ලබන ලේබල් දත්ත මෙයයි.
සාමාන්‍යයෙන්, මුළු දත්ත වලින් 70% ක් පුහුණු දත්ත කට්ටලය ලෙස භාවිතා කරයි.

පරීක්ෂණ කට්ටලය:

පරීක්ෂණ කට්ටලය ආකෘතියේ උපකල්පිත උත්පාදන නිරවද්‍යතාවය තක්සේරු කිරීමට භාවිතා කරයි.
අපි ලේබල් කළ දත්ත නොමැතිව පරීක්‍ෂා කර පසුව ප්‍රතිඵල තහවුරු කිරීමට ලේබල් භාවිත කරන්නෙමු.
ඉතිරි 30% පරීක්ෂණ දත්ත කට්ටලයක් ලෙස භාවිතා කරයි.

13. යන්ත්‍ර ඉගෙනීමේ උපකල්පනයක් යනු කුමක්ද?

යන්ත්‍ර ඉගෙනීම මඟින් ප්‍රතිදානය වෙත ආදානය සම්බන්ධ කරන දී ඇති කාර්යයක් වඩා හොඳින් අවබෝධ කර ගැනීමට පවතින දත්ත කට්ටල භාවිතය සක්‍රීය කරයි. මෙය ශ්‍රිතය ආසන්න කිරීම ලෙස හැඳින්වේ.

මෙම අවස්ථාවෙහිදී, ලබා දී ඇති තත්ත්වය මත පදනම් වූ සියලු සිතාගත හැකි නිරීක්ෂණ හැකි උපරිම ආකාරයෙන් මාරු කිරීම සඳහා නොදන්නා ඉලක්ක ශ්‍රිතය සඳහා ආසන්නකරණය යෙදිය යුතුය.

යන්ත්‍ර ඉගෙනීමේදී, කල්පිතයක් යනු ඉලක්ක ක්‍රියාකාරිත්වය ඇස්තමේන්තු කිරීමට සහ සුදුසු ආදාන-ප්‍රතිදාන සිතියම්ගත කිරීම් සම්පූර්ණ කිරීමට උපකාර වන ආකෘතියකි.

ඇල්ගොරිතම තෝරාගැනීම සහ සැලසුම් කිරීම ආකෘතියක් මගින් නිරූපණය කළ හැකි හැකි උපකල්පනවල අවකාශය නිර්වචනය කිරීමට ඉඩ සලසයි.

තනි කල්පිතයක් සඳහා, කුඩා අකුරු h (h) භාවිතා වේ, නමුත් සොයන්නේ මුළු කල්පිත අවකාශය සඳහා විශාල h (H) භාවිතා වේ. අපි මෙම සටහන් කෙටියෙන් සමාලෝචනය කරන්නෙමු:

උපකල්පනයක් (h) යනු ප්‍රතිදානය වෙත ආදානය සිතියම්ගත කිරීමට පහසුකම් සපයන විශේෂිත ආකෘතියකි, එය පසුව ඇගයීම සහ අනාවැකි සඳහා භාවිතා කළ හැක.
උපකල්පන කට්ටලයක් (H) යනු ප්‍රතිදානයට යෙදවුම් සිතියම්ගත කිරීමට භාවිතා කළ හැකි උපකල්පනවල සෙවිය හැකි අවකාශයකි. ගැටළු රාමු කිරීම, ආකෘතිය සහ ආකෘති වින්‍යාස කිරීම සාමාන්‍ය සීමාවන් සඳහා උදාහරණ කිහිපයකි.

14. යන්ත්‍ර ඉගෙනීම අධික ලෙස ගැලපීම යන්නෙන් අදහස් කරන්නේ කුමක්ද සහ එය වළක්වා ගත හැක්කේ කෙසේද?

යන්ත්‍රයක් ප්‍රමාණවත් නොවන දත්ත කට්ටලයකින් ඉගෙන ගැනීමට උත්සාහ කරන විට, අධික ලෙස ගැලපීම සිදුවේ.

එහි ප්‍රතිඵලයක් වශයෙන්, අධික ලෙස සවි කිරීම දත්ත පරිමාව සමඟ ප්‍රතිලෝමව සම්බන්ධ වේ. හරස් වලංගු කිරීමේ ප්‍රවේශය කුඩා දත්ත කට්ටල සඳහා අධික ලෙස ගැලපීම වළක්වා ගැනීමට ඉඩ සලසයි. මෙම ක්‍රමයේදී දත්ත කට්ටලයක් කොටස් දෙකකට බෙදා ඇත.

පරීක්ෂණ සහ පුහුණුව සඳහා වන දත්ත කට්ටලය මෙම කොටස් දෙකකින් සමන්විත වේ. පුහුණු දත්ත කට්ටලය ආකෘතියක් නිර්මාණය කිරීමට භාවිතා කරන අතර පරීක්ෂණ දත්ත කට්ටලය විවිධ යෙදවුම් භාවිතා කරමින් ආකෘතිය ඇගයීමට භාවිතා කරයි.

අධික ලෙස ගැලපීම වළක්වා ගන්නේ කෙසේද යන්නයි.

15. ඇත්තටම Naive Bayes වර්ගීකරණ මොනවාද?

විවිධ වර්ගීකරණ ක්‍රම Naive Bayes වර්ගීකරණ වලින් සමන්විත වේ. මෙම වර්ගීකරණ ලෙස හැඳින්වෙන ඇල්ගොරිතම සමූහයක් එකම මූලික අදහස මත ක්‍රියා කරයි.

බොළඳ Bayes වර්ගීකරණය කරන්නන් විසින් කරන ලද උපකල්පනය නම්, එක් විශේෂාංගයක පැවැත්ම හෝ නොපැවතීම තවත් විශේෂාංගයක් තිබීම හෝ නොපැවතීම මත කිසිදු බලපෑමක් ඇති නොකරන බවයි.

වෙනත් වචන වලින් කිවහොත්, එක් එක් දත්ත කට්ටල ගුණාංග සමානව වැදගත් සහ ස්වාධීන යැයි උපකල්පනය කරන බැවින් අපි "බොළඳ" ලෙස හඳුන්වන්නේ මෙයයි.

Naive Bayes වර්ගීකරණ භාවිතා කරමින් වර්ගීකරණය සිදු කෙරේ. ඒවා භාවිතා කිරීමට සරල වන අතර ස්වාධීනත්වයේ ප්‍රස්තුතය සත්‍ය වූ විට වඩාත් සංකීර්ණ පුරෝකථනයන්ට වඩා හොඳ ප්‍රතිඵල නිපදවයි.

පෙළ විශ්ලේෂණය, අයාචිත තැපැල් පෙරීම සහ නිර්දේශ පද්ධති වලදී, ඒවා භාවිතා කරනු ලැබේ.

16. Cost Functions සහ Los Functions යන්නෙන් අදහස් කරන්නේ කුමක්ද?

"අහිමි ශ්‍රිතය" යන වාක්‍ය ඛණ්ඩයෙන් අදහස් වන්නේ එක් දත්තයක් පමණක් සැලකිල්ලට ගත් විට පාඩුව ගණනය කිරීමේ ක්‍රියාවලියයි.

ඊට ප්‍රතිවිරුද්ධව, අපි බොහෝ දත්ත සඳහා සම්පූර්ණ වැරදි ප්‍රමාණය තීරණය කිරීමට පිරිවැය ශ්‍රිතය භාවිතා කරමු. සැලකිය යුතු වෙනසක් නොමැත.

වෙනත් වචන වලින් කිවහොත්, පිරිවැය ශ්‍රිත මුළු පුහුණු දත්ත කට්ටලය සඳහාම වෙනස එකතු කරන අතර, පාඩු ශ්‍රිත තනි වාර්තාවක් සඳහා සත්‍ය සහ පුරෝකථනය කළ අගයන් අතර වෙනස ග්‍රහණය කර ගැනීමට සැලසුම් කර ඇත.

17. ජනක ආකෘතියක් වෙනස් කොට සැලකීමේ ආකෘතියකින් වෙන්කර හඳුනා ගන්නේ කුමක් ද?

වෙනස් කොට සැලකීමේ ආකෘතියක් දත්ත කාණ්ඩ කිහිපයක් අතර වෙනස්කම් ඉගෙන ගනී. විවිධ දත්ත වර්ග මත උත්පාදක ආකෘතියක් ලබා ගනී.

වර්ගීකරණ ගැටළු මත, වෙනස් කොට සැලකීමේ ආකෘති බොහෝ විට අනෙකුත් ආකෘති අභිබවා යයි.

18. Type I සහ Type II දෝෂ අතර වෙනස්කම් විස්තර කරන්න.

ව්‍යාජ ධන I Type Errors ගණයට වැටෙන අතර ව්‍යාජ නිෂේධන වර්ග II දෝෂයන් යටතේ යයි (ඇත්ත වශයෙන්ම සිදු වූ විට කිසිවක් සිදු වී නැත).

19. යන්ත්‍ර ඉගෙනීමේදී, එන්සෙම්බල් ඉගෙනුම් තාක්ෂණය යනු කුමක්ද?

ensemble Learning නම් ශිල්පීය ක්‍රමයක් මගින් වඩාත් ප්‍රබල ආකෘති නිෂ්පාදනය කිරීම සඳහා බොහෝ යන්ත්‍ර ඉගෙනුම් ආකෘති මිශ්‍ර කරයි.

විවිධ හේතු නිසා ආකෘතියක් වෙනස් විය හැක. හේතු කිහිපයක් නම්:

විවිධ ජනගහනය
විවිධ උපකල්පන
විවිධ ආකෘති නිර්මාණ ක්රම

ආකෘතියේ පුහුණු සහ පරීක්ෂණ දත්ත භාවිතා කරන අතරතුර අපට ගැටලුවක් ඇති වේ. පක්ෂග්‍රාහීත්වය, විචලනය සහ අඩු කළ නොහැකි දෝෂ මෙම වැරැද්දේ විය හැකි වර්ග වේ.

දැන්, අපි මෙම ආකෘතියේ පක්ෂග්‍රාහී සහ විචලනය අතර මෙම සමතුලිතතාවය පක්ෂග්‍රාහී-විචල්‍ය වෙළඳාමක් ලෙස හඳුන්වන අතර එය සැමවිටම පැවතිය යුතුය. සමූහ ඉගෙනීම භාවිතා කිරීම හරහා මෙම වෙළඳාම සිදු කෙරේ.

විවිධ සමූහ ප්‍රවේශයන් ඇතත්, බොහෝ ආකෘති ඒකාබද්ධ කිරීම සඳහා පොදු උපාය මාර්ග දෙකක් තිබේ:

අමතර පුහුණු කට්ටල නිෂ්පාදනය කිරීම සඳහා Bagging ලෙස හැඳින්වෙන දේශීය ප්‍රවේශයක් පුහුණු කට්ටලය භාවිතා කරයි.
Boosting, වඩාත් සංකීර්ණ තාක්‍ෂණයක්: පුහුණු කට්ටලයක් සඳහා කදිම බර තැබීමේ සූත්‍රය සොයා ගැනීමට බෑග් කිරීම, boosting වැනි බොහෝ දේ භාවිතා වේ.

20. හරියටම පරාමිතික ආකෘති මොනවාද? උදාහරණයක් දෙන්න.

පරාමිතික ආකෘතිවල සීමිත පරාමිති ප්‍රමාණයක් ඇත. දත්ත පුරෝකථනය කිරීමට, ඔබ දැනගත යුතු සියල්ල ආකෘතියේ පරාමිතීන් වේ.

පහත දැක්වෙන්නේ සාමාන්‍ය උදාහරණ වේ: ලොජිස්ටික් ප්‍රතිගාමීත්වය, රේඛීය ප්‍රතිගාමීත්වය සහ රේඛීය SVMs. අසීමිත පරාමිති ගණනක් අඩංගු විය හැකි බැවින් පරාමිතික නොවන ආකෘති නම්‍යශීලී වේ.

දත්ත අනාවැකි සඳහා ආකෘතියේ පරාමිතීන් සහ නිරීක්ෂණය කළ දත්තවල තත්ත්වය අවශ්‍ය වේ. සාමාන්‍ය උදාහරණ කිහිපයක් මෙන්න: මාතෘකා ආකෘති, තීරණ ගස්, සහ k-ළඟම අසල්වැසියන්.

21. සහයෝගී පෙරහන විස්තර කරන්න. අන්තර්ගතය මත පදනම් වූ පෙරීම මෙන්ම?

ගැලපෙන අන්තර්ගත යෝජනා නිර්මාණය කිරීම සඳහා උත්සාහ කළ-සත්‍ය ක්‍රමයක් වන්නේ සහයෝගී පෙරහනයි.

සහයෝගිතා පෙරහන ලෙස හැඳින්වෙන නිර්දේශ පද්ධතියක්, හවුල් රුචිකත්වයන් සමඟ පරිශීලක මනාපයන් තුලනය කිරීමෙන් නැවුම් ද්‍රව්‍ය පුරෝකථනය කරයි.

අන්තර්ගත මත පදනම් වූ නිර්දේශ පද්ධති සලකා බලන එකම දෙය පරිශීලක මනාපයන් වේ. පරිශීලකයාගේ පෙර තේරීම් අනුව, අදාළ ද්‍රව්‍යවලින් නව නිර්දේශ සපයනු ලැබේ.

22. කාල මාලාවෙන් ඔබ හරියටම අදහස් කරන්නේ කුමක්ද?

කාල ශ්‍රේණියක් යනු ආරෝහණ අනුපිළිවෙලෙහි සංඛ්‍යා එකතුවකි. කලින් තීරණය කළ කාල සීමාවක් තුළ, එය තෝරාගත් දත්ත ලක්ෂ්‍යවල චලනය නිරීක්ෂණය කරන අතර වරින් වර දත්ත ලක්ෂ්‍ය ග්‍රහණය කරයි.

කාල ශ්‍රේණි සඳහා අවම හෝ උපරිම කාල ආදානයක් නොමැත.

ඔවුන්ගේ අනන්‍ය අවශ්‍යතා අනුව දත්ත විශ්ලේෂණය කිරීමට විශ්ලේෂකයින් විසින් කාල ශ්‍රේණි නිතර භාවිතා කරයි.

23. Gradient Boosting සහ Random Forest ඇල්ගොරිතම අතර වෙනස්කම් විස්තර කරන්න.

අහඹු වනාන්තර:

තීරණාත්මක ගස් විශාල ප්‍රමාණයක් අවසානයේ එකට එකතු වී ඇති අතර ඒවා අහඹු වනාන්තර ලෙස හැඳින්වේ.
ශ්‍රේණිය වැඩි කිරීම මඟින් සෑම ගසක්ම අනෙකින් ස්වාධීනව නිපදවන අතර, අහඹු වනාන්තරය එක් එක් ගස එකින් එක ගොඩනඟයි.
බහු පන්තිය වස්තුව හඳුනාගැනීම අහඹු වනාන්තර සමඟ හොඳින් ක්රියා කරයි.

අනුක්‍රමණය වැඩි කිරීම:

සසම්භාවී වනාන්තර ක්‍රියාවලිය අවසානයේ තීරණ ගස්වලට සම්බන්ධ වන අතර, Gradient Boosting Machines මුල සිටම ඒවා ඒකාබද්ධ කරයි.
පරාමිතීන් යෝග්‍ය ලෙස සකස් කර ඇත්නම්, ප්‍රතිඵල අනුව ශ්‍රේණිය ඉහළ නැංවීම අහඹු වනාන්තර අභිබවා යයි, නමුත් දත්ත කට්ටලයට බොහෝ පිටස්තරයන්, විෂමතා හෝ ශබ්දයක් තිබේ නම් එය හොඳ තේරීමක් නොවේ, මන්ද එය ආකෘතිය අධික වීමට හේතු විය හැක.
තත්‍ය කාලීන අවදානම් තක්සේරුවේ ඇති පරිදි, අසමතුලිත දත්ත ඇති විට, ශ්‍රේණිය ඉහළ නැංවීම හොඳින් සිදු වේ.

24. ඔබට ව්‍යාකූල අනුකෘතියක් අවශ්‍ය වන්නේ ඇයි? එය කුමක් ද?

ව්‍යාකූල න්‍යාසය ලෙස හැඳින්වෙන වගුවක්, සමහර විට දෝෂ න්‍යාසය ලෙස හැඳින්වේ, සැබෑ අගයන් දන්නා පරීක්ෂණ දත්ත සමූහයක් මත වර්ගීකරණ ආකෘතියක් හෝ වර්ගීකරණයක් කෙතරම් හොඳින් ක්‍රියා කරයිද යන්න පෙන්වීමට බහුලව භාවිතා වේ.

ආකෘතියක් හෝ ඇල්ගොරිතමයක් ක්‍රියා කරන ආකාරය බැලීමට එය අපට හැකියාව ලබා දෙයි. විවිධ පාඨමාලා අතර වැරදි වැටහීම් හඳුනා ගැනීම අපට පහසු කරයි.

එය ආකෘතියක් හෝ ඇල්ගොරිතමයක් කෙතරම් හොඳින් සිදු කරන්නේද යන්න ඇගයීමට ක්රමයක් ලෙස සේවය කරයි.

වර්ගීකරණ ආකෘතියක අනාවැකි ව්‍යාකූල න්‍යාසයකට සම්පාදනය කර ඇත. එක් එක් පන්ති ලේබලයේ ගණන් කිරීමේ අගයන් නිවැරදි සහ වැරදි පුරෝකථන මුළු ගණන බිඳ දැමීමට භාවිතා කරන ලදී.

එය වර්ගීකාරකය විසින් සිදු කරන ලද දෝෂ මෙන්ම වර්ගීකරනය මගින් සිදුවන විවිධ ආකාරයේ දෝෂ පිළිබඳ විස්තර සපයයි.

25. මූලධර්ම සංරචක විශ්ලේෂණයක් යනු කුමක්ද?

එකකට එකක් සහසම්බන්ධ වන විචල්‍ය සංඛ්‍යාව අවම කිරීමෙන්, ඉලක්කය වන්නේ දත්ත එකතු කිරීමේ මානය අවම කිරීමයි. නමුත් හැකි තරම් විවිධත්වය තබා ගැනීම වැදගත්ය.

විචල්‍යයන් ප්‍රධාන සංරචක ලෙස හැඳින්වෙන සම්පූර්ණයෙන්ම නව විචල්‍ය කට්ටලයක් බවට වෙනස් වේ.

මෙම PCs covariance matrix හි eigenvectors වන බැවින් විකලාංග වේ.

26. PCA (ප්‍රධාන සංරචක විශ්ලේෂණය) සඳහා සංරචක භ්‍රමණය ඉතා තීරණාත්මක වන්නේ ඇයි?

PCA හි භ්‍රමණය ඉතා වැදගත් වන්නේ එය එක් එක් සංරචක මගින් ලබාගත් විචල්‍යයන් අතර වෙන්වීම ප්‍රශස්ත කරන නිසා, සංරචක අර්ථ නිරූපණය සරල කරයි.

සංරචක භ්‍රමණය නොවන්නේ නම් සංරචක විචලනය ප්‍රකාශ කිරීමට අපට විස්තීරණ සංරචක අවශ්‍ය වේ.

27. විධිමත් කිරීම සහ සාමාන්‍යකරණය එකිනෙකාගෙන් වෙනස් වන්නේ කෙසේද?

සාමාන්‍යකරණය:

සාමාන්‍යකරණයේදී දත්ත වෙනස් වේ. විශේෂයෙන් පහත් සිට ඉහළ දක්වා විශාල වශයෙන් වෙනස් වන පරිමාණයන් තිබේ නම් ඔබ දත්ත සාමාන්‍යකරණය කළ යුතුය. මූලික සංඛ්‍යාලේඛන සියල්ල ගැළපෙන පරිදි එක් එක් තීරුව සකසන්න.

නිරවද්යතාව අහිමි නොවන බව සහතික කිරීම සඳහා, මෙය ප්රයෝජනවත් විය හැකිය. ශබ්දය නොසලකා හරිමින් සංඥාව හඳුනා ගැනීම ආකෘති පුහුණුවේ එක් අරමුණකි.

දෝෂය අඩු කිරීම සඳහා ආකෘතියට සම්පූර්ණ පාලනයක් ලබා දෙන්නේ නම් අධික ලෙස ගැලපෙන අවස්ථාවක් තිබේ.

විධිමත් කිරීම:

විධිමත් කිරීමේදී, අනාවැකි කාර්යය වෙනස් වේ. මෙය විධිමත් කිරීම හරහා යම් පාලනයකට යටත් වේ, එය සංකීර්ණ ඒවාට වඩා සරල සවි කිරීම් කාර්යයන් සඳහා අනුග්‍රහය දක්වයි.

28. සාමාන්‍යකරණය සහ ප්‍රමිතිකරණය එකිනෙකට වෙනස් වන්නේ කෙසේද?

විශේෂාංග පරිමාණය සඳහා බහුලව භාවිතා වන ශිල්පීය ක්‍රම දෙක වන්නේ සාමාන්‍යකරණය සහ ප්‍රමිතිකරණයයි.

සාමාන්‍යකරණය:

[0,1] පරාසයකට සරිලන පරිදි දත්ත නැවත පරිමාණය කිරීම සාමාන්‍යකරණය ලෙස හැඳින්වේ.
සියලු පරාමිතිවලට එකම ධන පරිමාණයක් තිබිය යුතු විට, සාමාන්‍යකරණය උපකාරී වේ, නමුත් දත්ත කට්ටලයේ පිටස්තරයන් නැති වී යයි.

විධිමත් කිරීම:

ප්‍රමිතිකරණ ක්‍රියාවලියේ (ඒකක විචලනය) කොටසක් ලෙස දත්ත 0 හි මධ්‍යන්‍යයක් සහ 1 හි සම්මත අපගමනයකට නැවත පරිමාණය කෙරේ.

29. හරියටම "විචල්‍ය උද්ධමන සාධකය" යන්නෙන් අදහස් කරන්නේ කුමක්ද?

එක් ස්වාධීන විචල්‍යයක් පමණක් ඇති ආකෘතියේ විචල්‍යතාවයේ විචල්‍යතාවයේ අනුපාතය විචල්‍ය උද්ධමන සාධකය (VIF) ලෙස හැඳින්වේ.

ප්‍රතිගාමී විචල්‍ය කිහිපයක කට්ටලයක පවතින බහුකොලිනියරිටි ප්‍රමාණය VIF ඇස්තමේන්තු කරයි.

එක් ස්වාධීන විචල්‍ය විචල්‍යයක් සහිත මාදිලියේ (VIF) මාදිලියේ විචලනය

30. පුහුණු කට්ටලයේ විශාලත්වය මත පදනම්ව, ඔබ වර්ගීකරණයක් තෝරා ගන්නේ කෙසේද?

ඉහළ නැඹුරුවක්, අඩු විචල්‍යතා ආකෘතියක් කෙටි පුහුණු කට්ටලයක් සඳහා වඩා හොඳින් ක්‍රියා කරයි, මන්ද අධික ලෙස සවි කිරීම අඩුය. Naive Bayes එක් අවස්ථාවක්.

විශාල පුහුණු කට්ටලයක් සඳහා වඩාත් සංකීර්ණ අන්තර්ක්‍රියා නියෝජනය කිරීම සඳහා, අඩු නැඹුරුවක් සහ ඉහළ විචල්‍යතාවයක් සහිත ආකෘතියක් වඩාත් සුදුසු වේ. ලොජිස්ටික් ප්‍රතිගමනය හොඳ උදාහරණයක්.

31. යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතම "කම්මැලි ඉගෙනුම්කරු" ලෙස හඳුන්වන්නේ සහ ඇයි?

මන්දගාමී ඉගෙන ගන්නෙකු වන KNN යනු යන්ත්‍ර ඉගෙනීමේ ඇල්ගොරිතමයකි. පුහුණු දත්ත වලින් යන්ත්‍ර ඉගෙන ගත් අගයන් හෝ විචල්‍යයන් ඉගෙනීම වෙනුවට වර්ගීකරණය කිරීමට කැමති සෑම අවස්ථාවකම K-NN ගතිකව දුර ගණනය කරන නිසා, එය පුහුණු දත්ත කට්ටලය කටපාඩම් කරයි.

මෙය K-NN කම්මැලි ඉගෙන ගන්නෙකු බවට පත් කරයි.

32. ROC Curve සහ AUC යනු කුමක්ද?

සියලුම සීමාවන්හිදී වර්ගීකරණ ආකෘතියක කාර්ය සාධනය ROC වක්‍රය මගින් ප්‍රස්ථාරිකව නිරූපණය කෙරේ. එයට සත්‍ය ධන අනුපාත සහ ව්‍යාජ ධන අනුපාත නිර්ණායක ඇත.

සරලව කිවහොත්, ROC වක්‍රය යටතේ ඇති ප්‍රදේශය AUC (ROC Curve යට ප්‍රදේශය) ලෙස හැඳින්වේ. ROC වක්‍රයේ ද්විමාන ප්‍රදේශය (0,0) සිට AUC දක්වා (1,1) මනිනු ලැබේ. ද්විමය වර්ගීකරණ ආකෘති තක්සේරු කිරීම සඳහා, එය කාර්ය සාධන සංඛ්යා ලේඛනයක් ලෙස භාවිතා කරයි.

33. අධි පරාමිතීන් යනු කුමක්ද? ආදර්ශ පරාමිතීන්ගෙන් ඔවුන් අද්විතීය වන්නේ කුමක් ද?

ආකෘතියේ අභ්යන්තර විචල්යයක් ආකෘති පරාමිතියක් ලෙස හැඳින්වේ. පුහුණු දත්ත භාවිතා කරමින්, පරාමිතියක අගය ආසන්න වේ.

ආකෘතිය නොදන්නා, අධි පරාමිතියක් යනු විචල්‍යයකි. දත්ත වලින් අගය තීරණය කළ නොහැක, එබැවින් ඒවා ආකෘති පරාමිතීන් ගණනය කිරීම සඳහා නිතර භාවිතා වේ.

34. F1 ලකුණු, නැවත කැඳවීම සහ නිරවද්‍යතාවය යන්නෙන් අදහස් කරන්නේ කුමක්ද?

ව්‍යාකූල මිනුම යනු වර්ගීකරණ ආකෘතියේ සඵලතාවය මැන බැලීම සඳහා භාවිතා කරන මෙට්‍රික් වේ. ව්‍යාකූල මෙට්‍රික් වඩාත් හොඳින් පැහැදිලි කිරීමට පහත වාක්‍ය ඛණ්ඩ භාවිතා කළ හැක:

TP: සැබෑ ධනාත්මක - මේවා නිසි ලෙස අපේක්ෂා කළ ධනාත්මක අගයන් වේ. එය ප්‍රක්ෂේපණය කළ පන්තියේ සහ සැබෑ පන්තියේ අගයන් දෙකම ධනාත්මක බව යෝජනා කරයි.

TN: සත්‍ය ඍණ - මේවා නිවැරදිව පුරෝකථනය කරන ලද අහිතකර අගයන් වේ. එය සැබෑ පන්තියේ සහ අපේක්ෂිත පන්තියේ වටිනාකම යන දෙකම සෘණ බව යෝජනා කරයි.

මෙම අගයන් - ව්‍යාජ ධනාත්මක සහ ව්‍යාජ සෘණ - ඔබගේ සැබෑ පන්තිය අපේක්ෂිත පන්තියෙන් වෙනස් වන විට සිදු වේ.

දැන්,

සත්‍ය ධන අනුපාතයේ (TP) අනුපාතය සත්‍ය පන්තියේ සිදු කරන ලද සියලුම නිරීක්ෂණවලට නැවත කැඳවීම ලෙස හැඳින්වේ, එය සංවේදීතාව ලෙසද හැඳින්වේ.

නැවත කැඳවීම TP/(TP+FN) වේ.

නිරවද්‍යතාවය යනු ධනාත්මක පුරෝකථන අගයේ මිනුමක් වන අතර, ආකෘතිය සැබවින්ම පුරෝකථනය කරන ධනාත්මක සංඛ්‍යාව එය නිවැරදිව පුරෝකථනය කරන නිවැරදි ධනාත්මක ගණනට සංසන්දනය කරයි.

නිරවද්‍යතාවය TP/(TP + FP)

තේරුම් ගැනීමට පහසුම කාර්ය සාධන මෙට්‍රික් එක වන්නේ නිරවද්‍යතාවයයි, එය සියලු නිරීක්ෂණ සඳහා නිසි ලෙස පුරෝකථනය කරන ලද නිරීක්ෂණවල අනුපාතයයි.

නිරවද්‍යතාවය (TP+TN)/(TP+FP+FN+TN) ට සමාන වේ.

F1 ලකුණු ලබා දීම සඳහා නිරවද්‍යතාවය සහ නැවත කැඳවීම බර කර සාමාන්‍යකරණය කර ඇත. ප්රතිඵලයක් වශයෙන්, මෙම ලකුණු ව්යාජ ධනාත්මක සහ ව්යාජ සෘණ යන දෙකම සලකා බලයි.

F1 නිරවද්‍යතාවයට වඩා බොහෝ විට වටිනා වේ, විශේෂයෙන් ඔබට අසමාන පන්ති ව්‍යාප්තියක් තිබේ නම්, එය නිරවද්‍යතාවය ලෙස වටහා ගැනීම තරම් සරල නොවූවත්, බුද්ධිමය වශයෙන්.

ව්‍යාජ ධනාත්මක සහ ව්‍යාජ ඍණවල පිරිවැය සැසඳිය හැකි විට හොඳම නිරවද්‍යතාවය ලබා ගත හැකිය. ව්‍යාජ ධනාත්මක සහ ව්‍යාජ නිෂේධන සමඟ සම්බන්ධ පිරිවැය සැලකිය යුතු ලෙස වෙනස් වන්නේ නම් නිරවද්‍යතාවය සහ නැවත කැඳවීම යන දෙකම ඇතුළත් කිරීම වඩාත් සුදුසුය.

35. හරියටම හරස් වලංගුකරණය යනු කුමක්ද?

යන්ත්‍ර ඉගෙනීමේදී හරස් වලංගුකරණය ලෙස හැඳින්වෙන සංඛ්‍යානමය නැවත නියැදීමේ ප්‍රවේශයක් වට ගණනාවක් හරහා යන්ත්‍ර ඉගෙනුම් ඇල්ගොරිතමයක් පුහුණු කිරීමට සහ ඇගයීමට දත්ත කට්ටල උප කුලක කිහිපයක් භාවිතා කරයි.

ආකෘතිය පුහුණු කිරීම සඳහා භාවිතා නොකළ නව දත්ත සමූහයක්, ආකෘතිය එය කෙතරම් හොඳින් පුරෝකථනය කරන්නේද යන්න බැලීමට හරස් වලංගුකරණය භාවිතයෙන් පරීක්ෂා කරනු ලැබේ. හරස් වලංගුකරණය හරහා දත්ත වැඩිපුර ගැළපීම වළක්වයි.

K-Fold බොහෝ විට භාවිතා කරන නැවත නියැදීමේ ක්‍රමය මුළු දත්ත කට්ටලයම සමාන ප්‍රමාණයේ K කට්ටලවලට බෙදයි. එය හරස් වලංගුකරණය ලෙස හැඳින්වේ.

36. ඔබේ ආකෘතියේ සැලකිය යුතු වෙනසක් ඇති බව ඔබ සොයා ගත්තා යැයි සිතමු. ඔබගේ මතය අනුව මෙම තත්වය හැසිරවීමට වඩාත්ම ගැලපෙන ඇල්ගොරිතම මොනවාද?

ඉහළ විචල්‍යතාවයක් කළමනාකරණය කිරීම

විශාල වෙනස්කම් සහිත ගැටළු සඳහා අපි බෑග් තාක්ෂණය භාවිතා කළ යුතුය.

සසම්භාවී දත්ත නැවත නැවත නියැදීම බෑග් කිරීමේ ඇල්ගොරිතම මගින් දත්ත උප කණ්ඩායම් වලට බෙදීමට භාවිතා කරයි. දත්ත බෙදූ පසු, අපට අහඹු දත්ත සහ රීති උත්පාදනය සඳහා නිශ්චිත පුහුණු ක්‍රියා පටිපාටියක් භාවිතා කළ හැක.

ඊට පසු, ආකෘතියේ අනාවැකි ඒකාබද්ධ කිරීමට ඡන්ද විමසීම භාවිතා කළ හැකිය.

37. රිජ් ප්‍රතිගාමීත්වය ලැසෝ ප්‍රතිගාමීත්වයෙන් වෙන්කර හඳුනා ගන්නේ කුමක් ද?

බහුලව භාවිතා වන විධිමත් කිරීමේ ක්‍රම දෙකක් වන්නේ ලැස්සෝ (L1 ලෙසද හැඳින්වේ) සහ රිජ් (සමහර විට L2 ලෙස හැඳින්වේ) ප්‍රතිගමනයයි. ඒවා භාවිතා කරනුයේ දත්ත වැඩිපුර ගැළපීම වැළැක්වීම සඳහා ය.

හොඳම විසඳුම සොයා ගැනීම සහ සංකීර්ණත්වය අවම කිරීම සඳහා, සංගුණකවලට දඬුවම් කිරීම සඳහා මෙම ශිල්පීය ක්රම භාවිතා කරනු ලැබේ. සංගුණකවල නිරපේක්ෂ අගයන් සම්පූර්ණයෙන් දඬුවම් කිරීමෙන්, ලැස්සෝ ප්රතිගාමී ක්රියා කරයි.

රිජ් හෝ L2 ප්‍රතිගමනයේ දඬුවම් ශ්‍රිතය සංගුණකවල වර්ග එකතුවෙන් ව්‍යුත්පන්න වේ.

38. වඩා වැදගත් වන්නේ: ආදර්ශ කාර්ය සාධනය හෝ ආදර්ශ නිරවද්‍යතාවය? කුමන එක සහ ඔබ එයට කැමති වන්නේ ඇයි?

මෙය රැවටිලිකාර ප්‍රශ්නයකි, එබැවින් යමෙකු මුලින්ම ආදර්ශ කාර්ය සාධනය යනු කුමක්දැයි වටහා ගත යුතුය. කාර්ය සාධනය වේගය ලෙස අර්ථ දක්වා තිබේ නම්, එය යෙදුම් වර්ගය මත රඳා පවතී; තත්‍ය කාලීන තත්වයක් සම්බන්ධ ඕනෑම යෙදුමක් තීරණාත්මක අංගයක් ලෙස අධික වේගයක් අවශ්‍ය වේ.

උදාහරණයක් ලෙස, විමසුම් ප්‍රතිඵල පැමිණීමට වැඩි කාලයක් ගත වුවහොත් හොඳම සෙවුම් ප්‍රතිඵලවල වටිනාකම අඩු වනු ඇත.

නිරවද්‍යතාවයට වඩා නිරවද්‍යතාවයට සහ නැවත කැඳවීමට ප්‍රමුඛත්වය දිය යුත්තේ ඇයිද යන්න සඳහා කාර්ය සාධනය සාධාරණීකරණයක් ලෙස භාවිතා කරන්නේ නම්, අසමතුලිත ඕනෑම දත්ත කට්ටලයක් සඳහා ව්‍යාපාරික අවස්ථාව නිරූපණය කිරීමේදී F1 ලකුණු නිරවද්‍යතාවයට වඩා ප්‍රයෝජනවත් වනු ඇත.

39. අසමානතා සහිත දත්ත කට්ටලයක් ඔබ කළමනාකරණය කරන්නේ කෙසේද?

අසමතුලිත දත්ත කට්ටලයක් නියැදීමේ ශිල්පීය ක්‍රම වලින් ප්‍රයෝජන ගත හැක. නියැදීම යට හෝ අධික ලෙස සිදු කළ හැක.

නියැදීම යටතේ අපට සුළුතර පන්තියට ගැලපෙන පරිදි බහුතර පන්තියේ ප්‍රමාණය හැකිලීමට ඉඩ සලසයි, එය ගබඩා කිරීම සහ ධාවන කාලය ක්‍රියාත්මක කිරීම සම්බන්ධයෙන් වේගය වැඩි කිරීමට උපකාරී වන නමුත් වටිනා දත්ත නැතිවීමට ද හේතු විය හැක.

අධික නියැදීම නිසා ඇති වන තොරතුරු නැතිවීමේ ගැටලුවට පිළියම් යෙදීම සඳහා, අපි සුළුතර පන්තිය ඉහළට ගනිමු; කෙසේ වෙතත්, මෙය අපට ඕනෑවට වඩා ගැළපෙන ගැටළු වලට මුහුණ දීමට හේතු වේ.

අතිරේක උපාය මාර්ග ඇතුළත් වේ:

පොකුරු මත පදනම් වූ නියැදීම- සුළුතර සහ බහුතර පන්තියේ අවස්ථා තනි තනිව K-means පොකුරු තාක්ෂණයට යටත් වේ. දත්ත කට්ටල පොකුරු සොයා ගැනීම සඳහා මෙය සිදු කෙරේ. ඉන්පසුව, සෑම පොකුරක්ම අධික ලෙස නියැදී ඇති අතර එමඟින් සියලුම පන්ති එකම ප්‍රමාණයෙන් යුක්ත වන අතර පන්තියක් තුළ ඇති සියලුම පොකුරුවලට සමාන අවස්ථා සංඛ්‍යාවක් ඇත.
SMOTE: Synthetic Minority Over-sampling Technique- සුළුතර පන්තියේ දත්ත පෙත්තක් උදාහරණයක් ලෙස භාවිතා කරයි, ඉන් පසුව එයට සැසඳිය හැකි අතිරේක කෘත්‍රිම අවස්ථා නිපදවා මුල් දත්ත කට්ටලයට එකතු කරනු ලැබේ. මෙම ක්‍රමය සංඛ්‍යාත්මක දත්ත ලකුණු සමඟ හොඳින් ක්‍රියා කරයි.

40. වැඩි කිරීම සහ බෑග් අතර වෙනස හඳුනා ගන්නේ කෙසේද?

Ensemble Techniques හි බෑග් කිරීම සහ බූස්ටින් ලෙස හැඳින්වෙන අනුවාද ඇත.

බෑග් කිරීම-

ඉහළ විචලනයක් සහිත ඇල්ගොරිතම සඳහා, බෑග් කිරීම යනු විචලනය අඩු කිරීමට භාවිතා කරන තාක්ෂණයකි. පක්ෂග්‍රාහීත්වයට ගොදුරු වන එවැනි වර්ගීකරණ පවුලක් වන්නේ තීරණය ගස් පවුලයි.

තීරණ ගස් පුහුණු කර ඇති දත්ත වර්ගය ඔවුන්ගේ කාර්ය සාධනය කෙරෙහි සැලකිය යුතු බලපෑමක් ඇති කරයි. මේ නිසා, ඉතා ඉහළ සියුම් සුසර කිරීමකින් වුවද, ප්‍රතිඵල සාමාන්‍යකරණය කිරීම සමහර විට ඒවා තුළ ලබා ගැනීම වඩා දුෂ්කර ය.

තීරණ ගස්වල පුහුණු දත්ත වෙනස් කළහොත්, ප්රතිඵල සැලකිය යුතු ලෙස වෙනස් වේ.

එහි ප්‍රතිඵලයක් ලෙස, බෑග් කිරීම භාවිතා කරනු ලබන අතර, බොහෝ තීරණ ගස් නිර්මාණය වන අතර, ඒ සෑම එකක්ම මුල් දත්තවල නියැදියක් භාවිතා කර පුහුණු කරනු ලබන අතර, අවසාන ප්‍රතිඵලය මෙම විවිධ මාදිලියේ සාමාන්‍යය වේ.

වැඩි කිරීම:

Boosting යනු n-දුර්වල වර්ගීකරණ පද්ධතියක් සමඟින් අනාවැකි පළකිරීමේ තාක්‍ෂණය වන අතර එහි එක් එක් දුර්වල වර්ගීකාරකය එහි ප්‍රබල වර්ගීකරණවල අඩුපාඩු සම්පූර්ණ කරයි. දී ඇති දත්ත කට්ටලයක් මත නරක ලෙස ක්‍රියා කරන වර්ගීකරණයක් අපි “දුර්වල වර්ගීකරණයක්” ලෙස හඳුන්වමු.

Boosting යනු ඇල්ගොරිතමයකට වඩා පැහැදිලිවම ක්‍රියාවලියකි. ලොජිස්ටික් ප්‍රතිගාමීත්වය සහ නොගැඹුරු තීරණ ගස් දුර්වල වර්ගීකරණ සඳහා පොදු උදාහරණ වේ.

Adaboost, Gradient Boosting සහ XGBoost යනු වඩාත් ජනප්‍රිය බූස්ටන් ඇල්ගොරිතම දෙකකි, කෙසේ වෙතත්, තවත් බොහෝ දේ ඇත.

41. ප්‍රේරක සහ අඩු කිරීමේ ඉගෙනීම අතර වෙනස්කම් පැහැදිලි කරන්න.

නිරීක්ෂණය කරන ලද උදාහරණ සමූහයකින් ආදර්ශයෙන් ඉගෙන ගන්නා විට, ආකෘතියක් සාමාන්‍ය නිගමනයකට පැමිණීමට ප්‍රේරක ඉගෙනීම භාවිතා කරයි. අනෙක් අතට, අඩු කිරීමේ ඉගෙනීම සමඟ, ආකෘතිය තමන්ගේම සෑදීමට පෙර ප්රතිඵලය භාවිතා කරයි.

ප්‍රේරක ඉගෙනීම යනු නිරීක්ෂණ වලින් නිගමනවලට එළඹීමේ ක්‍රියාවලියයි.

නිගමන ඉගෙනීම යනු නිගමන මත පදනම්ව නිරීක්ෂණ නිර්මාණය කිරීමේ ක්‍රියාවලියයි.

නිගමනය

සුභ පැතුම්! මේවා ඔබ දැන් පිළිතුරු දන්නා යන්ත්‍ර ඉගෙනීම සඳහා වන ඉහළම 40 සහ ඉහළ සම්මුඛ පරීක්ෂණ ප්‍රශ්න වේ. දත්ත විද්යාව සහ කෘතිම බුද්ධිය තාක්‍ෂණය දියුණු වන විට රැකියා සඳහා ඉල්ලුම දිගටම පවතිනු ඇත.

මෙම අති නවීන තාක්‍ෂණයන් පිළිබඳ ඔවුන්ගේ දැනුම යාවත්කාලීන කර ඔවුන්ගේ කුසලතා කට්ටලය වැඩිදියුණු කරන අපේක්ෂකයින්ට තරඟකාරී වැටුප් සමඟ විවිධාකාර රැකියා අවස්ථා සොයා ගත හැකිය.

පුළුල් ලෙස අසනු ලබන යන්ත්‍ර ඉගෙනුම් සම්මුඛ පරීක්ෂණ ප්‍රශ්න කිහිපයකට පිළිතුරු දිය යුතු ආකාරය පිළිබඳව ඔබට ස්ථිර අවබෝධයක් ඇති බැවින් ඔබට දැන් සම්මුඛ පරීක්ෂණවලට පිළිතුරු සැපයීමට ඉදිරියට යා හැකිය.

ඔබේ ඉලක්ක මත පදනම්ව, පහත පියවර ගන්න. Hashdork's වෙත පිවිසීමෙන් සම්මුඛ පරීක්ෂණ සඳහා සූදානම් වන්න සම්මුඛ පරීක්ෂණ මාලාව.

ඉහළම 40+ යන්ත්‍ර ඉගෙනුම් සම්මුඛ පරීක්ෂණ ප්‍රශ්න