മികച്ച 40+ മെഷീൻ ലേണിംഗ് ഇന്റർവ്യൂ ചോദ്യങ്ങൾ (2024)

ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]

1. മെഷീൻ ലേണിംഗ്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്, ഡീപ് ലേണിംഗ് എന്നിവ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിശദീകരിക്കുക.
2. വ്യത്യസ്ത തരത്തിലുള്ള മെഷീൻ ലേണിംഗ് വിവരിക്കുക.
3. പക്ഷപാതവും വേരിയൻസ് ട്രേഡ്-ഓഫും എന്താണ്?
4. മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ കാലക്രമേണ ഗണ്യമായി വികസിച്ചു. നൽകിയിരിക്കുന്ന ഒരു ഡാറ്റാ സെറ്റ് ഉപയോഗിക്കുന്നതിന് ശരിയായ അൽഗോരിതം എങ്ങനെ തിരഞ്ഞെടുക്കാം?
5. സഹവർത്തിത്വവും പരസ്പര ബന്ധവും എങ്ങനെ വ്യത്യാസപ്പെട്ടിരിക്കുന്നു?
6. മെഷീൻ ലേണിംഗിൽ, ക്ലസ്റ്ററിംഗ് എന്താണ് അർത്ഥമാക്കുന്നത്?
7. നിങ്ങൾ തിരഞ്ഞെടുത്ത മെഷീൻ ലേണിംഗ് അൽഗോരിതം എന്താണ്?
8. മെഷീൻ ലേണിംഗിലെ ലീനിയർ റിഗ്രഷൻ: എന്താണ് ഇത്?
9. കെഎൻഎൻ, കെ-മീൻസ് ക്ലസ്റ്ററിംഗ് എന്നിവ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിവരിക്കുക.
10. "തിരഞ്ഞെടുപ്പ് പക്ഷപാതം" നിങ്ങൾക്ക് എന്താണ് അർത്ഥമാക്കുന്നത്?
11. ബെയ്‌സിന്റെ സിദ്ധാന്തം എന്താണ്?
12. ഒരു മെഷീൻ ലേണിംഗ് മോഡലിൽ, എന്താണ് 'ട്രെയിനിംഗ് സെറ്റ്', 'ടെസ്റ്റ് സെറ്റ്'?
13. മെഷീൻ ലേണിംഗിലെ ഒരു സിദ്ധാന്തം എന്താണ്?
14. മെഷീൻ ലേണിംഗ് ഓവർഫിറ്റിംഗ് എന്താണ് അർത്ഥമാക്കുന്നത്, അത് എങ്ങനെ തടയാം?
15. നേവ് ബയേസ് ക്ലാസിഫയറുകൾ കൃത്യമായി എന്താണ്?
16. കോസ്റ്റ് ഫംഗ്ഷനുകളും ലോസ് ഫംഗ്ഷനുകളും എന്താണ് അർത്ഥമാക്കുന്നത്?
17. ഒരു ജനറേറ്റീവ് മോഡലിനെ വിവേചനപരമായ മോഡലിൽ നിന്ന് വേർതിരിക്കുന്നത് എന്താണ്?
18. ടൈപ്പ് I, ടൈപ്പ് II പിശകുകൾ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിവരിക്കുക.
19. മെഷീൻ ലേണിംഗിൽ, എന്താണ് എൻസെംബിൾ ലേണിംഗ് ടെക്നിക്?
20. കൃത്യമായി എന്താണ് പാരാമെട്രിക് മോഡലുകൾ? ഒരു ഉദാഹരണം നൽകുക.
21. സഹകരണ ഫിൽട്ടറിംഗ് വിവരിക്കുക. അതുപോലെ ഉള്ളടക്കം അടിസ്ഥാനമാക്കിയുള്ള ഫിൽട്ടറിംഗ്?
22. ടൈം സീരീസ് കൊണ്ട് നിങ്ങൾ കൃത്യമായി എന്താണ് ഉദ്ദേശിക്കുന്നത്?
23. ഗ്രേഡിയന്റ് ബൂസ്റ്റിംഗും റാൻഡം ഫോറസ്റ്റ് അൽഗോരിതങ്ങളും തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിവരിക്കുക.
24. നിങ്ങൾക്ക് ഒരു കൺഫ്യൂഷൻ മാട്രിക്സ് ആവശ്യമായിരിക്കുന്നത് എന്തുകൊണ്ട്? എന്താണിത്?
25. കൃത്യമായി എന്താണ് ഒരു തത്വ ഘടക വിശകലനം?
26. പിസിഎയ്ക്ക് (പ്രിൻസിപ്പൽ കോംപോണന്റ് അനാലിസിസ്) ഘടക ഭ്രമണം വളരെ നിർണായകമായിരിക്കുന്നത് എന്തുകൊണ്ട്?
27. റെഗുലറൈസേഷനും നോർമലൈസേഷനും എങ്ങനെ പരസ്പരം വ്യത്യാസപ്പെട്ടിരിക്കുന്നു?
28. നോർമലൈസേഷനും സ്റ്റാൻഡേർഡൈസേഷനും പരസ്പരം എങ്ങനെ വ്യത്യാസപ്പെട്ടിരിക്കുന്നു?
29. "വേരിയൻസ് ഇൻഫ്ലേഷൻ ഫാക്ടർ" കൃത്യമായി എന്താണ് അർത്ഥമാക്കുന്നത്?
30. പരിശീലന സെറ്റിന്റെ വലുപ്പത്തെ അടിസ്ഥാനമാക്കി, നിങ്ങൾ എങ്ങനെയാണ് ഒരു ക്ലാസിഫയർ തിരഞ്ഞെടുക്കുന്നത്?
31. മെഷീൻ ലേണിംഗിലെ ഏത് അൽഗോരിതത്തെ "അലസ പഠിതാവ്" എന്ന് വിളിക്കുന്നു, എന്തുകൊണ്ട്?
32. ROC കർവ്, AUC എന്നിവ എന്തൊക്കെയാണ്?
33. ഹൈപ്പർപാരാമീറ്ററുകൾ എന്തൊക്കെയാണ്? മോഡൽ പാരാമീറ്ററുകളിൽ നിന്ന് അവയെ അദ്വിതീയമാക്കുന്നത് എന്താണ്?
34. F1 സ്കോർ, തിരിച്ചുവിളിക്കൽ, കൃത്യത എന്നിവ എന്താണ് അർത്ഥമാക്കുന്നത്?
35. കൃത്യമായി എന്താണ് ക്രോസ്-വാലിഡേഷൻ?
36. നിങ്ങളുടെ മോഡലിന് കാര്യമായ വ്യത്യാസമുണ്ടെന്ന് നിങ്ങൾ കണ്ടെത്തിയെന്ന് കരുതുക. നിങ്ങളുടെ അഭിപ്രായത്തിൽ, ഈ സാഹചര്യം കൈകാര്യം ചെയ്യാൻ ഏറ്റവും അനുയോജ്യമായ അൽഗോരിതം ഏതാണ്?
37. റിഡ്ജ് റിഗ്രഷനെ ലാസ്സോ റിഗ്രഷനിൽ നിന്ന് വേർതിരിക്കുന്നത് എന്താണ്?
38. ഏതാണ് കൂടുതൽ പ്രധാനം: മോഡൽ പ്രകടനമോ മോഡൽ കൃത്യതയോ? ഏതാണ്, എന്തുകൊണ്ട് നിങ്ങൾ അതിനെ അനുകൂലിക്കും?
39. അസമത്വങ്ങളുള്ള ഒരു ഡാറ്റാസെറ്റ് നിങ്ങൾ എങ്ങനെ കൈകാര്യം ചെയ്യും?
40. ബൂസ്റ്റിംഗും ബാഗിംഗും തമ്മിൽ എങ്ങനെ വേർതിരിച്ചറിയാൻ കഴിയും?
41. ഇൻഡക്റ്റീവ്, ഡിഡക്റ്റീവ് ലേണിംഗ് തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിശദീകരിക്കുക.
തീരുമാനം

വ്യക്തികൾക്ക് വിവരങ്ങളുടെയും സേവനങ്ങളുടെയും പ്രവേശനക്ഷമത വർദ്ധിപ്പിക്കുന്നതിന്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (AI), മെഷീൻ ലേണിംഗ് എന്നിവ പോലുള്ള അത്യാധുനിക സാങ്കേതിക വിദ്യകൾ ബിസിനസുകൾ ഉപയോഗിക്കുന്നു.

ബാങ്കിംഗ്, ഫിനാൻസ്, റീട്ടെയിൽ, മാനുഫാക്ചറിംഗ്, ഹെൽത്ത്കെയർ എന്നിവയുൾപ്പെടെ വിവിധ വ്യവസായങ്ങൾ ഈ സാങ്കേതികവിദ്യകൾ സ്വീകരിക്കുന്നു.

ഡാറ്റാ സയന്റിസ്റ്റുകൾ, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് എഞ്ചിനീയർമാർ, മെഷീൻ ലേണിംഗ് എഞ്ചിനീയർമാർ, ഡാറ്റാ അനലിസ്റ്റുകൾ എന്നിവർക്കാണ് AI ഉപയോഗിക്കുന്ന ഏറ്റവും കൂടുതൽ ആവശ്യപ്പെടുന്ന സംഘടനാ റോളുകളിൽ ഒന്ന്.

ഈ പോസ്റ്റ് നിങ്ങളെ പലതരത്തിലുള്ള വഴികളിലൂടെ നയിക്കും മെഷീൻ ലേണിംഗ് നിങ്ങളുടെ അനുയോജ്യമായ ജോലി അന്വേഷിക്കുമ്പോൾ നിങ്ങളോട് ചോദിക്കാവുന്ന ഏത് ചോദ്യങ്ങൾക്കും തയ്യാറാകാൻ നിങ്ങളെ സഹായിക്കുന്നതിന് അടിസ്ഥാനം മുതൽ സങ്കീർണ്ണമായത് വരെയുള്ള അഭിമുഖ ചോദ്യങ്ങൾ.

1. മെഷീൻ ലേണിംഗ്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്, ഡീപ് ലേണിംഗ് എന്നിവ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിശദീകരിക്കുക.

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് വൈവിധ്യമാർന്ന മെഷീൻ ലേണിംഗും ആഴത്തിലുള്ള പഠന സമീപനങ്ങളും ഉപയോഗിക്കുന്നു, അത് യുക്തിയും നിയമങ്ങളും ഉപയോഗിച്ച് മനുഷ്യനെപ്പോലെയുള്ള ബുദ്ധി ഉപയോഗിച്ച് ജോലികൾ ചെയ്യാൻ കമ്പ്യൂട്ടർ സിസ്റ്റങ്ങളെ അനുവദിക്കുന്നു.

മെഷീൻ ലേണിംഗ് വിവിധ സ്റ്റാറ്റിസ്റ്റിക്സും ഡീപ് ലേണിംഗ് സമീപനങ്ങളും ഉപയോഗിച്ച് യന്ത്രങ്ങളെ അവയുടെ മുൻകാല പ്രകടനത്തിൽ നിന്ന് പഠിക്കാനും മനുഷ്യന്റെ മേൽനോട്ടമില്ലാതെ ചില ജോലികൾ സ്വന്തമായി ചെയ്യുന്നതിൽ കൂടുതൽ പ്രാവീണ്യം നേടാനും പ്രാപ്തമാക്കുന്നു.

ഡീപ്പ് ലേണിംഗ് എന്നത് സോഫ്‌റ്റ്‌വെയറിനെ സ്വയം പഠിക്കാനും വോയ്‌സ്, പിക്ചർ തിരിച്ചറിയൽ പോലുള്ള വൈവിധ്യമാർന്ന വാണിജ്യ പ്രവർത്തനങ്ങൾ നടപ്പിലാക്കാനും അനുവദിക്കുന്ന അൽഗോരിതങ്ങളുടെ ഒരു ശേഖരമാണ്.

അവയുടെ ബഹുതലങ്ങളെ തുറന്നുകാട്ടുന്ന സംവിധാനങ്ങൾ ന്യൂറൽ നെറ്റ്വർക്കുകൾ പഠനത്തിനായുള്ള വലിയ അളവിലുള്ള ഡാറ്റയ്ക്ക് ആഴത്തിലുള്ള പഠനം നടത്താൻ കഴിയും.

2. വ്യത്യസ്ത തരത്തിലുള്ള മെഷീൻ ലേണിംഗ് വിവരിക്കുക.

മെഷീൻ ലേണിംഗ് മൂന്ന് വ്യത്യസ്ത തരങ്ങളിൽ നിലവിലുണ്ട്:

സൂപ്പർവൈസ്ഡ് ലേണിംഗ്: സൂപ്പർവൈസ്ഡ് മെഷീൻ ലേണിംഗിൽ ലേബൽ ചെയ്തതോ ചരിത്രപരമായതോ ആയ ഡാറ്റ ഉപയോഗിച്ച് ഒരു മോഡൽ പ്രവചനങ്ങളോ വിധിന്യായങ്ങളോ സൃഷ്ടിക്കുന്നു. അവയുടെ അർത്ഥം വർദ്ധിപ്പിക്കുന്നതിനായി ടാഗ് ചെയ്തതോ ലേബൽ ചെയ്തതോ ആയ ഡാറ്റാ സെറ്റുകളെ ലേബൽ ചെയ്ത ഡാറ്റ എന്ന് വിളിക്കുന്നു.
മേൽനോട്ടമില്ലാത്ത പഠനം: മേൽനോട്ടമില്ലാത്ത പഠനത്തിനായി ലേബൽ ചെയ്ത ഡാറ്റ ഞങ്ങളുടെ പക്കലില്ല. ഇൻകമിംഗ് ഡാറ്റയിൽ, ഒരു മോഡലിന് പാറ്റേണുകൾ, വിചിത്രതകൾ, പരസ്പര ബന്ധങ്ങൾ എന്നിവ കണ്ടെത്താനാകും.
ശക്തിപ്പെടുത്തൽ പഠനം: മോഡലിന് കഴിയും ശക്തിപ്പെടുത്തൽ ഉപയോഗിച്ച് പഠിക്കുക പഠനവും അതിന്റെ മുൻ പെരുമാറ്റത്തിന് ലഭിച്ച പ്രതിഫലവും.

3. പക്ഷപാതവും വേരിയൻസ് ട്രേഡ്-ഓഫും എന്താണ്?

പക്ഷപാതിത്വത്തിന്റെ ഫലമാണ് ഓവർഫിറ്റിംഗ്, ഒരു മോഡൽ ഡാറ്റയുമായി യോജിക്കുന്ന അളവാണ്. നിങ്ങളുടെ തെറ്റായ അല്ലെങ്കിൽ വളരെ ലളിതമായ അനുമാനങ്ങൾ മൂലമാണ് പക്ഷപാതം ഉണ്ടാകുന്നത് മെഷീൻ ലേണിംഗ് അൽഗോരിതം.

നിങ്ങളുടെ ML അൽഗോരിതത്തിലെ സങ്കീർണ്ണത മൂലമുണ്ടാകുന്ന പിഴവുകളെ വേരിയൻസ് സൂചിപ്പിക്കുന്നു, ഇത് പരിശീലന ഡാറ്റയിലും ഓവർഫിറ്റിംഗിലുമുള്ള വലിയ അളവിലുള്ള വ്യതിയാനങ്ങളോട് സംവേദനക്ഷമത സൃഷ്ടിക്കുന്നു.

ഇൻപുട്ടുകളെ ആശ്രയിച്ച് ഒരു മോഡൽ എത്രമാത്രം വ്യത്യാസപ്പെടുന്നു എന്നതാണ് വേരിയൻസ്.

മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, അടിസ്ഥാന മോഡലുകൾ അങ്ങേയറ്റം പക്ഷപാതപരവും എന്നാൽ സ്ഥിരതയുള്ളതുമാണ് (കുറഞ്ഞ വ്യത്യാസം). സങ്കീർണ്ണമായ മോഡലുകളുടെ ഒരു പ്രശ്നമാണ് ഓവർഫിറ്റിംഗ്, എന്നിരുന്നാലും അവ മോഡലിന്റെ യാഥാർത്ഥ്യം (കുറഞ്ഞ പക്ഷപാതം) പിടിച്ചെടുക്കുന്നു.

ഉയർന്ന വ്യതിയാനവും ഉയർന്ന പക്ഷപാതവും തടയുന്നതിന്, മികച്ച പിശക് കുറയ്ക്കുന്നതിന് പക്ഷപാതവും വ്യതിയാനവും തമ്മിലുള്ള വ്യാപാരം ആവശ്യമാണ്.

4. മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ കാലക്രമേണ ഗണ്യമായി വികസിച്ചു. നൽകിയിരിക്കുന്ന ഒരു ഡാറ്റാ സെറ്റ് ഉപയോഗിക്കുന്നതിന് ശരിയായ അൽഗോരിതം എങ്ങനെ തിരഞ്ഞെടുക്കാം?

ഉപയോഗിക്കേണ്ട മെഷീൻ ലേണിംഗ് ടെക്നിക് ഒരു നിർദ്ദിഷ്ട ഡാറ്റാസെറ്റിലെ ഡാറ്റയെ ആശ്രയിച്ചിരിക്കുന്നു.

ഡാറ്റ ലീനിയർ ആയിരിക്കുമ്പോൾ, ലീനിയർ റിഗ്രഷൻ ഉപയോഗിക്കുന്നു. ഡാറ്റ നോൺ-ലീനിയറിറ്റിയെ സൂചിപ്പിക്കുന്നുണ്ടെങ്കിൽ ബാഗിംഗ് രീതി മികച്ച രീതിയിൽ പ്രവർത്തിക്കും. ഡാറ്റ മൂല്യനിർണ്ണയം നടത്തുകയോ വാണിജ്യ ആവശ്യങ്ങൾക്കായി വ്യാഖ്യാനിക്കുകയോ ചെയ്യേണ്ടതുണ്ടെങ്കിൽ ഞങ്ങൾക്ക് ഡിസിഷൻ ട്രീകളോ എസ്വിഎമ്മോ ഉപയോഗിക്കാം.

ഡാറ്റാസെറ്റിൽ ഫോട്ടോകളും വീഡിയോകളും ഓഡിയോയും ഉൾപ്പെടുന്നുവെങ്കിൽ കൃത്യമായ ഉത്തരം ലഭിക്കാൻ ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ ഉപയോഗപ്രദമാകും.

ഒരു പ്രത്യേക സാഹചര്യത്തിനോ ഡാറ്റ ശേഖരണത്തിനോ വേണ്ടിയുള്ള അൽഗോരിതം തിരഞ്ഞെടുക്കുന്നത് ഒരു അളവുകോലിൽ മാത്രം നടത്താനാവില്ല.

മികച്ച ഫിറ്റ് രീതി വികസിപ്പിക്കുന്നതിനുള്ള ലക്ഷ്യത്തിനായി, ഞങ്ങൾ ആദ്യം പര്യവേക്ഷണ ഡാറ്റ വിശകലനം (EDA) ഉപയോഗിച്ച് ഡാറ്റ പരിശോധിക്കുകയും ഡാറ്റാസെറ്റ് ഉപയോഗിക്കുന്നതിന്റെ ലക്ഷ്യം മനസ്സിലാക്കുകയും വേണം.

5. സഹവർത്തിത്വവും പരസ്പര ബന്ധവും എങ്ങനെ വ്യത്യാസപ്പെട്ടിരിക്കുന്നു?

രണ്ട് വേരിയബിളുകൾ പരസ്പരം എങ്ങനെ ബന്ധിപ്പിച്ചിരിക്കുന്നുവെന്നും മറ്റൊന്നിലെ മാറ്റങ്ങളോടുള്ള പ്രതികരണത്തിൽ ഒന്ന് എങ്ങനെ മാറാമെന്നും കോവേരിയൻസ് വിലയിരുത്തുന്നു.

ഫലം പോസിറ്റീവ് ആണെങ്കിൽ, വേരിയബിളുകൾ തമ്മിൽ നേരിട്ടുള്ള ബന്ധമുണ്ടെന്നും മറ്റെല്ലാ അവസ്ഥകളും സ്ഥിരമായി നിലനിൽക്കുമെന്ന് കരുതി, അടിസ്ഥാന വേരിയബിളിന്റെ വർദ്ധനവോ കുറവോ ഉപയോഗിച്ച് ഒരാൾ ഉയരുകയോ കുറയുകയോ ചെയ്യുമെന്നും ഇത് സൂചിപ്പിക്കുന്നു.

പരസ്പരബന്ധം രണ്ട് റാൻഡം വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം അളക്കുന്നു, കൂടാതെ മൂന്ന് വ്യത്യസ്ത മൂല്യങ്ങൾ മാത്രമേയുള്ളൂ: 1, 0, -1.

6. മെഷീൻ ലേണിംഗിൽ, ക്ലസ്റ്ററിംഗ് എന്താണ് അർത്ഥമാക്കുന്നത്?

ഗ്രൂപ്പ് ഡാറ്റ പോയിന്റ് ചെയ്യുന്ന മേൽനോട്ടമില്ലാത്ത പഠന രീതികളെ ക്ലസ്റ്ററിംഗ് എന്ന് വിളിക്കുന്നു. ഡാറ്റാ പോയിന്റുകളുടെ ഒരു ശേഖരം ഉപയോഗിച്ച്, ക്ലസ്റ്ററിംഗ് ടെക്നിക് പ്രയോഗിക്കാൻ കഴിയും.

ഈ തന്ത്രം ഉപയോഗിച്ച് നിങ്ങൾക്ക് എല്ലാ ഡാറ്റാ പോയിന്റുകളും അവയുടെ പ്രവർത്തനങ്ങൾ അനുസരിച്ച് ഗ്രൂപ്പുചെയ്യാനാകും.

ഒരേ വിഭാഗത്തിൽ പെടുന്ന ഡാറ്റാ പോയിന്റുകളുടെ സവിശേഷതകളും ഗുണങ്ങളും സമാനമാണ്, അതേസമയം പ്രത്യേക ഗ്രൂപ്പിംഗിൽ വരുന്ന ഡാറ്റ പോയിന്റുകൾ വ്യത്യസ്തമാണ്.

സ്റ്റാറ്റിസ്റ്റിക്കൽ ഡാറ്റ വിശകലനം ചെയ്യാൻ ഈ സമീപനം ഉപയോഗിക്കാം.

7. നിങ്ങൾ തിരഞ്ഞെടുത്ത മെഷീൻ ലേണിംഗ് അൽഗോരിതം എന്താണ്?

ഈ ചോദ്യത്തിൽ നിങ്ങളുടെ മുൻഗണനകളും അതുല്യമായ കഴിവുകളും പ്രകടിപ്പിക്കാൻ നിങ്ങൾക്ക് അവസരമുണ്ട്, കൂടാതെ നിരവധി മെഷീൻ ലേണിംഗ് ടെക്നിക്കുകളെക്കുറിച്ചുള്ള നിങ്ങളുടെ സമഗ്രമായ അറിവും.

ചിന്തിക്കേണ്ട ചില സാധാരണ മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ ഇതാ:

ലീനിയർ റിഗ്രഷൻ
ലോജിസ്റ്റിക് റിഗ്രഷൻ
നിഷ്കളങ്കമായ ബയേസ്
തീരുമാനമെടുക്കുന്ന വൃക്ഷങ്ങൾ
കെ എന്നാൽ അർത്ഥമാക്കുന്നത്
റാൻഡം ഫോറസ്റ്റ് അൽഗോരിതം
കെ-അടുത്ത അയൽക്കാരൻ (കെഎൻഎൻ)

8. മെഷീൻ ലേണിംഗിലെ ലീനിയർ റിഗ്രഷൻ: എന്താണ് ഇത്?

ഒരു സൂപ്പർവൈസ്ഡ് മെഷീൻ ലേണിംഗ് അൽഗോരിതം ലീനിയർ റിഗ്രഷൻ ആണ്.

ആശ്രിതവും സ്വതന്ത്രവുമായ വേരിയബിളുകൾ തമ്മിലുള്ള ലീനിയർ കണക്ഷൻ നിർണ്ണയിക്കാൻ പ്രവചന വിശകലനത്തിൽ ഇത് ഉപയോഗിക്കുന്നു.

ലീനിയർ റിഗ്രഷൻ സമവാക്യം ഇപ്രകാരമാണ്:

Y = A + BX

എവിടെ:

ഇൻപുട്ട് അല്ലെങ്കിൽ സ്വതന്ത്ര വേരിയബിളിനെ X എന്ന് വിളിക്കുന്നു.
ആശ്രിത അല്ലെങ്കിൽ ഔട്ട്പുട്ട് വേരിയബിൾ Y ആണ്.
X ന്റെ ഗുണകം b ആണ്, അതിന്റെ ഇന്റർസെപ്റ്റ് a ആണ്.

9. കെഎൻഎൻ, കെ-മീൻസ് ക്ലസ്റ്ററിംഗ് എന്നിവ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിവരിക്കുക.

KNN (ഒരു വർഗ്ഗീകരണ രീതി, മേൽനോട്ടത്തിലുള്ള പഠനം) ലേബൽ ചെയ്‌ത പോയിന്റുകൾ ആവശ്യമാണ്, എന്നാൽ k- അർത്ഥമാക്കുന്നില്ല (ക്ലസ്റ്ററിംഗ് അൽഗോരിതം, മേൽനോട്ടമില്ലാത്ത പഠനം) എന്നതാണ് പ്രാഥമിക വ്യത്യാസം.

കെ-അടുത്ത അയൽക്കാർ ഉപയോഗിച്ച് നിങ്ങൾക്ക് ലേബൽ ചെയ്ത ഡാറ്റയെ ലേബൽ ചെയ്യാത്ത പോയിന്റായി തരംതിരിക്കാം. ലേബൽ ചെയ്യാത്ത പോയിന്റുകൾ എങ്ങനെ ഗ്രൂപ്പുചെയ്യാമെന്ന് മനസിലാക്കാൻ K- അർത്ഥമാക്കുന്നത് ക്ലസ്റ്ററിംഗ് പോയിന്റുകൾ തമ്മിലുള്ള ശരാശരി ദൂരം ഉപയോഗിക്കുന്നു.

10. "തിരഞ്ഞെടുപ്പ് പക്ഷപാതം" നിങ്ങൾക്ക് എന്താണ് അർത്ഥമാക്കുന്നത്?

ഒരു പരീക്ഷണത്തിന്റെ സാമ്പിൾ ഘട്ടത്തിലെ പക്ഷപാതം സ്ഥിതിവിവരക്കണക്കിലെ കൃത്യതയില്ലാത്തതാണ്.

കൃത്യതയില്ലാത്തതിന്റെ ഫലമായി പരീക്ഷണത്തിലെ മറ്റ് ഗ്രൂപ്പുകളേക്കാൾ ഒരു സാമ്പിൾ ഗ്രൂപ്പ് കൂടുതൽ തവണ തിരഞ്ഞെടുക്കപ്പെടുന്നു.

തിരഞ്ഞെടുക്കൽ പക്ഷപാതം അംഗീകരിച്ചില്ലെങ്കിൽ, അത് തെറ്റായ നിഗമനത്തിൽ കലാശിച്ചേക്കാം.

11. ബെയ്‌സിന്റെ സിദ്ധാന്തം എന്താണ്?

മറ്റ് സാധ്യതകളെക്കുറിച്ച് അറിയുമ്പോൾ, ബയേസ് സിദ്ധാന്തം ഉപയോഗിച്ച് നമുക്ക് ഒരു പ്രോബബിലിറ്റി നിർണ്ണയിക്കാൻ കഴിയും. മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, മുൻ വിവരങ്ങളെ അടിസ്ഥാനമാക്കി ഒരു സംഭവത്തിന്റെ പിൻഭാഗത്തെ പ്രോബബിലിറ്റി ഇത് വാഗ്ദാനം ചെയ്യുന്നു.

സോപാധിക സാധ്യതകൾ കണക്കാക്കുന്നതിനുള്ള ഒരു മികച്ച രീതി ഈ സിദ്ധാന്തം നൽകുന്നു.

ക്ലാസിഫിക്കേഷൻ പ്രെഡിക്റ്റീവ് മോഡലിംഗ് പ്രശ്നങ്ങൾ വികസിപ്പിക്കുകയും ഒരു പരിശീലനത്തിന് ഒരു മോഡൽ ഘടിപ്പിക്കുകയും ചെയ്യുമ്പോൾ മെഷീൻ ലേണിംഗിലെ ഡാറ്റാസെറ്റ്, ബയേസിന്റെ സിദ്ധാന്തം പ്രയോഗിക്കുന്നു (അതായത് നേവ് ബയേസ്, ബയേസ് ഒപ്റ്റിമൽ ക്ലാസിഫയർ).

12. ഒരു മെഷീൻ ലേണിംഗ് മോഡലിൽ, എന്താണ് 'ട്രെയിനിംഗ് സെറ്റ്', 'ടെസ്റ്റ് സെറ്റ്'?

പരിശീലന സെറ്റ്:

പരിശീലന സെറ്റിൽ വിശകലനത്തിനും പഠനത്തിനുമായി മാതൃകയിലേക്ക് അയച്ച സന്ദർഭങ്ങൾ അടങ്ങിയിരിക്കുന്നു.
മോഡലിനെ പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കുന്ന ലേബൽ ചെയ്ത ഡാറ്റയാണിത്.
സാധാരണഗതിയിൽ, മൊത്തം ഡാറ്റയുടെ 70% പരിശീലന ഡാറ്റാസെറ്റായി ഉപയോഗിക്കുന്നു.

ടെസ്റ്റ് സെറ്റ്:

മോഡലിന്റെ ഹൈപ്പോഥെസിസ് ജനറേഷൻ കൃത്യത വിലയിരുത്താൻ ടെസ്റ്റ് സെറ്റ് ഉപയോഗിക്കുന്നു.
ലേബൽ ചെയ്ത ഡാറ്റയില്ലാതെ ഞങ്ങൾ പരിശോധിക്കുന്നു, തുടർന്ന് ഫലങ്ങൾ സ്ഥിരീകരിക്കാൻ ലേബലുകൾ ഉപയോഗിക്കുന്നു.
ശേഷിക്കുന്ന 30% ഒരു ടെസ്റ്റ് ഡാറ്റാസെറ്റായി ഉപയോഗിക്കുന്നു.

13. മെഷീൻ ലേണിംഗിലെ ഒരു സിദ്ധാന്തം എന്താണ്?

മെഷീൻ ലേണിംഗ്, ഇൻപുട്ടിലേക്ക് ഇൻപുട്ട് ലിങ്ക് ചെയ്യുന്ന ഒരു ഫംഗ്‌ഷൻ നന്നായി മനസ്സിലാക്കാൻ നിലവിലുള്ള ഡാറ്റാസെറ്റുകളുടെ ഉപയോഗം പ്രാപ്‌തമാക്കുന്നു. ഇത് ഫംഗ്ഷൻ ഏകദേശം എന്നാണ് അറിയപ്പെടുന്നത്.

ഈ സാഹചര്യത്തിൽ, നൽകിയിരിക്കുന്ന സാഹചര്യത്തെ അടിസ്ഥാനമാക്കിയുള്ള എല്ലാ സങ്കൽപ്പിക്കാവുന്ന നിരീക്ഷണങ്ങളും ഏറ്റവും മികച്ച രീതിയിൽ കൈമാറുന്നതിന് അജ്ഞാത ടാർഗെറ്റ് ഫംഗ്‌ഷനായി ഏകദേശ കണക്ക് ഉപയോഗിക്കേണ്ടതുണ്ട്.

മെഷീൻ ലേണിംഗിൽ, ടാർഗെറ്റ് ഫംഗ്‌ഷൻ കണക്കാക്കുന്നതിനും ഉചിതമായ ഇൻപുട്ട്-ടു-ഔട്ട്‌പുട്ട് മാപ്പിംഗുകൾ പൂർത്തിയാക്കുന്നതിനും സഹായിക്കുന്ന ഒരു മാതൃകയാണ് ഹൈപ്പോതെസിസ്.

അൽഗോരിതങ്ങളുടെ തിരഞ്ഞെടുപ്പും രൂപകൽപ്പനയും ഒരു മാതൃകയിലൂടെ പ്രതിനിധീകരിക്കാൻ കഴിയുന്ന സാധ്യമായ അനുമാനങ്ങളുടെ ഇടം നിർവചിക്കാൻ അനുവദിക്കുന്നു.

ഒരൊറ്റ സിദ്ധാന്തത്തിന്, ചെറിയക്ഷരം h (h) ഉപയോഗിക്കുന്നു, എന്നാൽ തിരയുന്ന മുഴുവൻ ഹൈപ്പോതെസിസ് സ്‌പെയ്‌സിനും മൂലധനം h (H) ഉപയോഗിക്കുന്നു. ഈ നൊട്ടേഷനുകൾ ഞങ്ങൾ ചുരുക്കമായി അവലോകനം ചെയ്യും:

ഔട്ട്‌പുട്ടിലേക്ക് ഇൻപുട്ടിന്റെ മാപ്പിംഗ് സുഗമമാക്കുന്ന ഒരു പ്രത്യേക മോഡലാണ് ഹൈപ്പോതെസിസ് (എച്ച്), അത് പിന്നീട് മൂല്യനിർണ്ണയത്തിനും പ്രവചനത്തിനും ഉപയോഗിക്കാം.
ഔട്ട്‌പുട്ടുകളിലേക്കുള്ള ഇൻപുട്ടുകൾ മാപ്പ് ചെയ്യാൻ ഉപയോഗിക്കാവുന്ന ഒരു ഹൈപ്പോതീസിസ് സെർച്ച് ചെയ്യാവുന്ന ഇടമാണ് ഹൈപ്പോതെസിസ് സെറ്റ് (H). ഇഷ്യൂ ഫ്രെയിമിംഗ്, മോഡൽ, മോഡൽ കോൺഫിഗറേഷൻ എന്നിവ പൊതുവായ പരിമിതികളുടെ ചില ഉദാഹരണങ്ങളാണ്.

14. മെഷീൻ ലേണിംഗ് ഓവർഫിറ്റിംഗ് എന്താണ് അർത്ഥമാക്കുന്നത്, അത് എങ്ങനെ തടയാം?

ഒരു മെഷീൻ അപര്യാപ്തമായ ഡാറ്റാസെറ്റിൽ നിന്ന് പഠിക്കാൻ ശ്രമിക്കുമ്പോൾ, ഓവർഫിറ്റിംഗ് സംഭവിക്കുന്നു.

തൽഫലമായി, ഓവർഫിറ്റിംഗ് ഡാറ്റ വോളിയവുമായി വിപരീതമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. ക്രോസ്-വാലിഡേഷൻ സമീപനം ചെറിയ ഡാറ്റാസെറ്റുകൾക്ക് ഓവർഫിറ്റിംഗ് ഒഴിവാക്കാൻ അനുവദിക്കുന്നു. ഈ രീതിയിൽ ഒരു ഡാറ്റാസെറ്റ് രണ്ട് ഭാഗങ്ങളായി തിരിച്ചിരിക്കുന്നു.

പരിശോധനയ്ക്കും പരിശീലനത്തിനുമുള്ള ഡാറ്റാസെറ്റ് ഈ രണ്ട് ഭാഗങ്ങൾ ഉൾക്കൊള്ളുന്നതാണ്. പരിശീലന ഡാറ്റാസെറ്റ് ഒരു മോഡൽ സൃഷ്ടിക്കാൻ ഉപയോഗിക്കുന്നു, അതേസമയം ടെസ്റ്റിംഗ് ഡാറ്റാസെറ്റ് വ്യത്യസ്ത ഇൻപുട്ടുകൾ ഉപയോഗിച്ച് മോഡലിനെ വിലയിരുത്താൻ ഉപയോഗിക്കുന്നു.

ഓവർ ഫിറ്റിംഗ് തടയുന്നത് ഇങ്ങനെയാണ്.

15. നേവ് ബയേസ് ക്ലാസിഫയറുകൾ കൃത്യമായി എന്താണ്?

വിവിധ വർഗ്ഗീകരണ രീതികൾ നേവ് ബയേസ് ക്ലാസിഫയറുകൾ നിർമ്മിക്കുന്നു. ഈ ക്ലാസിഫയറുകൾ എന്നറിയപ്പെടുന്ന ഒരു കൂട്ടം അൽഗോരിതങ്ങൾ ഒരേ അടിസ്ഥാന ആശയത്തിൽ പ്രവർത്തിക്കുന്നു.

ഒരു സവിശേഷതയുടെ സാന്നിധ്യമോ അഭാവമോ മറ്റൊരു സവിശേഷതയുടെ സാന്നിധ്യത്തെയോ അഭാവത്തെയോ ബാധിക്കുന്നില്ല എന്നതാണ് നിഷ്കളങ്കരായ ബയേസ് ക്ലാസിഫയർമാർ നടത്തിയ അനുമാനം.

മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, ഓരോ ഡാറ്റാസെറ്റ് ആട്രിബ്യൂട്ടും ഒരുപോലെ പ്രാധാന്യമുള്ളതും സ്വതന്ത്രവുമാണെന്ന് അനുമാനിക്കുന്നതിനാൽ ഇതിനെയാണ് ഞങ്ങൾ "നിഷ്കളങ്കം" എന്ന് വിളിക്കുന്നത്.

നിഷ്കളങ്കമായ ബയേസ് ക്ലാസിഫയറുകൾ ഉപയോഗിച്ചാണ് വർഗ്ഗീകരണം നടത്തുന്നത്. അവ ഉപയോഗിക്കാൻ ലളിതവും കൂടുതൽ സങ്കീർണ്ണമായ പ്രവചനങ്ങളേക്കാൾ മികച്ച ഫലങ്ങൾ ഉളവാക്കുന്നതുമാണ്, സ്വാതന്ത്ര്യത്തിന്റെ ആമുഖം ശരിയാണ്.

ടെക്സ്റ്റ് വിശകലനം, സ്പാം ഫിൽട്ടറിംഗ്, ശുപാർശ സംവിധാനങ്ങൾ എന്നിവയിൽ അവർ ഉപയോഗിക്കുന്നു.

16. കോസ്റ്റ് ഫംഗ്ഷനുകളും ലോസ് ഫംഗ്ഷനുകളും എന്താണ് അർത്ഥമാക്കുന്നത്?

"നഷ്ട പ്രവർത്തനം" എന്ന പദപ്രയോഗം ഒരു ഡാറ്റ മാത്രം കണക്കിലെടുക്കുമ്പോൾ നഷ്ടം കണക്കാക്കുന്ന പ്രക്രിയയെ സൂചിപ്പിക്കുന്നു.

നേരെമറിച്ച്, നിരവധി ഡാറ്റകൾക്കായി മൊത്തം പിശകുകളുടെ അളവ് നിർണ്ണയിക്കാൻ ഞങ്ങൾ കോസ്റ്റ് ഫംഗ്ഷൻ ഉപയോഗിക്കുന്നു. കാര്യമായ വ്യത്യാസം നിലവിലില്ല.

മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, കോസ്റ്റ് ഫംഗ്ഷനുകൾ മുഴുവൻ പരിശീലന ഡാറ്റാസെറ്റിനുമുള്ള വ്യത്യാസം കൂട്ടിച്ചേർക്കുമ്പോൾ, ഒരൊറ്റ റെക്കോർഡിനായി യഥാർത്ഥവും പ്രവചിക്കപ്പെട്ടതുമായ മൂല്യങ്ങൾ തമ്മിലുള്ള വ്യത്യാസം പിടിച്ചെടുക്കാൻ ലോസ് ഫംഗ്ഷനുകൾ രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നു.

17. ഒരു ജനറേറ്റീവ് മോഡലിനെ വിവേചനപരമായ മോഡലിൽ നിന്ന് വേർതിരിക്കുന്നത് എന്താണ്?

ഒരു വിവേചനപരമായ മോഡൽ നിരവധി ഡാറ്റ വിഭാഗങ്ങൾ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ പഠിക്കുന്നു. ഒരു ജനറേറ്റീവ് മോഡൽ വ്യത്യസ്‌ത ഡാറ്റ തരങ്ങൾ എടുക്കുന്നു.

വർഗ്ഗീകരണ പ്രശ്നങ്ങളിൽ, വിവേചനപരമായ മോഡലുകൾ പലപ്പോഴും മറ്റ് മോഡലുകളെ മറികടക്കുന്നു.

18. ടൈപ്പ് I, ടൈപ്പ് II പിശകുകൾ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിവരിക്കുക.

തെറ്റായ പോസിറ്റീവുകൾ ടൈപ്പ് I പിശകുകളുടെ വിഭാഗത്തിൽ പെടുന്നു, അതേസമയം തെറ്റായ നെഗറ്റീവുകൾ ടൈപ്പ് II പിശകുകളുടെ കീഴിലാണ് വരുന്നത് (യഥാർത്ഥത്തിൽ ഒന്നും സംഭവിച്ചിട്ടില്ലെന്ന് അവകാശപ്പെടുന്നു).

19. മെഷീൻ ലേണിംഗിൽ, എന്താണ് എൻസെംബിൾ ലേണിംഗ് ടെക്നിക്?

എൻസെംബിൾ ലേണിംഗ് എന്ന് വിളിക്കുന്ന ഒരു സാങ്കേതികത കൂടുതൽ ശക്തമായ മോഡലുകൾ നിർമ്മിക്കുന്നതിന് നിരവധി മെഷീൻ ലേണിംഗ് മോഡലുകളെ സംയോജിപ്പിക്കുന്നു.

വിവിധ കാരണങ്ങളാൽ ഒരു മോഡൽ വ്യത്യാസപ്പെടാം. നിരവധി കാരണങ്ങൾ ഇവയാണ്:

വിവിധ ജനസംഖ്യ
വിവിധ അനുമാനങ്ങൾ
വിവിധ മോഡലിംഗ് രീതികൾ

മോഡലിന്റെ പരിശീലന ഡാറ്റയും ടെസ്റ്റിംഗ് ഡാറ്റയും ഉപയോഗിക്കുമ്പോൾ ഞങ്ങൾ ഒരു പ്രശ്നം നേരിടും. പക്ഷപാതം, വ്യതിയാനം, തിരുത്താനാവാത്ത പിശക് എന്നിവ ഈ തെറ്റിന്റെ സാധ്യമായ തരങ്ങളാണ്.

ഇപ്പോൾ, മോഡലിലെ പക്ഷപാതവും വ്യതിയാനവും തമ്മിലുള്ള ഈ സന്തുലിതാവസ്ഥയെ ഞങ്ങൾ ബയസ്-വേരിയൻസ് ട്രേഡ്-ഓഫ് എന്ന് വിളിക്കുന്നു, അത് എല്ലായ്പ്പോഴും നിലനിൽക്കണം. സമന്വയ പഠനത്തിന്റെ ഉപയോഗത്തിലൂടെയാണ് ഈ വ്യാപാരം പൂർത്തിയാക്കുന്നത്.

വിവിധ സമന്വയ സമീപനങ്ങൾ ലഭ്യമാണെങ്കിലും, നിരവധി മോഡലുകൾ സംയോജിപ്പിക്കുന്നതിന് രണ്ട് പൊതു തന്ത്രങ്ങളുണ്ട്:

ബാഗിംഗ് എന്ന് വിളിക്കപ്പെടുന്ന ഒരു നേറ്റീവ് സമീപനം അധിക പരിശീലന സെറ്റുകൾ നിർമ്മിക്കാൻ പരിശീലന സെറ്റ് ഉപയോഗിക്കുന്നു.
ബൂസ്റ്റിംഗ്, കൂടുതൽ സങ്കീർണ്ണമായ സാങ്കേതികത: ഒരു പരിശീലന സെറ്റിന് അനുയോജ്യമായ വെയ്റ്റിംഗ് ഫോർമുല കണ്ടെത്താൻ ബാഗിംഗ് പോലെ, ബൂസ്റ്റിംഗ് ഉപയോഗിക്കുന്നു.

20. കൃത്യമായി എന്താണ് പാരാമെട്രിക് മോഡലുകൾ? ഒരു ഉദാഹരണം നൽകുക.

പാരാമെട്രിക് മോഡലുകളിൽ പരിമിതമായ അളവിലുള്ള പാരാമീറ്ററുകൾ ഉണ്ട്. ഡാറ്റ പ്രവചിക്കാൻ, നിങ്ങൾ അറിയേണ്ടത് മോഡലിന്റെ പാരാമീറ്ററുകൾ മാത്രമാണ്.

ഇനിപ്പറയുന്നവയാണ് സാധാരണ ഉദാഹരണങ്ങൾ: ലോജിസ്റ്റിക് റിഗ്രഷൻ, ലീനിയർ റിഗ്രഷൻ, ലീനിയർ എസ്വിഎമ്മുകൾ. നോൺ-പാരാമെട്രിക് മോഡലുകൾ അയവുള്ളതാണ്, കാരണം അവയ്ക്ക് പരിധിയില്ലാത്ത പാരാമീറ്ററുകൾ അടങ്ങിയിരിക്കാം.

ഡാറ്റാ പ്രവചനങ്ങൾക്ക് മോഡലിന്റെ പാരാമീറ്ററുകളും നിരീക്ഷിച്ച ഡാറ്റയുടെ നിലയും ആവശ്യമാണ്. ചില സാധാരണ ഉദാഹരണങ്ങൾ ഇതാ: വിഷയ മോഡലുകൾ, തീരുമാന മരങ്ങൾ, k- അടുത്തുള്ള അയൽക്കാർ.

21. സഹകരണ ഫിൽട്ടറിംഗ് വിവരിക്കുക. അതുപോലെ ഉള്ളടക്കം അടിസ്ഥാനമാക്കിയുള്ള ഫിൽട്ടറിംഗ്?

യോജിച്ച ഉള്ളടക്ക നിർദ്ദേശങ്ങൾ സൃഷ്‌ടിക്കുന്നതിനുള്ള ഒരു പരീക്ഷിച്ചുനോക്കിയതും യഥാർത്ഥവുമായ രീതിയാണ് സഹകരണ ഫിൽട്ടറിംഗ്.

പങ്കാളിത്ത താൽപ്പര്യങ്ങളുമായി ഉപയോക്തൃ മുൻഗണനകൾ സന്തുലിതമാക്കുന്നതിലൂടെ സഹകരണ ഫിൽട്ടറിംഗ് എന്ന് വിളിക്കപ്പെടുന്ന ഒരു ശുപാർശ സംവിധാനത്തിന്റെ ഒരു രൂപം പുതിയ മെറ്റീരിയലിനെ പ്രവചിക്കുന്നു.

ഉള്ളടക്കത്തെ അടിസ്ഥാനമാക്കിയുള്ള ശുപാർശ ചെയ്യുന്ന സംവിധാനങ്ങൾ പരിഗണിക്കുന്നത് ഉപയോക്തൃ മുൻഗണനകൾ മാത്രമാണ്. ഉപയോക്താവിന്റെ മുൻ തിരഞ്ഞെടുപ്പുകളുടെ വെളിച്ചത്തിൽ, അനുബന്ധ മെറ്റീരിയലിൽ നിന്ന് പുതിയ ശുപാർശകൾ നൽകുന്നു.

22. ടൈം സീരീസ് കൊണ്ട് നിങ്ങൾ കൃത്യമായി എന്താണ് ഉദ്ദേശിക്കുന്നത്?

ആരോഹണ ക്രമത്തിലുള്ള സംഖ്യകളുടെ ശേഖരമാണ് സമയ ശ്രേണി. മുൻകൂട്ടി നിശ്ചയിച്ച സമയപരിധിയിൽ, ഇത് തിരഞ്ഞെടുത്ത ഡാറ്റാ പോയിന്റുകളുടെ ചലനം നിരീക്ഷിക്കുകയും ഡാറ്റ പോയിന്റുകൾ ഇടയ്ക്കിടെ പിടിച്ചെടുക്കുകയും ചെയ്യുന്നു.

സമയ ശ്രേണിക്ക് കുറഞ്ഞതോ കൂടിയതോ ആയ സമയ ഇൻപുട്ട് ഇല്ല.

അനലിസ്റ്റുകൾ അവരുടെ തനതായ ആവശ്യകതകൾക്ക് അനുസൃതമായി ഡാറ്റ വിശകലനം ചെയ്യാൻ സമയ ശ്രേണികൾ പതിവായി ഉപയോഗിക്കുന്നു.

23. ഗ്രേഡിയന്റ് ബൂസ്റ്റിംഗും റാൻഡം ഫോറസ്റ്റ് അൽഗോരിതങ്ങളും തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിവരിക്കുക.

ക്രമരഹിത വനം:

ഒരു വലിയ കൂട്ടം തീരുമാന മരങ്ങൾ അവസാനം ഒന്നിച്ച് പൂൾ ചെയ്യുന്നു, അവയെ ക്രമരഹിത വനങ്ങൾ എന്ന് വിളിക്കുന്നു.
ഗ്രേഡിയന്റ് ബൂസ്റ്റിംഗ് ഓരോ മരവും മറ്റുള്ളവയിൽ നിന്ന് സ്വതന്ത്രമായി ഉത്പാദിപ്പിക്കുമ്പോൾ, ക്രമരഹിതമായ വനം ഓരോ മരവും ഓരോന്നായി നിർമ്മിക്കുന്നു.
മൾട്ടിക്ലാസ് ഒബ്ജക്റ്റ് കണ്ടെത്തൽ ക്രമരഹിതമായ വനങ്ങളിൽ നന്നായി പ്രവർത്തിക്കുന്നു.

ഗ്രേഡിയന്റ് ബൂസ്റ്റിംഗ്:

ക്രമരഹിത വനങ്ങൾ പ്രക്രിയയുടെ അവസാനത്തിൽ തീരുമാന മരങ്ങളിൽ ചേരുമ്പോൾ, ഗ്രേഡിയന്റ് ബൂസ്റ്റിംഗ് മെഷീനുകൾ തുടക്കം മുതൽ അവയെ സംയോജിപ്പിക്കുന്നു.
പാരാമീറ്ററുകൾ ഉചിതമായി ക്രമീകരിച്ചിട്ടുണ്ടെങ്കിൽ, ഗ്രേഡിയന്റ് ബൂസ്റ്റിംഗ് ഫലങ്ങളുടെ അടിസ്ഥാനത്തിൽ ക്രമരഹിതമായ വനങ്ങളെ മറികടക്കും, എന്നാൽ ഡാറ്റാ സെറ്റിന് ധാരാളം ഔട്ട്‌ലൈയറുകളോ അപാകതകളോ ശബ്ദമോ ഉണ്ടെങ്കിൽ അത് ഒരു മികച്ച തിരഞ്ഞെടുപ്പല്ല, കാരണം ഇത് മോഡൽ ഓവർഫിറ്റ് ആകാൻ ഇടയാക്കും.
അസന്തുലിതമായ ഡാറ്റ ഉള്ളപ്പോൾ, തത്സമയ അപകടസാധ്യത വിലയിരുത്തുന്നത് പോലെ, ഗ്രേഡിയന്റ് ബൂസ്റ്റിംഗ് നന്നായി പ്രവർത്തിക്കുന്നു.

24. നിങ്ങൾക്ക് ഒരു കൺഫ്യൂഷൻ മാട്രിക്സ് ആവശ്യമായിരിക്കുന്നത് എന്തുകൊണ്ട്? എന്താണിത്?

കൺഫ്യൂഷൻ മാട്രിക്സ് എന്നറിയപ്പെടുന്ന ഒരു പട്ടിക, ചിലപ്പോൾ പിശക് മാട്രിക്സ് എന്നറിയപ്പെടുന്നു, യഥാർത്ഥ മൂല്യങ്ങൾ അറിയാവുന്ന ഒരു കൂട്ടം ടെസ്റ്റ് ഡാറ്റയിൽ ഒരു വർഗ്ഗീകരണ മോഡൽ അല്ലെങ്കിൽ ക്ലാസിഫയർ എത്ര നന്നായി പ്രവർത്തിക്കുന്നുവെന്ന് കാണിക്കാൻ വ്യാപകമായി ഉപയോഗിക്കുന്നു.

ഒരു മോഡൽ അല്ലെങ്കിൽ അൽഗോരിതം എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് കാണാൻ ഇത് നമ്മെ പ്രാപ്തരാക്കുന്നു. വിവിധ കോഴ്‌സുകൾക്കിടയിൽ തെറ്റിദ്ധാരണകൾ കണ്ടെത്തുന്നത് ഇത് ലളിതമാക്കുന്നു.

ഒരു മോഡൽ അല്ലെങ്കിൽ അൽഗോരിതം എത്ര നന്നായി പ്രവർത്തിക്കുന്നുവെന്ന് വിലയിരുത്തുന്നതിനുള്ള ഒരു മാർഗമായി ഇത് പ്രവർത്തിക്കുന്നു.

ഒരു വർഗ്ഗീകരണ മാതൃകയുടെ പ്രവചനങ്ങൾ ഒരു കൺഫ്യൂഷൻ മാട്രിക്സിലേക്ക് സമാഹരിച്ചിരിക്കുന്നു. ശരിയായതും തെറ്റായതുമായ പ്രവചനങ്ങളുടെ ആകെ എണ്ണം തകർക്കാൻ ഓരോ ക്ലാസ് ലേബലിന്റെയും എണ്ണം മൂല്യങ്ങൾ ഉപയോഗിച്ചു.

ഇത് ക്ലാസിഫയർ വരുത്തിയ പിഴവുകളെക്കുറിച്ചും ക്ലാസിഫയറുകൾ മൂലമുണ്ടാകുന്ന വ്യത്യസ്ത തരത്തിലുള്ള പിശകുകളെക്കുറിച്ചും വിശദാംശങ്ങൾ നൽകുന്നു.

25. കൃത്യമായി എന്താണ് ഒരു തത്വ ഘടക വിശകലനം?

പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്ന വേരിയബിളുകളുടെ എണ്ണം കുറയ്ക്കുന്നതിലൂടെ, ഡാറ്റ ശേഖരണത്തിന്റെ അളവ് കുറയ്ക്കുക എന്നതാണ് ലക്ഷ്യം. എന്നാൽ കഴിയുന്നത്ര വൈവിധ്യം നിലനിർത്തേണ്ടത് പ്രധാനമാണ്.

വേരിയബിളുകൾ പ്രധാന ഘടകങ്ങൾ എന്ന് വിളിക്കപ്പെടുന്ന വേരിയബിളുകളുടെ ഒരു പുതിയ സെറ്റിലേക്ക് മാറ്റുന്നു.

ഈ പിസികൾ ഒരു കോവേറിയൻസ് മാട്രിക്സിന്റെ ഈജൻ വെക്റ്ററായതിനാൽ ഓർത്തോഗണൽ ആണ്.

26. പിസിഎയ്ക്ക് (പ്രിൻസിപ്പൽ കോംപോണന്റ് അനാലിസിസ്) ഘടക ഭ്രമണം വളരെ നിർണായകമായിരിക്കുന്നത് എന്തുകൊണ്ട്?

പിസിഎയിൽ റൊട്ടേഷൻ നിർണായകമാണ്, കാരണം ഇത് ഓരോ ഘടകത്തിനും ലഭിച്ച വ്യതിയാനങ്ങൾ തമ്മിലുള്ള വേർതിരിവ് ഒപ്റ്റിമൈസ് ചെയ്യുന്നു, ഘടക വ്യാഖ്യാനം ലളിതമാക്കുന്നു.

ഘടകങ്ങൾ തിരിക്കുന്നില്ലെങ്കിൽ ഘടക വ്യതിയാനം പ്രകടിപ്പിക്കാൻ ഞങ്ങൾക്ക് വിപുലമായ ഘടകങ്ങൾ ആവശ്യമാണ്.

27. റെഗുലറൈസേഷനും നോർമലൈസേഷനും എങ്ങനെ പരസ്പരം വ്യത്യാസപ്പെട്ടിരിക്കുന്നു?

നോർമലൈസേഷൻ:

നോർമലൈസേഷൻ സമയത്ത് ഡാറ്റയിൽ മാറ്റം വരുന്നു. ഡാറ്റയ്ക്ക് വളരെ വ്യത്യസ്തമായ സ്കെയിലുകൾ ഉണ്ടെങ്കിൽ, നിങ്ങൾ ഡാറ്റ നോർമലൈസ് ചെയ്യണം, പ്രത്യേകിച്ച് താഴ്ന്നതിൽ നിന്ന് ഉയർന്നത് വരെ. അടിസ്ഥാന സ്ഥിതിവിവരക്കണക്കുകൾ എല്ലാം പൊരുത്തപ്പെടുന്ന തരത്തിൽ ഓരോ നിരയും ക്രമീകരിക്കുക.

കൃത്യത നഷ്ടപ്പെടുന്നില്ലെന്ന് ഉറപ്പാക്കാൻ, ഇത് ഉപയോഗപ്രദമാകും. ശബ്ദത്തെ അവഗണിച്ചുകൊണ്ട് സിഗ്നൽ കണ്ടെത്തുന്നത് മാതൃകാ പരിശീലനത്തിന്റെ ലക്ഷ്യങ്ങളിലൊന്നാണ്.

പിശക് കുറയ്ക്കുന്നതിന് മോഡലിന് പൂർണ്ണ നിയന്ത്രണം നൽകിയാൽ ഓവർഫിറ്റിംഗിന് അവസരമുണ്ട്.

ക്രമപ്പെടുത്തൽ:

റെഗുലറൈസേഷനിൽ, പ്രവചന പ്രവർത്തനം പരിഷ്കരിക്കപ്പെടുന്നു. ഇത് ക്രമപ്പെടുത്തലിലൂടെ ചില നിയന്ത്രണങ്ങൾക്ക് വിധേയമാണ്, ഇത് സങ്കീർണ്ണമായവയെക്കാൾ ലളിതമായ ഫിറ്റിംഗ് ഫംഗ്ഷനുകളെ അനുകൂലിക്കുന്നു.

28. നോർമലൈസേഷനും സ്റ്റാൻഡേർഡൈസേഷനും പരസ്പരം എങ്ങനെ വ്യത്യാസപ്പെട്ടിരിക്കുന്നു?

ഫീച്ചർ സ്കെയിലിംഗിനായി ഏറ്റവും വ്യാപകമായി ഉപയോഗിക്കുന്ന രണ്ട് സാങ്കേതിക വിദ്യകൾ നോർമലൈസേഷനും സ്റ്റാൻഡേർഡൈസേഷനുമാണ്.

നോർമലൈസേഷൻ:

ഒരു [0,1] ശ്രേണിക്ക് അനുയോജ്യമായ രീതിയിൽ ഡാറ്റ പുനഃക്രമീകരിക്കുന്നത് നോർമലൈസേഷൻ എന്നറിയപ്പെടുന്നു.
എല്ലാ പാരാമീറ്ററുകൾക്കും ഒരേ പോസിറ്റീവ് സ്കെയിൽ ഉണ്ടായിരിക്കുമ്പോൾ, നോർമലൈസേഷൻ സഹായകരമാണ്, പക്ഷേ ഡാറ്റാ സെറ്റിന്റെ ഔട്ട്‌ലറുകൾ നഷ്‌ടപ്പെടും.

ക്രമപ്പെടുത്തൽ:

സ്റ്റാൻഡേർഡൈസേഷൻ പ്രക്രിയയുടെ (യൂണിറ്റ് വേരിയൻസ്) ഭാഗമായി ഡാറ്റ 0 ന്റെ ശരാശരിയും 1 ന്റെ സ്റ്റാൻഡേർഡ് ഡീവിയേഷനും ആയി പുനഃക്രമീകരിച്ചു.

29. "വേരിയൻസ് ഇൻഫ്ലേഷൻ ഫാക്ടർ" കൃത്യമായി എന്താണ് അർത്ഥമാക്കുന്നത്?

ഒരു സ്വതന്ത്ര വേരിയബിൾ മാത്രമുള്ള മോഡലിന്റെ വ്യതിയാനവും മോഡലിന്റെ വ്യത്യാസവും തമ്മിലുള്ള അനുപാതം വേരിയേഷൻ ഇൻഫ്ലേഷൻ ഫാക്ടർ (VIF) എന്നറിയപ്പെടുന്നു.

നിരവധി റിഗ്രഷൻ വേരിയബിളുകളുടെ ഒരു കൂട്ടത്തിൽ മൾട്ടികോളിനെയാരിറ്റിയുടെ അളവ് VIF കണക്കാക്കുന്നു.

ഒരു ഇൻഡിപെൻഡന്റ് വേരിയബിൾ വേരിയൻസ് ഉള്ള മോഡലിന്റെ (VIF) മോഡലിന്റെ വ്യതിയാനം

30. പരിശീലന സെറ്റിന്റെ വലുപ്പത്തെ അടിസ്ഥാനമാക്കി, നിങ്ങൾ എങ്ങനെയാണ് ഒരു ക്ലാസിഫയർ തിരഞ്ഞെടുക്കുന്നത്?

ഓവർഫിറ്റിംഗിന് സാധ്യത കുറവായതിനാൽ ഉയർന്ന ബയസ്, കുറഞ്ഞ വേരിയൻസ് മോഡൽ ഒരു ഹ്രസ്വ പരിശീലന സെറ്റിന് മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു. നേവ് ബയേസ് ഒരു ഉദാഹരണമാണ്.

ഒരു വലിയ പരിശീലന സെറ്റിനായി കൂടുതൽ സങ്കീർണ്ണമായ ഇടപെടലുകളെ പ്രതിനിധീകരിക്കുന്നതിന്, കുറഞ്ഞ പക്ഷപാതവും ഉയർന്ന വ്യത്യാസവുമുള്ള ഒരു മാതൃകയാണ് അഭികാമ്യം. ലോജിസ്റ്റിക് റിഗ്രഷൻ ഒരു നല്ല ഉദാഹരണമാണ്.

31. മെഷീൻ ലേണിംഗിലെ ഏത് അൽഗോരിതത്തെ "അലസ പഠിതാവ്" എന്ന് വിളിക്കുന്നു, എന്തുകൊണ്ട്?

മന്ദഗതിയിലുള്ള പഠിതാവായ കെഎൻഎൻ ഒരു മെഷീൻ ലേണിംഗ് അൽഗോരിതം ആണ്. പരിശീലന ഡാറ്റയിൽ നിന്ന് മെഷീൻ പഠിച്ച മൂല്യങ്ങളോ വേരിയബിളുകളോ പഠിക്കുന്നതിനുപകരം തരംതിരിക്കാൻ ആഗ്രഹിക്കുന്ന ഓരോ തവണയും K-NN ചലനാത്മകമായി ദൂരം കണക്കാക്കുന്നതിനാൽ, അത് പരിശീലന ഡാറ്റാസെറ്റ് ഓർമ്മിക്കുന്നു.

ഇത് K-NN നെ ഒരു മടിയൻ പഠിതാവാക്കി മാറ്റുന്നു.

32. ROC കർവ്, AUC എന്നിവ എന്തൊക്കെയാണ്?

എല്ലാ പരിധികളിലും ഒരു വർഗ്ഗീകരണ മോഡലിന്റെ പ്രകടനം ROC കർവ് ഗ്രാഫിക്കായി പ്രതിനിധീകരിക്കുന്നു. ഇതിന് യഥാർത്ഥ പോസിറ്റീവ് നിരക്കും തെറ്റായ പോസിറ്റീവ് നിരക്ക് മാനദണ്ഡവുമുണ്ട്.

ലളിതമായി പറഞ്ഞാൽ, ആർ‌ഒ‌സി വക്രത്തിന് കീഴിലുള്ള പ്രദേശം എ‌യു‌സി (ആർ‌ഒ‌സി വക്രത്തിന് കീഴിലുള്ള ഏരിയ) എന്നറിയപ്പെടുന്നു. (0,0) മുതൽ AUC വരെയുള്ള ROC വക്രത്തിന്റെ ദ്വിമാന വിസ്തീർണ്ണം അളക്കുന്നു (1,1). ബൈനറി വർഗ്ഗീകരണ മോഡലുകൾ വിലയിരുത്തുന്നതിന്, ഇത് ഒരു പ്രകടന സ്ഥിതിവിവരക്കണക്ക് ആയി ഉപയോഗിക്കുന്നു.

33. ഹൈപ്പർപാരാമീറ്ററുകൾ എന്തൊക്കെയാണ്? മോഡൽ പാരാമീറ്ററുകളിൽ നിന്ന് അവയെ അദ്വിതീയമാക്കുന്നത് എന്താണ്?

മോഡലിന്റെ ആന്തരിക വേരിയബിളിനെ മോഡൽ പാരാമീറ്റർ എന്നറിയപ്പെടുന്നു. പരിശീലന ഡാറ്റ ഉപയോഗിച്ച്, ഒരു പാരാമീറ്ററിന്റെ മൂല്യം ഏകദേശം കണക്കാക്കുന്നു.

മോഡലിന് അറിയില്ല, ഹൈപ്പർപാരാമീറ്റർ ഒരു വേരിയബിളാണ്. ഡാറ്റയിൽ നിന്ന് മൂല്യം നിർണ്ണയിക്കാൻ കഴിയില്ല, അതിനാൽ മോഡൽ പാരാമീറ്ററുകൾ കണക്കാക്കാൻ അവ പതിവായി ഉപയോഗിക്കുന്നു.

34. F1 സ്കോർ, തിരിച്ചുവിളിക്കൽ, കൃത്യത എന്നിവ എന്താണ് അർത്ഥമാക്കുന്നത്?

വർഗ്ഗീകരണ മാതൃകയുടെ ഫലപ്രാപ്തി അളക്കാൻ ഉപയോഗിക്കുന്ന മെട്രിക് ആണ് കൺഫ്യൂഷൻ മെഷർ. കൺഫ്യൂഷൻ മെട്രിക് നന്നായി വിശദീകരിക്കാൻ ഇനിപ്പറയുന്ന വാക്യങ്ങൾ ഉപയോഗിക്കാം:

ടിപി: ശരിയായ പോസിറ്റീവുകൾ - ശരിയായി പ്രതീക്ഷിച്ചിരുന്ന പോസിറ്റീവ് മൂല്യങ്ങൾ ഇവയാണ്. പ്രൊജക്റ്റഡ് ക്ലാസിന്റെയും യഥാർത്ഥ ക്ലാസിന്റെയും മൂല്യങ്ങൾ പോസിറ്റീവ് ആണെന്ന് ഇത് സൂചിപ്പിക്കുന്നു.

TN: യഥാർത്ഥ നെഗറ്റീവ്- കൃത്യമായി പ്രവചിച്ച പ്രതികൂല മൂല്യങ്ങളാണിവ. യഥാർത്ഥ ക്ലാസിന്റെയും പ്രതീക്ഷിക്കുന്ന ക്ലാസിന്റെയും മൂല്യം നെഗറ്റീവ് ആണെന്ന് ഇത് സൂചിപ്പിക്കുന്നു.

ഈ മൂല്യങ്ങൾ-തെറ്റായ പോസിറ്റീവുകളും തെറ്റായ നെഗറ്റീവുകളും-നിങ്ങളുടെ യഥാർത്ഥ ക്ലാസ് പ്രതീക്ഷിക്കുന്ന ക്ലാസിൽ നിന്ന് വ്യത്യസ്തമാകുമ്പോൾ സംഭവിക്കുന്നു.

ഇപ്പോൾ,

യഥാർത്ഥ ക്ലാസ്സിൽ നടത്തിയ എല്ലാ നിരീക്ഷണങ്ങളുമായും യഥാർത്ഥ പോസിറ്റീവ് നിരക്കിന്റെ (TP) അനുപാതത്തെ വിളിക്കുന്നു, ഇത് സെൻസിറ്റിവിറ്റി എന്നും അറിയപ്പെടുന്നു.

തിരിച്ചുവിളിക്കുന്നത് TP/(TP+FN) ആണ്.

പ്രിസിഷൻ എന്നത് പോസിറ്റീവ് പ്രവചന മൂല്യത്തിന്റെ ഒരു അളവുകോലാണ്, ഇത് മോഡൽ ശരിക്കും പ്രവചിക്കുന്ന പോസിറ്റീവുകളുടെ എണ്ണത്തെ അത് കൃത്യമായി പ്രവചിക്കുന്ന എത്ര ശരിയായ പോസിറ്റീവുകളുമായി താരതമ്യം ചെയ്യുന്നു.

കൃത്യത TP/(TP + FP) ആണ്

മനസ്സിലാക്കാൻ ഏറ്റവും എളുപ്പമുള്ള പ്രകടന മെട്രിക് കൃത്യതയാണ്, ഇത് എല്ലാ നിരീക്ഷണങ്ങൾക്കും ശരിയായി പ്രവചിച്ച നിരീക്ഷണങ്ങളുടെ അനുപാതം മാത്രമാണ്.

കൃത്യത (TP+TN)/(TP+FP+FN+TN) ന് തുല്യമാണ്.

എഫ്1 സ്‌കോർ നൽകുന്നതിന് കൃത്യതയും തിരിച്ചുവിളിയും വെയ്റ്റഡ് ആവറേജ് ചെയ്‌തിരിക്കുന്നു. തൽഫലമായി, ഈ സ്കോർ തെറ്റായ പോസിറ്റീവുകളും തെറ്റായ നെഗറ്റീവുകളും പരിഗണിക്കുന്നു.

F1 പലപ്പോഴും കൃത്യതയേക്കാൾ വിലപ്പെട്ടതാണ്, പ്രത്യേകിച്ചും നിങ്ങൾക്ക് അസമമായ ക്ലാസ് ഡിസ്ട്രിബ്യൂഷൻ ഉണ്ടെങ്കിൽ, അവബോധപൂർവ്വം അത് കൃത്യത പോലെ മനസ്സിലാക്കാൻ എളുപ്പമല്ലെങ്കിലും.

തെറ്റായ പോസിറ്റീവുകളുടെയും തെറ്റായ നെഗറ്റീവുകളുടെയും വില താരതമ്യപ്പെടുത്തുമ്പോൾ മികച്ച കൃത്യത കൈവരിക്കാനാകും. തെറ്റായ പോസിറ്റീവുകളും തെറ്റായ നെഗറ്റീവുകളുമായി ബന്ധപ്പെട്ട ചെലവുകൾ കാര്യമായ വ്യത്യാസമുണ്ടെങ്കിൽ, കൃത്യതയും തിരിച്ചുവിളിയും ഉൾപ്പെടുത്തുന്നതാണ് നല്ലത്.

35. കൃത്യമായി എന്താണ് ക്രോസ്-വാലിഡേഷൻ?

മെഷീൻ ലേണിംഗിലെ ക്രോസ്-വാലിഡേഷൻ എന്ന് വിളിക്കപ്പെടുന്ന ഒരു സ്റ്റാറ്റിസ്റ്റിക്കൽ റീസാംപ്ലിംഗ് സമീപനം നിരവധി റൗണ്ടുകളിൽ ഒരു മെഷീൻ ലേണിംഗ് അൽഗോരിതം പരിശീലിപ്പിക്കുന്നതിനും വിലയിരുത്തുന്നതിനും നിരവധി ഡാറ്റാസെറ്റ് ഉപസെറ്റുകൾ ഉപയോഗിക്കുന്നു.

മോഡലിനെ പരിശീലിപ്പിക്കാൻ ഉപയോഗിക്കാത്ത ഒരു പുതിയ ബാച്ച് ഡാറ്റ മോഡൽ അത് എത്ര നന്നായി പ്രവചിക്കുന്നുവെന്ന് കാണാൻ ക്രോസ്-വാലിഡേഷൻ ഉപയോഗിച്ച് പരീക്ഷിക്കുന്നു. ക്രോസ്-വാലിഡേഷൻ വഴി ഡാറ്റ ഓവർഫിറ്റിംഗ് തടയുന്നു.

കെ-ഫോൾഡ് ഏറ്റവും കൂടുതൽ ഉപയോഗിക്കുന്ന റീസാംപ്ലിംഗ് രീതി മുഴുവൻ ഡാറ്റാസെറ്റിനെയും തുല്യ വലുപ്പത്തിലുള്ള കെ സെറ്റുകളായി വിഭജിക്കുന്നു. അതിനെ ക്രോസ്-വാലിഡേഷൻ എന്ന് വിളിക്കുന്നു.

36. നിങ്ങളുടെ മോഡലിന് കാര്യമായ വ്യത്യാസമുണ്ടെന്ന് നിങ്ങൾ കണ്ടെത്തിയെന്ന് കരുതുക. നിങ്ങളുടെ അഭിപ്രായത്തിൽ, ഈ സാഹചര്യം കൈകാര്യം ചെയ്യാൻ ഏറ്റവും അനുയോജ്യമായ അൽഗോരിതം ഏതാണ്?

ഉയർന്ന വേരിയബിളിറ്റി കൈകാര്യം ചെയ്യുന്നു

വലിയ വ്യതിയാനങ്ങളുള്ള പ്രശ്നങ്ങൾക്ക് നമ്മൾ ബാഗിംഗ് ടെക്നിക് ഉപയോഗിക്കണം.

റാൻഡം ഡാറ്റയുടെ ആവർത്തിച്ചുള്ള സാമ്പിൾ, ഡാറ്റയെ ഉപഗ്രൂപ്പുകളായി വിഭജിക്കാൻ ബാഗിംഗ് അൽഗോരിതം ഉപയോഗിക്കും. ഡാറ്റ വിഭജിച്ചുകഴിഞ്ഞാൽ, നിയമങ്ങൾ സൃഷ്ടിക്കുന്നതിന് റാൻഡം ഡാറ്റയും ഒരു പ്രത്യേക പരിശീലന നടപടിക്രമവും നമുക്ക് ഉപയോഗിക്കാനാകും.

അതിനുശേഷം, മോഡലിന്റെ പ്രവചനങ്ങൾ കൂട്ടിച്ചേർക്കാൻ പോളിംഗ് ഉപയോഗിക്കാം.

37. റിഡ്ജ് റിഗ്രഷനെ ലാസ്സോ റിഗ്രഷനിൽ നിന്ന് വേർതിരിക്കുന്നത് എന്താണ്?

ലസ്സോ (L1 എന്നും വിളിക്കുന്നു), റിഡ്ജ് (ചിലപ്പോൾ L2 എന്നും വിളിക്കുന്നു) റിഗ്രഷൻ എന്നിവയാണ് വ്യാപകമായി ഉപയോഗിക്കുന്ന രണ്ട് റെഗുലറൈസേഷൻ രീതികൾ. ഡാറ്റ ഓവർ ഫിറ്റിംഗ് തടയാൻ അവ ഉപയോഗിക്കുന്നു.

മികച്ച പരിഹാരം കണ്ടെത്തുന്നതിനും സങ്കീർണ്ണത കുറയ്ക്കുന്നതിനും, ഗുണകങ്ങളെ ശിക്ഷിക്കുന്നതിന് ഈ സാങ്കേതിക വിദ്യകൾ ഉപയോഗിക്കുന്നു. കോഫിഫിഷ്യന്റുകളുടെ കേവല മൂല്യങ്ങളുടെ ആകെ പിഴ ചുമത്തുന്നതിലൂടെ, ലാസ്സോ റിഗ്രഷൻ പ്രവർത്തിക്കുന്നു.

റിഡ്ജ് അല്ലെങ്കിൽ എൽ 2 റിഗ്രഷനിലെ പെനാൽറ്റി ഫംഗ്ഷൻ ഗുണകങ്ങളുടെ ചതുരങ്ങളുടെ ആകെത്തുകയാണ്.

38. ഏതാണ് കൂടുതൽ പ്രധാനം: മോഡൽ പ്രകടനമോ മോഡൽ കൃത്യതയോ? ഏതാണ്, എന്തുകൊണ്ട് നിങ്ങൾ അതിനെ അനുകൂലിക്കും?

ഇതൊരു വഞ്ചനാപരമായ ചോദ്യമാണ്, അതിനാൽ മോഡൽ പ്രകടനം എന്താണെന്ന് ആദ്യം മനസ്സിലാക്കണം. പ്രകടനത്തെ വേഗതയായി നിർവചിച്ചിട്ടുണ്ടെങ്കിൽ, അത് ആപ്ലിക്കേഷന്റെ തരത്തെ ആശ്രയിച്ചിരിക്കുന്നു; ഒരു തത്സമയ സാഹചര്യം ഉൾപ്പെടുന്ന ഏതൊരു ആപ്ലിക്കേഷനും ഒരു നിർണായക ഘടകം എന്ന നിലയിൽ ഉയർന്ന വേഗത ആവശ്യമാണ്.

ഉദാഹരണത്തിന്, അന്വേഷണ ഫലങ്ങൾ വരാൻ കൂടുതൽ സമയമെടുത്താൽ, മികച്ച തിരയൽ ഫലങ്ങൾക്ക് മൂല്യം കുറയും.

കൃത്യതയ്‌ക്കും തിരിച്ചുവിളിക്കും മുൻതൂക്കം നൽകേണ്ടത് എന്തുകൊണ്ടാണെന്നതിന്റെ ന്യായീകരണമായാണ് പ്രകടനം ഉപയോഗിക്കുന്നതെങ്കിൽ, അസന്തുലിതമായ ഏതൊരു ഡാറ്റാ സെറ്റിനും ബിസിനസ്സ് കേസ് പ്രദർശിപ്പിക്കുന്നതിന് കൃത്യതയേക്കാൾ ഒരു F1 സ്‌കോർ ഉപയോഗപ്രദമാകും.

39. അസമത്വങ്ങളുള്ള ഒരു ഡാറ്റാസെറ്റ് നിങ്ങൾ എങ്ങനെ കൈകാര്യം ചെയ്യും?

ഒരു അസന്തുലിതമായ ഡാറ്റാസെറ്റിന് സാമ്പിൾ ടെക്നിക്കുകളിൽ നിന്ന് പ്രയോജനം ലഭിക്കും. സാമ്പിളിംഗ് ഒരു അണ്ടർ അല്ലെങ്കിൽ ഓവർസാമ്പിൾ രീതിയിൽ ചെയ്യാം.

ന്യൂനപക്ഷ വിഭാഗവുമായി പൊരുത്തപ്പെടുന്ന തരത്തിൽ ഭൂരിപക്ഷ വിഭാഗത്തിന്റെ വലുപ്പം ചുരുക്കാൻ സാംപ്ലിംഗിന് കീഴിൽ ഞങ്ങളെ അനുവദിക്കുന്നു, ഇത് സ്റ്റോറേജും റൺ-ടൈം എക്‌സിക്യൂഷനും സംബന്ധിച്ച് വേഗത വർദ്ധിപ്പിക്കാൻ സഹായിക്കുന്നു, പക്ഷേ വിലപ്പെട്ട ഡാറ്റ നഷ്‌ടപ്പെടാനും ഇടയാക്കും.

ഓവർസാംപ്ലിംഗ് മൂലമുണ്ടാകുന്ന വിവരനഷ്ടത്തിന്റെ പ്രശ്നം പരിഹരിക്കുന്നതിന്, ഞങ്ങൾ ന്യൂനപക്ഷ വിഭാഗത്തെ ഉയർത്തിക്കാട്ടുന്നു; എന്നിരുന്നാലും, ഇത് അമിതമായ പ്രശ്‌നങ്ങളിലേക്ക് നമ്മെ നയിക്കും.

അധിക തന്ത്രങ്ങളിൽ ഇവ ഉൾപ്പെടുന്നു:

ക്ലസ്റ്റർ-ബേസ്ഡ് ഓവർ സാംപ്ലിംഗ്- ഈ സാഹചര്യത്തിൽ ന്യൂനപക്ഷ, ഭൂരിപക്ഷ ക്ലാസ് സംഭവങ്ങൾ വ്യക്തിഗതമായി കെ-മീൻസ് ക്ലസ്റ്ററിംഗ് സാങ്കേതികതയ്ക്ക് വിധേയമാണ്. ഡാറ്റാസെറ്റ് ക്ലസ്റ്ററുകൾ കണ്ടെത്തുന്നതിനാണ് ഇത് ചെയ്യുന്നത്. തുടർന്ന്, ഓരോ ക്ലസ്റ്ററും ഓവർസാമ്പിൾ ചെയ്യുന്നതിനാൽ എല്ലാ ക്ലാസുകൾക്കും ഒരേ വലുപ്പവും ഒരു ക്ലാസിനുള്ളിലെ എല്ലാ ക്ലസ്റ്ററുകൾക്കും തുല്യ എണ്ണം സന്ദർഭങ്ങളുമുണ്ട്.
സ്‌മോട്ട്: സിന്തറ്റിക് മൈനോറിറ്റി ഓവർ-സാംപ്ലിംഗ് ടെക്‌നിക്- ന്യൂനപക്ഷ വിഭാഗത്തിൽ നിന്നുള്ള ഡാറ്റയുടെ ഒരു സ്‌ലൈസ് ഒരു ഉദാഹരണമായി ഉപയോഗിക്കുന്നു, അതിനുശേഷം അതിനോട് താരതമ്യപ്പെടുത്താവുന്ന അധിക കൃത്രിമ സംഭവങ്ങൾ നിർമ്മിക്കുകയും യഥാർത്ഥ ഡാറ്റാസെറ്റിലേക്ക് ചേർക്കുകയും ചെയ്യുന്നു. ഈ രീതി സംഖ്യാ ഡാറ്റാ പോയിന്റുകളിൽ നന്നായി പ്രവർത്തിക്കുന്നു.

40. ബൂസ്റ്റിംഗും ബാഗിംഗും തമ്മിൽ എങ്ങനെ വേർതിരിച്ചറിയാൻ കഴിയും?

എൻസെംബിൾ ടെക്നിക്കുകൾക്ക് ബാഗിംഗ്, ബൂസ്റ്റിംഗ് എന്നറിയപ്പെടുന്ന പതിപ്പുകളുണ്ട്.

ബാഗിംഗ്-

ഉയർന്ന വ്യതിയാനങ്ങളുള്ള അൽഗോരിതങ്ങൾക്ക്, വ്യത്യാസം കുറയ്ക്കാൻ ഉപയോഗിക്കുന്ന ഒരു സാങ്കേതികതയാണ് ബാഗിംഗ്. പക്ഷപാതത്തിന് സാധ്യതയുള്ള ക്ലാസിഫയറുകളുടെ ഒരു കുടുംബമാണ് ഡിസിഷൻ ട്രീ കുടുംബം.

ഡിസിഷൻ ട്രീകൾ പരിശീലിപ്പിക്കുന്ന തരത്തിലുള്ള ഡാറ്റ അവരുടെ പ്രകടനത്തിൽ കാര്യമായ സ്വാധീനം ചെലുത്തുന്നു. ഇക്കാരണത്താൽ, വളരെ ഉയർന്ന ഫൈൻ-ട്യൂണിംഗ് ഉപയോഗിച്ച് പോലും, ഫലങ്ങളുടെ സാമാന്യവൽക്കരണം ചിലപ്പോൾ അവയിൽ ലഭിക്കുന്നത് വളരെ ബുദ്ധിമുട്ടാണ്.

തീരുമാന മരങ്ങളുടെ പരിശീലന ഡാറ്റയിൽ മാറ്റം വരുത്തിയാൽ, ഫലങ്ങൾ ഗണ്യമായി വ്യത്യാസപ്പെടും.

അനന്തരഫലമായി, ബാഗിംഗ് ഉപയോഗിക്കുന്നു, അതിൽ നിരവധി തീരുമാന മരങ്ങൾ സൃഷ്ടിക്കപ്പെടുന്നു, അവയിൽ ഓരോന്നും യഥാർത്ഥ ഡാറ്റയുടെ സാമ്പിൾ ഉപയോഗിച്ച് പരിശീലിപ്പിക്കപ്പെടുന്നു, അന്തിമഫലം ഈ വ്യത്യസ്ത മോഡലുകളുടെ ശരാശരിയാണ്.

ബൂസ്റ്റിംഗ്:

n-ദുർബലമായ ക്ലാസിഫയർ സിസ്റ്റം ഉപയോഗിച്ച് പ്രവചനങ്ങൾ നടത്തുന്നതിനുള്ള സാങ്കേതികതയാണ് ബൂസ്റ്റിംഗ്, അതിൽ ഓരോ ദുർബലമായ ക്ലാസിഫയറും അതിന്റെ ശക്തമായ ക്ലാസിഫയറുകളുടെ പോരായ്മകൾ നികത്തുന്നു. തന്നിരിക്കുന്ന ഡാറ്റാ സെറ്റിൽ മോശം പ്രകടനം നടത്തുന്ന ഒരു ക്ലാസിഫയറിനെ ഞങ്ങൾ "ദുർബലമായ ക്ലാസിഫയർ" എന്ന് പരാമർശിക്കുന്നു.

ബൂസ്റ്റിംഗ് എന്നത് ഒരു അൽഗോരിതം എന്നതിലുപരി ഒരു പ്രക്രിയയാണ്. ലോജിസ്റ്റിക് റിഗ്രഷനും ആഴം കുറഞ്ഞ തീരുമാന മരങ്ങളും ദുർബലമായ ക്ലാസിഫയറുകളുടെ സാധാരണ ഉദാഹരണങ്ങളാണ്.

Adaboost, Gradient Boosting, XGBoost എന്നിവ ഏറ്റവും പ്രചാരമുള്ള രണ്ട് ബൂസ്റ്റിംഗ് അൽഗോരിതങ്ങളാണ്, എന്നിരുന്നാലും, ഇനിയും നിരവധിയുണ്ട്.

41. ഇൻഡക്റ്റീവ്, ഡിഡക്റ്റീവ് ലേണിംഗ് തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിശദീകരിക്കുക.

നിരീക്ഷിച്ച ഒരു കൂട്ടം ഉദാഹരണങ്ങളിൽ നിന്ന് ഉദാഹരണത്തിലൂടെ പഠിക്കുമ്പോൾ, ഒരു സാമാന്യവൽക്കരിച്ച ഒരു നിഗമനത്തിലെത്താൻ ഒരു മോഡൽ ഇൻഡക്റ്റീവ് ലേണിംഗ് ഉപയോഗിക്കുന്നു. മറുവശത്ത്, ഡിഡക്റ്റീവ് ലേണിംഗ് ഉപയോഗിച്ച്, മോഡൽ സ്വന്തമായി രൂപീകരിക്കുന്നതിന് മുമ്പ് ഫലം ഉപയോഗിക്കുന്നു.

നിരീക്ഷണങ്ങളിൽ നിന്ന് നിഗമനങ്ങളിൽ എത്തിച്ചേരുന്ന പ്രക്രിയയാണ് ഇൻഡക്റ്റീവ് ലേണിംഗ്.

അനുമാനങ്ങളെ അടിസ്ഥാനമാക്കി നിരീക്ഷണങ്ങൾ സൃഷ്ടിക്കുന്ന പ്രക്രിയയാണ് ഡിഡക്റ്റീവ് ലേണിംഗ്.

തീരുമാനം

അഭിനന്ദനങ്ങൾ! മെഷീൻ ലേണിംഗിനായുള്ള ഏറ്റവും മികച്ച 40-ഉം അതിനുമുകളിലുള്ളതുമായ അഭിമുഖ ചോദ്യങ്ങളാണിവ, അതിനുള്ള ഉത്തരങ്ങൾ നിങ്ങൾക്കറിയാം. ഡാറ്റ സയൻസും നിർമ്മിത ബുദ്ധി സാങ്കേതികവിദ്യ പുരോഗമിക്കുന്നതിനനുസരിച്ച് തൊഴിലുകൾക്ക് ആവശ്യക്കാർ തുടരും.

ഈ അത്യാധുനിക സാങ്കേതികവിദ്യകളെക്കുറിച്ചുള്ള അറിവ് അപ്‌ഡേറ്റ് ചെയ്യുകയും അവരുടെ വൈദഗ്ദ്ധ്യം മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്ന ഉദ്യോഗാർത്ഥികൾക്ക് മത്സരാധിഷ്ഠിത വേതനം ഉപയോഗിച്ച് വൈവിധ്യമാർന്ന തൊഴിൽ സാധ്യതകൾ കണ്ടെത്താനാകും.

വ്യാപകമായി ചോദിക്കപ്പെടുന്ന മെഷീൻ ലേണിംഗ് ഇന്റർവ്യൂ ചോദ്യങ്ങൾക്ക് എങ്ങനെ മറുപടി നൽകണമെന്ന് നിങ്ങൾക്ക് ഉറച്ച ധാരണയുള്ളതിനാൽ നിങ്ങൾക്ക് ഇപ്പോൾ അഭിമുഖങ്ങൾക്ക് ഉത്തരം നൽകുന്നത് തുടരാം.

നിങ്ങളുടെ ലക്ഷ്യങ്ങളെ ആശ്രയിച്ച്, ഇനിപ്പറയുന്ന ഘട്ടം സ്വീകരിക്കുക. Hashdork's സന്ദർശിച്ച് അഭിമുഖങ്ങൾക്കായി തയ്യാറെടുക്കുക അഭിമുഖ പരമ്പര.

മികച്ച 40+ മെഷീൻ ലേണിംഗ് ഇന്റർവ്യൂ ചോദ്യങ്ങൾ