ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]
നമ്മുടെ ദൈനംദിന ജീവിതത്തിന്റെ എല്ലാ മേഖലകളിലും സ്വാധീനം ചെലുത്തുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസും മെഷീൻ ലേണിംഗും കാരണം ലോകം അതിവേഗം മാറിക്കൊണ്ടിരിക്കുകയാണ്.
എൻഎൽപിയും മെഷീൻ ലേണിംഗും ഉപയോഗിക്കുന്ന വോയ്സ് അസിസ്റ്റന്റുകൾ മുതൽ അപ്പോയിന്റ്മെന്റുകൾ ബുക്ക് ചെയ്യാനും ഞങ്ങളുടെ കലണ്ടറിൽ ഇവന്റുകൾ നോക്കാനും സംഗീതം പ്ലേ ചെയ്യാനും വളരെ കൃത്യതയുള്ള ഉപകരണങ്ങൾ വരെ നമ്മുടെ ആവശ്യങ്ങൾ പരിഗണിക്കുന്നതിന് മുമ്പ് അവർക്ക് മുൻകൂട്ടി അറിയാൻ കഴിയും.
കംപ്യൂട്ടറുകൾക്ക് ചെസ്സ് കളിക്കാനും ശസ്ത്രക്രിയ നടത്താനും മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങളുടെ സഹായത്തോടെ കൂടുതൽ മനുഷ്യസമാനമായ യന്ത്രങ്ങളായി വികസിപ്പിക്കാനും കഴിയും.
നമ്മൾ തുടർച്ചയായ സാങ്കേതിക പുരോഗതിയുടെ സമയത്താണ്, കാലക്രമേണ കമ്പ്യൂട്ടറുകൾ എങ്ങനെ വികസിച്ചുവെന്ന് കാണുന്നതിലൂടെ, ഭാവിയിൽ എന്ത് സംഭവിക്കുമെന്ന് നമുക്ക് പ്രവചിക്കാൻ കഴിയും.
കമ്പ്യൂട്ടിംഗ് ഉപകരണങ്ങളുടെയും രീതികളുടെയും ജനാധിപത്യവൽക്കരണം ഈ വിപ്ലവത്തിന്റെ പ്രധാന വശങ്ങളിലൊന്നാണ്. ഡാറ്റാ ശാസ്ത്രജ്ഞർ അത്യാധുനിക രീതികൾ അനായാസമായി നടപ്പിലാക്കിക്കൊണ്ട് കഴിഞ്ഞ അഞ്ച് വർഷത്തിനിടയിൽ ശക്തമായ ഡാറ്റ ക്രഞ്ചിംഗ് കമ്പ്യൂട്ടറുകൾ സൃഷ്ടിച്ചു. ഫലങ്ങൾ അതിശയിപ്പിക്കുന്നതാണ്.
ഈ പോസ്റ്റിൽ, ഞങ്ങൾ സൂക്ഷ്മമായി പരിശോധിക്കും മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങളും അവയുടെ എല്ലാ വ്യതിയാനങ്ങളും.
അപ്പോൾ, എന്താണ് മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ?
AI സിസ്റ്റം അതിന്റെ ചുമതല നിർവഹിക്കാൻ ഉപയോഗിക്കുന്ന സമീപനം-സാധാരണയായി, നൽകിയിരിക്കുന്ന ഇൻപുട്ട് ഡാറ്റയിൽ നിന്നുള്ള ഔട്ട്പുട്ട് മൂല്യങ്ങൾ പ്രവചിക്കുന്നത്-ഒരു മെഷീൻ ലേണിംഗ് അൽഗോരിതം എന്നാണ് അറിയപ്പെടുന്നത്.
ഒരു മെഷീൻ ലേണിംഗ് അൽഗോരിതം എന്നത് ഡാറ്റ ഉപയോഗപ്പെടുത്തുന്ന ഒരു പ്രക്രിയയാണ്, അത് നിർമ്മാണത്തിന് തയ്യാറായ മെഷീൻ ലേണിംഗ് മോഡലുകൾ സൃഷ്ടിക്കാൻ ഉപയോഗിക്കുന്നു. മെഷീൻ ലേണിംഗ് ഒരു ജോലി നിർവഹിക്കുന്ന ട്രെയിനാണെങ്കിൽ, മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ ജോലിയെ മുന്നോട്ട് കൊണ്ടുപോകുന്ന ലോക്കോമോട്ടീവുകളാണ്.
നിങ്ങൾ പരിഹരിക്കാൻ ശ്രമിക്കുന്ന ബിസിനസ്സ് പ്രശ്നം, നിങ്ങൾ ഉപയോഗിക്കുന്ന ഡാറ്റാസെറ്റിന്റെ തരം, നിങ്ങൾക്ക് ലഭ്യമായ ഉറവിടങ്ങൾ എന്നിവ അനുസരിച്ചായിരിക്കും ഉപയോഗിക്കാനുള്ള മികച്ച മെഷീൻ ലേണിംഗ് സമീപനം നിർണ്ണയിക്കുന്നത്.
മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ എന്നത് ഒരു ഡാറ്റ സെറ്റിനെ ഒരു മോഡലാക്കി മാറ്റുന്നവയാണ്. നിങ്ങൾ ഉത്തരം നൽകാൻ ശ്രമിക്കുന്ന തരത്തിലുള്ള പ്രശ്നങ്ങൾ, ലഭ്യമായ പ്രോസസ്സിംഗ് പവർ, നിങ്ങളുടെ പക്കലുള്ള ഡാറ്റയുടെ തരം എന്നിവയെ ആശ്രയിച്ച്, മേൽനോട്ടം വഹിക്കുന്നതോ, മേൽനോട്ടം വഹിക്കാത്തതോ, അല്ലെങ്കിൽ ശക്തിപ്പെടുത്തുന്നതോ ആയ ലേണിംഗ് അൽഗോരിതങ്ങൾ നന്നായി പ്രവർത്തിക്കും.
അതിനാൽ, മേൽനോട്ടത്തിലുള്ളതും മേൽനോട്ടമില്ലാത്തതും ശക്തിപ്പെടുത്തുന്നതുമായ പഠനത്തെ കുറിച്ച് ഞങ്ങൾ സംസാരിച്ചു, എന്നാൽ അവ എന്താണ്? നമുക്ക് അവ പര്യവേക്ഷണം ചെയ്യാം.
സൂപ്പർവൈസുചെയ്തതും മേൽനോട്ടമില്ലാത്തതും ശക്തിപ്പെടുത്തുന്നതുമായ പഠനം
സൂപ്പർവൈസുചെയ്ത പഠനം
മേൽനോട്ടത്തിലുള്ള പഠനത്തിൽ, നൽകിയിരിക്കുന്ന ഇൻപുട്ടും പ്രവചിച്ച ഫലത്തെ പ്രതിനിധീകരിക്കുന്ന ലേബലും അടിസ്ഥാനമാക്കിയാണ് AI മോഡൽ വികസിപ്പിച്ചിരിക്കുന്നത്. ഇൻപുട്ടുകളുടെയും ഔട്ട്പുട്ടുകളുടെയും അടിസ്ഥാനത്തിൽ, മോഡൽ ഒരു മാപ്പിംഗ് സമവാക്യം വികസിപ്പിക്കുകയും ആ മാപ്പിംഗ് സമവാക്യം ഉപയോഗിച്ച്, ഭാവിയിൽ ഇൻപുട്ടുകളുടെ ലേബൽ പ്രവചിക്കുകയും ചെയ്യുന്നു.
ഒരു നായയെയും പൂച്ചയെയും വേർതിരിച്ചറിയാൻ കഴിയുന്ന ഒരു മാതൃക സൃഷ്ടിക്കേണ്ടതുണ്ടെന്ന് നമുക്ക് പറയാം. മോഡലിനെ പരിശീലിപ്പിക്കുന്നതിനായി പൂച്ചകളുടെയും നായ്ക്കളുടെയും ഒന്നിലധികം ഫോട്ടോകൾ അവ പൂച്ചകളാണോ നായകളാണോ എന്ന് സൂചിപ്പിക്കുന്ന ലേബലുകൾ സഹിതം മോഡലിൽ നൽകിയിട്ടുണ്ട്.
ആ ചിത്രങ്ങളുടെ ഇൻപുട്ട് ഫോട്ടോഗ്രാഫുകളിലെ ലേബലുകളുമായി ബന്ധപ്പെട്ട ഒരു സമവാക്യം സ്ഥാപിക്കാൻ മോഡൽ ശ്രമിക്കുന്നു. മോഡൽ ഇതുവരെ ചിത്രം കണ്ടിട്ടില്ലെങ്കിൽ പോലും, പരിശീലനത്തിന് ശേഷം, ഇത് പൂച്ചയുടേതാണോ നായയുടേതാണോ എന്ന് തിരിച്ചറിയാൻ കഴിയും.
മേൽനോട്ടമില്ലാത്ത പഠനം
ലേബൽ ചെയ്യാതെ ഇൻപുട്ടുകളിൽ മാത്രം AI മോഡലിനെ പരിശീലിപ്പിക്കുന്നതാണ് മേൽനോട്ടമില്ലാത്ത പഠനത്തിൽ ഉൾപ്പെടുന്നത്. മോഡൽ ഇൻപുട്ട് ഡാറ്റയെ അനുബന്ധ സവിശേഷതകളുള്ള ഗ്രൂപ്പുകളായി വിഭജിക്കുന്നു.
ഇൻപുട്ടിന്റെ ഭാവി ലേബൽ അതിന്റെ ആട്രിബ്യൂട്ടുകൾ ഒരു വർഗ്ഗീകരണവുമായി എത്രത്തോളം പൊരുത്തപ്പെടുന്നു എന്നതിനെ ആശ്രയിച്ച് പ്രവചിക്കുന്നു. ഒരു കൂട്ടം ചുവപ്പ്, നീല പന്തുകളെ രണ്ട് വിഭാഗങ്ങളായി വിഭജിക്കേണ്ട സാഹചര്യം പരിഗണിക്കുക.
നിറം ഒഴികെയുള്ള പന്തുകളുടെ മറ്റ് സവിശേഷതകൾ സമാനമാണെന്ന് നമുക്ക് അനുമാനിക്കാം. പന്തുകളെ രണ്ട് ക്ലാസുകളായി എങ്ങനെ വിഭജിക്കാം എന്നതിന്റെ അടിസ്ഥാനത്തിൽ, പന്തുകൾക്കിടയിൽ വ്യത്യസ്തമായ സ്വഭാവസവിശേഷതകൾക്കായി മോഡൽ നോക്കുന്നു.
പന്തുകളെ അവയുടെ നിറത്തെ അടിസ്ഥാനമാക്കി രണ്ട് ഗ്രൂപ്പുകളായി വിഭജിക്കുമ്പോൾ രണ്ട് പന്ത് ക്ലസ്റ്ററുകൾ-ഒന്ന് നീലയും ഒരു ചുവപ്പും-ഉത്പാദിപ്പിക്കപ്പെടുന്നു.
ശക്തിപ്പെടുത്തൽ പഠനം
ബലപ്പെടുത്തൽ പഠനത്തിൽ, AI മോഡൽ ഒരു പ്രത്യേക സാഹചര്യത്തിൽ കഴിയുന്നത്ര നന്നായി പ്രവർത്തിച്ചുകൊണ്ട് മൊത്തത്തിലുള്ള ലാഭം വർദ്ധിപ്പിക്കാൻ ശ്രമിക്കുന്നു. അതിന്റെ മുൻ ഫലങ്ങളെക്കുറിച്ചുള്ള ഫീഡ്ബാക്ക് മോഡലിനെ പഠിക്കാൻ സഹായിക്കുന്നു.
A, B പോയിന്റുകൾക്കിടയിൽ ഒരു റൂട്ട് തിരഞ്ഞെടുക്കാൻ ഒരു റോബോട്ടിനോട് നിർദ്ദേശിച്ചിരിക്കുന്ന സാഹചര്യത്തെക്കുറിച്ച് ചിന്തിക്കുക. മുൻ പരിചയം ഇല്ലാത്തതിനാൽ റോബോട്ട് ആദ്യം ഏതെങ്കിലും കോഴ്സുകൾ തിരഞ്ഞെടുക്കുന്നു.
റോബോട്ടിന് അത് പോകുന്ന റൂട്ടിൽ ഇൻപുട്ട് ലഭിക്കുകയും അതിൽ നിന്ന് അറിവ് നേടുകയും ചെയ്യുന്നു. അടുത്ത തവണ സമാനമായ സാഹചര്യം നേരിടുമ്പോൾ പ്രശ്നം പരിഹരിക്കാൻ റോബോട്ടിന് ഇൻപുട്ട് ഉപയോഗിക്കാനാകും.
ഉദാഹരണത്തിന്, റോബോട്ട് ഓപ്ഷൻ ബി തിരഞ്ഞെടുക്കുകയും പോസിറ്റീവ് ഫീഡ്ബാക്ക് പോലുള്ള ഒരു റിവാർഡ് ലഭിക്കുകയും ചെയ്യുന്നുവെങ്കിൽ, അതിന്റെ പ്രതിഫലം വർദ്ധിപ്പിക്കുന്നതിന് B വഴി തിരഞ്ഞെടുക്കണമെന്ന് അത് ഈ സമയം മനസ്സിലാക്കുന്നു.
ഇപ്പോൾ ഒടുവിൽ നിങ്ങൾ എല്ലാവരും കാത്തിരിക്കുന്നത് അൽഗോരിതങ്ങൾക്കാണ്.
പ്രധാന മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ
1. ലീനിയർ റിഗ്രഷൻ
മേൽനോട്ടത്തിലുള്ള പഠനത്തിൽ നിന്ന് വ്യതിചലിക്കുന്ന ഏറ്റവും ലളിതമായ മെഷീൻ ലേണിംഗ് സമീപനം ലീനിയർ റിഗ്രഷൻ ആണ്. സ്വതന്ത്ര വേരിയബിളുകളിൽ നിന്നുള്ള അറിവ് ഉപയോഗിച്ച്, റിഗ്രഷൻ പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിനും തുടർച്ചയായ ആശ്രിത വേരിയബിളുകളിൽ പ്രവചനങ്ങൾ സൃഷ്ടിക്കുന്നതിനും ഇത് കൂടുതലും ഉപയോഗിക്കുന്നു.
തുടർച്ചയായ ആശ്രിത വേരിയബിളുകളുടെ ഫലം പ്രവചിക്കാൻ സഹായിക്കുന്ന ഏറ്റവും അനുയോജ്യമായ രേഖ കണ്ടെത്തുന്നത് ലീനിയർ റിഗ്രഷന്റെ ലക്ഷ്യമാണ്. വീടിന്റെ വില, പ്രായം, വേതനം എന്നിവ തുടർച്ചയായ മൂല്യങ്ങളുടെ ചില ഉദാഹരണങ്ങളാണ്.
ലളിതമായ ലീനിയർ റിഗ്രഷൻ എന്നറിയപ്പെടുന്ന ഒരു മോഡൽ ഒരു സ്വതന്ത്ര വേരിയബിളും ഒരു ആശ്രിത വേരിയബിളും തമ്മിലുള്ള ബന്ധം കണക്കാക്കാൻ ഒരു നേർരേഖ ഉപയോഗിക്കുന്നു. ഒന്നിലധികം ലീനിയർ റിഗ്രഷനിൽ രണ്ടിൽ കൂടുതൽ സ്വതന്ത്ര വേരിയബിളുകൾ ഉണ്ട്.
ഒരു ലീനിയർ റിഗ്രഷൻ മോഡലിന് നാല് അടിസ്ഥാന അനുമാനങ്ങളുണ്ട്:
- രേഖീയത: X ഉം Y യുടെ ശരാശരിയും തമ്മിൽ ഒരു രേഖീയ ബന്ധമുണ്ട്.
- ഹോമോസ്സെഡസ്റ്റിസിറ്റി: എക്സിന്റെ ഓരോ മൂല്യത്തിനും, ശേഷിക്കുന്ന വ്യത്യാസം ഒന്നുതന്നെയാണ്.
- സ്വാതന്ത്ര്യം: സ്വാതന്ത്ര്യത്തിന്റെ കാര്യത്തിൽ നിരീക്ഷണങ്ങൾ പരസ്പരം സ്വതന്ത്രമാണ്.
- സാധാരണത: X ഉറപ്പിക്കുമ്പോൾ, Y സാധാരണയായി വിതരണം ചെയ്യപ്പെടുന്നു.
വരികളിലൂടെ വേർതിരിക്കാവുന്ന ഡാറ്റയ്ക്ക് ലീനിയർ റിഗ്രഷൻ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു. റെഗുലറൈസേഷൻ, ക്രോസ്-വാലിഡേഷൻ, ഡൈമൻഷണാലിറ്റി റിഡക്ഷൻ ടെക്നിക്കുകൾ എന്നിവ ഉപയോഗിച്ച് ഇതിന് ഓവർഫിറ്റിംഗ് നിയന്ത്രിക്കാനാകും. എന്നിരുന്നാലും, വിപുലമായ ഫീച്ചർ എഞ്ചിനീയറിംഗ് ആവശ്യമായി വരുന്ന സന്ദർഭങ്ങളുണ്ട്, അത് ഇടയ്ക്കിടെ ഓവർഫിറ്റിംഗിനും ശബ്ദത്തിനും കാരണമാകും.
2. ലോജിസ്റ്റിക് റിഗ്രഷൻ
മേൽനോട്ടത്തിലുള്ള പഠനത്തിൽ നിന്ന് വ്യതിചലിക്കുന്ന മറ്റൊരു മെഷീൻ ലേണിംഗ് സാങ്കേതികതയാണ് ലോജിസ്റ്റിക് റിഗ്രഷൻ. ഇതിന്റെ പ്രധാന ഉപയോഗം വർഗ്ഗീകരണമാണ്, അതേസമയം റിഗ്രഷൻ പ്രശ്നങ്ങൾക്കും ഇത് ഉപയോഗിക്കാം.
സ്വതന്ത്ര ഘടകങ്ങളിൽ നിന്നുള്ള വിവരങ്ങൾ ഉപയോഗിച്ച് വർഗ്ഗീകരണ ആശ്രിത വേരിയബിളിനെ പ്രവചിക്കാൻ ലോജിസ്റ്റിക് റിഗ്രഷൻ ഉപയോഗിക്കുന്നു. 0 നും 1 നും ഇടയിൽ മാത്രം വീഴുന്ന ഔട്ട്പുട്ടുകളെ തരംതിരിക്കുക എന്നതാണ് ലക്ഷ്യം.
ഇൻപുട്ടുകളുടെ വെയ്റ്റഡ് ടോട്ടൽ പ്രോസസ്സ് ചെയ്യുന്നത് സിഗ്മോയിഡ് ഫംഗ്ഷനാണ്, ഇത് 0 നും 1 നും ഇടയിലുള്ള മൂല്യങ്ങളെ പരിവർത്തനം ചെയ്യുന്ന ഒരു ആക്ടിവേഷൻ ഫംഗ്ഷൻ.
ലോജിസ്റ്റിക് റിഗ്രഷന്റെ അടിസ്ഥാനം പരമാവധി സാധ്യത കണക്കാക്കലാണ്, നിർദ്ദിഷ്ട നിരീക്ഷിച്ച ഡാറ്റ നൽകിയ അനുമാനിക്കപ്പെടുന്ന പ്രോബബിലിറ്റി വിതരണത്തിന്റെ പാരാമീറ്ററുകൾ കണക്കാക്കുന്നതിനുള്ള ഒരു രീതി.
3. തീരുമാന വൃക്ഷം
മേൽനോട്ടത്തിലുള്ള പഠനത്തിൽ നിന്ന് വേർപെടുത്തുന്ന മറ്റൊരു മെഷീൻ ലേണിംഗ് രീതിയാണ് ഡിസിഷൻ ട്രീ. വർഗ്ഗീകരണത്തിനും റിഗ്രഷൻ പ്രശ്നങ്ങൾക്കും, ഡിസിഷൻ ട്രീ സമീപനം ഉപയോഗിക്കാവുന്നതാണ്.
ഒരു വൃക്ഷത്തോട് സാമ്യമുള്ള ഈ തീരുമാനമെടുക്കൽ ഉപകരണം, പ്രവർത്തനങ്ങളുടെ വരാനിരിക്കുന്ന ഫലങ്ങൾ, ചെലവുകൾ, പ്രത്യാഘാതങ്ങൾ എന്നിവ കാണിക്കുന്നതിന് വിഷ്വൽ പ്രാതിനിധ്യങ്ങൾ ഉപയോഗിക്കുന്നു. ഡാറ്റയെ പ്രത്യേക ഭാഗങ്ങളായി വിഭജിക്കുന്നതിലൂടെ, ആശയം മനുഷ്യ മനസ്സിന് സമാനമാണ്.
ഡാറ്റ നമുക്ക് ഗ്രാനുലേറ്റ് ചെയ്യാൻ കഴിയുന്നത്ര വ്യത്യസ്ത ഭാഗങ്ങളായി തിരിച്ചിരിക്കുന്നു. ടാർഗെറ്റ് വേരിയബിളിന്റെ ക്ലാസ് പ്രവചിക്കാൻ ഉപയോഗിക്കാവുന്ന ഒരു പരിശീലന മാതൃക നിർമ്മിക്കുക എന്നതാണ് ഒരു ഡിസിഷൻ ട്രീയുടെ പ്രധാന ലക്ഷ്യം. നഷ്ടമായ മൂല്യങ്ങൾ ഡിസിഷൻ ട്രീ ഉപയോഗിച്ച് സ്വയമേവ കൈകാര്യം ചെയ്യാൻ കഴിയും.
വൺ-ഷോട്ട് എൻകോഡിംഗ്, ഡമ്മി വേരിയബിളുകൾ അല്ലെങ്കിൽ മറ്റ് ഡാറ്റ പ്രീട്രീറ്റ്മെന്റ് ഘട്ടങ്ങൾ എന്നിവയ്ക്ക് ആവശ്യമില്ല. അതിലേക്ക് പുതിയ ഡാറ്റ ചേർക്കുന്നത് ബുദ്ധിമുട്ടാണ് എന്ന അർത്ഥത്തിൽ ഇത് കർക്കശമാണ്. ലേബൽ ചെയ്ത അധിക ഡാറ്റ നിങ്ങൾക്ക് ലഭിച്ചിട്ടുണ്ടെങ്കിൽ, മുഴുവൻ ഡാറ്റാസെറ്റിലും നിങ്ങൾ ട്രീയെ വീണ്ടും പരിശീലിപ്പിക്കണം.
തൽഫലമായി, ഡൈനാമിക് മോഡൽ മാറ്റം ആവശ്യമുള്ള ഏതൊരു ആപ്ലിക്കേഷനും ഡിസിഷൻ ട്രീകൾ ഒരു മോശം തിരഞ്ഞെടുപ്പാണ്.
ടാർഗെറ്റ് വേരിയബിളിന്റെ തരത്തെ അടിസ്ഥാനമാക്കി, തീരുമാന മരങ്ങളെ രണ്ട് തരങ്ങളായി തിരിച്ചിരിക്കുന്നു:
- കാറ്റഗറിക്കൽ വേരിയബിൾ: ഒരു ഡിസിഷൻ ട്രീ, അതിൽ ഗോൾ വേരിയബിൾ വിഭാഗീയമാണ്.
- തുടർച്ചയായ വേരിയബിൾ: ഗോൾ വേരിയബിൾ തുടർച്ചയായിരിക്കുന്ന ഒരു ഡിസിഷൻ ട്രീ.
4. ക്രമരഹിത വനം
റാൻഡം ഫോറസ്റ്റ് മെത്തേഡ് അടുത്ത മെഷീൻ ലേണിംഗ് ടെക്നിക്കാണ്, ഇത് വർഗ്ഗീകരണത്തിലും റിഗ്രഷൻ പ്രശ്നങ്ങളിലും വ്യാപകമായി ഉപയോഗിക്കുന്ന ഒരു സൂപ്പർവൈസ്ഡ് മെഷീൻ ലേണിംഗ് അൽഗോരിതം ആണ്. ഡിസിഷൻ ട്രീ പോലെയുള്ള ഒരു മരത്തെ അടിസ്ഥാനമാക്കിയുള്ള രീതി കൂടിയാണിത്.
മരങ്ങളുടെ ഒരു വനം, അല്ലെങ്കിൽ പല തീരുമാന മരങ്ങൾ, വിധിനിർണ്ണയങ്ങൾ നടത്താൻ റാൻഡം ഫോറസ്റ്റ് രീതി ഉപയോഗിക്കുന്നു. ക്ലാസിഫിക്കേഷൻ ടാസ്ക്കുകൾ കൈകാര്യം ചെയ്യുമ്പോൾ, തുടർച്ചയായ വേരിയബിളുകൾ അടങ്ങിയ ഡാറ്റാസെറ്റുകൾ ഉപയോഗിച്ച് റിഗ്രഷൻ ടാസ്ക്കുകൾ കൈകാര്യം ചെയ്യുമ്പോൾ റാൻഡം ഫോറസ്റ്റ് രീതി കാറ്റഗറിക്കൽ വേരിയബിളുകൾ ഉപയോഗിച്ചു.
ഒരു സമന്വയം അല്ലെങ്കിൽ നിരവധി മോഡലുകളുടെ മിശ്രിതമാണ് റാൻഡം ഫോറസ്റ്റ് രീതി ചെയ്യുന്നത്, അതായത് ഒന്നല്ല, ഒരു കൂട്ടം മോഡലുകൾ ഉപയോഗിച്ചാണ് പ്രവചനങ്ങൾ നടത്തുന്നത്.
ആധുനിക മെഷീൻ ലേണിംഗ് സിസ്റ്റങ്ങളിൽ ഭൂരിഭാഗവും ഉൾക്കൊള്ളുന്ന വർഗ്ഗീകരണത്തിനും റിഗ്രഷൻ പ്രശ്നങ്ങൾക്കും ഉപയോഗിക്കാനുള്ള കഴിവ് ക്രമരഹിത വനത്തിന്റെ ഒരു പ്രധാന നേട്ടമാണ്.
എൻസെംബിൾ രണ്ട് വ്യത്യസ്ത തന്ത്രങ്ങൾ ഉപയോഗിക്കുന്നു:
- ബാഗിംഗ്: ഇത് ചെയ്യുന്നതിലൂടെ, പരിശീലന ഡാറ്റാസെറ്റിനായി കൂടുതൽ ഡാറ്റ നിർമ്മിക്കപ്പെടുന്നു. പ്രവചനങ്ങളിലെ വ്യത്യാസം കുറയ്ക്കുന്നതിന്, ഇത് ചെയ്തു.
- തുടർച്ചയായ മാതൃകകൾ നിർമ്മിക്കുന്നതിലൂടെ ദുർബലരായ പഠിതാക്കളെയും ശക്തരായ പഠിതാക്കളെയും സംയോജിപ്പിക്കുന്ന പ്രക്രിയയാണ് ബൂസ്റ്റിംഗ്, അതിന്റെ ഫലമായി അന്തിമ മാതൃക പരമാവധി കൃത്യതയോടെ ലഭിക്കും.
5. നേവ് ബയേസ്
ഒരു ബൈനറി (രണ്ട്-ക്ലാസ്), മൾട്ടി-ക്ലാസ് ക്ലാസിഫിക്കേഷൻ പ്രശ്നം നെയ്വ് ബയേസ് ടെക്നിക് ഉപയോഗിച്ച് പരിഹരിക്കാൻ കഴിയും. ബൈനറി അല്ലെങ്കിൽ കാറ്റഗറി ഇൻപുട്ട് മൂല്യങ്ങൾ ഉപയോഗിച്ച് രീതി വിശദീകരിക്കുമ്പോൾ, അത് മനസ്സിലാക്കാൻ എളുപ്പമാണ്. ഒരു നൈവ് ബയേസ് ക്ലാസിഫയർ നടത്തിയ അനുമാനം, ഒരു ക്ലാസിലെ ഒരു സവിശേഷതയുടെ അസ്തിത്വം മറ്റേതെങ്കിലും സവിശേഷതകളുടെ സാന്നിധ്യത്തെ ബാധിക്കില്ല എന്നതാണ്.
മുകളിലുള്ള ഫോർമുല സൂചിപ്പിക്കുന്നത്:
- P(H): ഹൈപ്പോതെസിസ് H ആകാനുള്ള സാധ്യത. മുൻകാല സാധ്യതയെ ഇതായി പരാമർശിക്കുന്നു.
- പി(ഇ): തെളിവുകളുടെ സാധ്യത
- P(E|H): സിദ്ധാന്തം തെളിവുകളാൽ പിന്തുണയ്ക്കപ്പെടാനുള്ള സാധ്യത.
- P(H|E): തെളിവുകൾ നൽകിയാൽ, സിദ്ധാന്തം ശരിയാകാനുള്ള സാധ്യത.
ഈ ആട്രിബ്യൂട്ടുകൾ പരസ്പരം ബന്ധിപ്പിച്ചിട്ടുണ്ടെങ്കിലും, ഒരു നിശ്ചിത ഫലത്തിന്റെ സാധ്യത നിർണ്ണയിക്കുമ്പോൾ, ഒരു നേവ് ബയേസ് ക്ലാസിഫയർ ഈ സവിശേഷതകളിൽ ഓരോന്നും വ്യക്തിഗതമായി കണക്കിലെടുക്കും. ഒരു നേവ് ബയേഷ്യൻ മോഡൽ നിർമ്മിക്കാൻ ലളിതവും വലിയ ഡാറ്റാസെറ്റുകൾക്ക് ഫലപ്രദവുമാണ്.
അടിസ്ഥാനപരമായിരിക്കുമ്പോൾ തന്നെ ഏറ്റവും സങ്കീർണ്ണമായ വർഗ്ഗീകരണ സാങ്കേതിക വിദ്യകളേക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെക്കുമെന്ന് അറിയപ്പെടുന്നു. ഒരൊറ്റ രീതിക്ക് പകരം ബയേസ് സിദ്ധാന്തത്തെ അടിസ്ഥാനമാക്കിയുള്ള അൽഗോരിതങ്ങളുടെ ഒരു ശേഖരമാണിത്.
6. കെ-അടുത്തുള്ള അയൽക്കാർ
തരംതിരിക്കലും റിഗ്രഷൻ പ്രശ്നങ്ങളും പരിഹരിക്കാൻ ഉപയോഗിക്കാവുന്ന സൂപ്പർവൈസ്ഡ് മെഷീൻ ലേണിംഗിന്റെ ഒരു ഉപവിഭാഗമാണ് കെ-അടുത്ത അയൽക്കാർ (കെഎൻഎൻ) സാങ്കേതികത. KNN അൽഗോരിതം അനുമാനിക്കുന്നത്, താരതമ്യപ്പെടുത്താവുന്ന വസ്തുക്കൾ സമീപത്ത് കണ്ടെത്താനാകുമെന്നാണ്.
സമാന ചിന്താഗതിക്കാരായ വ്യക്തികളുടെ ഒത്തുചേരലായി ഞാൻ അതിനെ ഓർക്കുന്നു. സാമീപ്യമോ അടുപ്പമോ ദൂരമോ ഉപയോഗിച്ച് മറ്റ് ഡാറ്റാ പോയിന്റുകൾ തമ്മിലുള്ള സാമ്യം എന്ന ആശയം kNN പ്രയോജനപ്പെടുത്തുന്നു. ഏറ്റവും അടുത്തുള്ള ലേബൽ ചെയ്ത നിരീക്ഷിക്കാവുന്ന ഡാറ്റാ പോയിന്റുകളെ അടിസ്ഥാനമാക്കി കാണാത്ത ഡാറ്റ ലേബൽ ചെയ്യുന്നതിന്, ഒരു ഗ്രാഫിലെ പോയിന്റുകൾ തമ്മിലുള്ള വേർതിരിവ് നിർണ്ണയിക്കാൻ ഒരു ഗണിതശാസ്ത്ര രീതി ഉപയോഗിക്കുന്നു.
ഏറ്റവും അടുത്തുള്ള താരതമ്യപ്പെടുത്താവുന്ന സ്ഥലങ്ങൾ തിരിച്ചറിയാൻ നിങ്ങൾ ഡാറ്റ പോയിന്റുകൾ തമ്മിലുള്ള ദൂരം നിർണ്ണയിക്കണം. യൂക്ലിഡിയൻ ദൂരം, ഹാമിംഗ് ദൂരം, മാൻഹട്ടൻ ദൂരം, മിങ്കോവ്സ്കി ദൂരം തുടങ്ങിയ ദൂര അളവുകൾ ഇതിനായി ഉപയോഗിക്കാം. കെ ഏറ്റവും അടുത്തുള്ള അയൽ സംഖ്യയായി അറിയപ്പെടുന്നു, ഇത് പലപ്പോഴും ഒറ്റ സംഖ്യയാണ്.
വർഗ്ഗീകരണത്തിനും റിഗ്രഷൻ പ്രശ്നങ്ങൾക്കും KNN പ്രയോഗിക്കാവുന്നതാണ്. റിഗ്രഷൻ പ്രശ്നങ്ങൾക്ക് KNN ഉപയോഗിക്കുമ്പോൾ നടത്തിയ പ്രവചനം K- ഏറ്റവും സമാനമായ സംഭവങ്ങളുടെ ശരാശരി അല്ലെങ്കിൽ ശരാശരിയെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്.
KNN അടിസ്ഥാനമാക്കിയുള്ള ഒരു വർഗ്ഗീകരണ അൽഗോരിതത്തിന്റെ ഫലം K സമാനമായ സംഭവങ്ങളിൽ ഏറ്റവും ഉയർന്ന ആവൃത്തിയുള്ള ക്ലാസ് ആയി നിർണ്ണയിക്കാവുന്നതാണ്. എല്ലാ സംഭവങ്ങളും അടിസ്ഥാനപരമായി അവരുടെ ക്ലാസിന് ഒരു വോട്ട് രേഖപ്പെടുത്തുന്നു, കൂടാതെ പ്രവചനം ഏറ്റവും കൂടുതൽ വോട്ടുകൾ ലഭിക്കുന്ന ക്ലാസിന്റേതാണ്.
7. കെ-അർത്ഥം
ക്ലസ്റ്ററിംഗ് പ്രശ്നങ്ങളെ അഭിസംബോധന ചെയ്യുന്ന മേൽനോട്ടമില്ലാത്ത പഠനത്തിനുള്ള ഒരു സാങ്കേതികതയാണിത്. ഡാറ്റാ സെറ്റുകൾ നിശ്ചിത എണ്ണം ക്ലസ്റ്ററുകളായി വിഭജിക്കപ്പെട്ടിരിക്കുന്നു-അത് കെ എന്ന് വിളിക്കുക-ഓരോ ക്ലസ്റ്ററിന്റെയും ഡാറ്റാ പോയിന്റുകൾ ഏകതാനവും മറ്റ് ക്ലസ്റ്ററുകളിൽ നിന്ന് വ്യത്യസ്തവുമാണ്.
K- എന്നാൽ ക്ലസ്റ്ററിംഗ് രീതിശാസ്ത്രം:
- ഓരോ ക്ലസ്റ്ററിനും, K-അർത്ഥം അൽഗോരിതം k സെൻട്രോയിഡുകൾ അല്ലെങ്കിൽ പോയിന്റുകൾ തിരഞ്ഞെടുക്കുന്നു.
- ഏറ്റവും അടുത്തുള്ള സെൻട്രോയിഡുകൾ അല്ലെങ്കിൽ കെ ക്ലസ്റ്ററുകൾ ഉപയോഗിച്ച്, ഓരോ ഡാറ്റ പോയിന്റും ഒരു ക്ലസ്റ്റർ രൂപപ്പെടുത്തുന്നു.
- ഇപ്പോൾ, നിലവിലുള്ള ക്ലസ്റ്റർ അംഗങ്ങളെ ആശ്രയിച്ച് പുതിയ സെൻട്രോയിഡുകൾ നിർമ്മിക്കപ്പെടുന്നു.
- ഈ അപ്ഡേറ്റ് ചെയ്ത സെൻട്രോയിഡുകൾ ഉപയോഗിച്ചാണ് ഓരോ ഡാറ്റാ പോയിന്റിനും ഏറ്റവും അടുത്തുള്ള ദൂരം കണക്കാക്കുന്നത്. സെൻട്രോയിഡുകൾ മാറാത്തത് വരെ, ഈ പ്രക്രിയ ആവർത്തിക്കുന്നു.
ഇത് വേഗമേറിയതും കൂടുതൽ വിശ്വസനീയവും മനസ്സിലാക്കാൻ എളുപ്പവുമാണ്. പ്രശ്നങ്ങളുണ്ടെങ്കിൽ, കെ-മീൻസിന്റെ അഡാപ്റ്റബിലിറ്റി ക്രമീകരണങ്ങൾ ലളിതമാക്കുന്നു. ഡാറ്റാസെറ്റുകൾ വ്യത്യസ്തമായിരിക്കുമ്പോഴോ പരസ്പരം നന്നായി വേർതിരിച്ചിരിക്കുമ്പോഴോ, ഫലങ്ങൾ മികച്ചതാണ്. ഇതിന് ക്രമരഹിതമായ ഡാറ്റയോ ഔട്ട്ലയറുകളോ മാനേജ് ചെയ്യാൻ കഴിയില്ല.
8. സപ്പോർട്ട് വെക്റ്റർ മെഷീനുകൾ
ഡാറ്റയെ തരംതിരിക്കാൻ SVM ടെക്നിക് ഉപയോഗിക്കുമ്പോൾ, റോ ഡാറ്റ ഒരു n-ഡൈമൻഷണൽ സ്പെയ്സിൽ ഡോട്ടുകളായി കാണിക്കുന്നു (ഇവിടെ n എന്നത് നിങ്ങൾക്ക് ഉള്ള ഫീച്ചറുകളുടെ എണ്ണമാണ്). ഓരോ ഫീച്ചറിന്റെയും മൂല്യം ഒരു പ്രത്യേക കോർഡിനേറ്റുമായി ബന്ധിപ്പിച്ചിരിക്കുന്നതിനാൽ ഡാറ്റ പിന്നീട് എളുപ്പത്തിൽ തരംതിരിക്കാം.
ഡാറ്റ വേർതിരിച്ച് ഒരു ഗ്രാഫിൽ ഇടുന്നതിന്, ക്ലാസിഫയറുകൾ എന്നറിയപ്പെടുന്ന വരികൾ ഉപയോഗിക്കുക. ഈ സമീപനം ഓരോ ഡാറ്റാ പോയിന്റിനെയും ഒരു n-ഡൈമൻഷണൽ സ്പെയ്സിലെ ഒരു പോയിന്റായി പ്ലോട്ട് ചെയ്യുന്നു, ഇവിടെ n എന്നത് നിങ്ങൾക്ക് ഉള്ള സവിശേഷതകളുടെ എണ്ണവും ഓരോ ഫീച്ചറിന്റെ മൂല്യവും ഒരു പ്രത്യേക കോർഡിനേറ്റ് മൂല്യവുമാണ്.
വ്യത്യസ്തമായി തരംതിരിച്ചിരിക്കുന്ന രണ്ട് സെറ്റ് ഡാറ്റകളായി ഡാറ്റയെ വിഭജിക്കുന്ന ഒരു ലൈൻ ഞങ്ങൾ ഇപ്പോൾ കണ്ടെത്തും. രണ്ട് ഗ്രൂപ്പുകളിലെയും ഏറ്റവും അടുത്തുള്ള പോയിന്റുകളിൽ നിന്നുള്ള ദൂരങ്ങൾ ഈ ലൈനിലൂടെ ഏറ്റവും അകലെയായിരിക്കും.
ഏറ്റവും അടുത്തുള്ള രണ്ട് പോയിന്റുകൾ മുകളിലുള്ള ഉദാഹരണത്തിലെ വരിയിൽ നിന്ന് ഏറ്റവും അകലെയുള്ളവയായതിനാൽ, ഡാറ്റയെ വ്യത്യസ്തമായി തരംതിരിച്ച രണ്ട് ഗ്രൂപ്പുകളായി വിഭജിക്കുന്ന വരി മധ്യരേഖയാണ്. ഞങ്ങളുടെ ക്ലാസിഫയർ ഈ വരിയാണ്.
9. ഡൈമൻഷണാലിറ്റി റിഡക്ഷൻ
ഡൈമൻഷണാലിറ്റി റിഡക്ഷൻ സമീപനം ഉപയോഗിച്ച്, പരിശീലന ഡാറ്റയ്ക്ക് കുറച്ച് ഇൻപുട്ട് വേരിയബിളുകൾ ഉണ്ടായിരിക്കാം. ലളിതമായി പറഞ്ഞാൽ, ഇത് നിങ്ങളുടെ ഫീച്ചർ സെറ്റിന്റെ വലുപ്പം ചുരുക്കുന്ന പ്രക്രിയയെ സൂചിപ്പിക്കുന്നു. നിങ്ങളുടെ ഡാറ്റാസെറ്റിന് 100 കോളങ്ങൾ ഉണ്ടെന്ന് സങ്കൽപ്പിക്കുക; ഡൈമൻഷണാലിറ്റി റിഡക്ഷൻ ആ തുക 20 കോളങ്ങളായി കുറയ്ക്കും.
മോഡൽ സ്വയമേവ കൂടുതൽ സങ്കീർണ്ണമായി വളരുന്നു, കൂടാതെ ഫീച്ചറുകളുടെ എണ്ണം കൂടുന്നതിനനുസരിച്ച് ഓവർഫിറ്റ് ചെയ്യാനുള്ള സാധ്യതയും കൂടുതലാണ്. കൂടുതൽ അളവുകളിൽ ഡാറ്റയുമായി പ്രവർത്തിക്കുന്നതിലെ ഏറ്റവും വലിയ പ്രശ്നം, നിങ്ങളുടെ ഡാറ്റയിൽ അമിതമായ സ്വഭാവസവിശേഷതകൾ അടങ്ങിയിരിക്കുമ്പോൾ സംഭവിക്കുന്ന "മാനത്വത്തിന്റെ ശാപം" എന്നറിയപ്പെടുന്നതാണ്.
ഡൈമൻഷണാലിറ്റി കുറയ്ക്കുന്നതിന് ഇനിപ്പറയുന്ന ഘടകങ്ങൾ ഉപയോഗിക്കാം:
- പ്രസക്തമായ സവിശേഷതകൾ കണ്ടെത്തുന്നതിനും തിരഞ്ഞെടുക്കുന്നതിനും, ഫീച്ചർ തിരഞ്ഞെടുക്കൽ ഉപയോഗിക്കുന്നു.
- നിലവിലുള്ള സവിശേഷതകൾ ഉപയോഗിച്ച്, ഫീച്ചർ എഞ്ചിനീയറിംഗ് സ്വമേധയാ പുതിയ സവിശേഷതകൾ സൃഷ്ടിക്കുന്നു.
തീരുമാനം
മേൽനോട്ടമില്ലാത്തതോ മേൽനോട്ടമില്ലാത്തതോ ആയ മെഷീൻ ലേണിംഗ് രണ്ടും സാധ്യമാണ്. നിങ്ങളുടെ ഡാറ്റ ധാരാളമായി കുറവാണെങ്കിൽ പരിശീലനത്തിനായി നന്നായി ടാഗ് ചെയ്തിട്ടുണ്ടെങ്കിൽ മേൽനോട്ടത്തിലുള്ള പഠനം തിരഞ്ഞെടുക്കുക.
മേൽനോട്ടമില്ലാത്ത പഠനം ഉപയോഗിച്ച് വലിയ ഡാറ്റാ സെറ്റുകൾ പലപ്പോഴും പ്രവർത്തിക്കുകയും മികച്ച ഫലങ്ങൾ നൽകുകയും ചെയ്യും. ആഴത്തിലുള്ള പഠനം നിങ്ങൾക്ക് എളുപ്പത്തിൽ ലഭ്യമായ ഒരു വലിയ ഡാറ്റാ ശേഖരം ഉണ്ടെങ്കിൽ രീതികൾ മികച്ചതാണ്.
ശക്തിപ്പെടുത്തൽ പഠനം നിങ്ങൾ പഠിച്ച ചില വിഷയങ്ങളാണ് ആഴത്തിലുള്ള ബലപ്പെടുത്തൽ പഠനം. ന്യൂറൽ നെറ്റ്വർക്കുകളുടെ സവിശേഷതകളും ഉപയോഗങ്ങളും നിയന്ത്രണങ്ങളും ഇപ്പോൾ നിങ്ങൾക്ക് വ്യക്തമാണ്. അവസാനമായി പക്ഷേ, നിങ്ങളുടേത് സൃഷ്ടിക്കുമ്പോൾ വ്യത്യസ്ത പ്രോഗ്രാമിംഗ് ഭാഷകൾ, ഐഡിഇകൾ, പ്ലാറ്റ്ഫോമുകൾ എന്നിവയ്ക്കുള്ള ഓപ്ഷനുകൾ നിങ്ങൾ പരിഗണിച്ചു. മെഷീൻ ലേണിംഗ് മോഡലുകൾ.
അടുത്തതായി നിങ്ങൾ ചെയ്യേണ്ടത് ഓരോന്നും പഠിക്കാനും ഉപയോഗിക്കാനും തുടങ്ങുക എന്നതാണ് മെഷീൻ ലേണിംഗ് സമീപനം. വിഷയം വിശാലമാണെങ്കിൽ പോലും, ഏത് വിഷയവും അതിന്റെ ആഴത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ചാൽ ഏതാനും മണിക്കൂറുകൾക്കുള്ളിൽ മനസ്സിലാകും. ഓരോ വിഷയവും മറ്റുള്ളവരിൽ നിന്ന് ഒറ്റയ്ക്ക് നിൽക്കുന്നു.
നിങ്ങൾ ഒരു സമയം ഒരു പ്രശ്നത്തെക്കുറിച്ച് ചിന്തിക്കുകയും അത് പഠിക്കുകയും അത് പ്രയോഗത്തിൽ വരുത്തുകയും അതിലെ അൽഗോരിതം (കൾ) നടപ്പിലാക്കാൻ നിങ്ങൾക്ക് ഇഷ്ടമുള്ള ഒരു ഭാഷ ഉപയോഗിക്കുകയും വേണം.
നിങ്ങളുടെ അഭിപ്രായങ്ങൾ രേഖപ്പെടുത്തുക