സ്കിറ്റ്-ലേണിലേക്കുള്ള ഒരു തുടക്കക്കാരന്റെ ഗൈഡ്

ഉള്ളടക്ക പട്ടിക[മറയ്ക്കുക][കാണിക്കുക]

എന്താണ് സ്കിറ്റ്-ലേൺ?
സ്കിറ്റ്-ലേൺ ലൈബ്രറിയുടെ പ്രയോഗങ്ങൾ+-
Scikit-learn ഇൻസ്റ്റാൾ ചെയ്യുന്നു
സവിശേഷതകൾ +-
ആരേലും
ബാക്ക്ട്രെയിസ്കൊണ്ടു്
തീരുമാനം

നിങ്ങളൊരു പൈത്തൺ പ്രോഗ്രാമറാണെങ്കിൽ അല്ലെങ്കിൽ ഒരു പ്രൊഡക്ഷൻ സിസ്റ്റത്തിലേക്ക് മെഷീൻ ലേണിംഗ് അവതരിപ്പിക്കാൻ ഉപയോഗിക്കുന്നതിന് ശക്തമായ ഒരു ടൂൾകിറ്റിനായി നിങ്ങൾ തിരയുകയാണെങ്കിൽ, നിങ്ങൾ പരിശോധിക്കേണ്ട ഒരു ലൈബ്രറിയാണ് Scikit-learn.

നിങ്ങൾ മെഷീൻ ലേണിംഗിൽ പുതിയ ആളാണോ, വേഗത്തിൽ എഴുനേറ്റു പ്രവർത്തിക്കാൻ ആഗ്രഹിക്കുന്നു, അല്ലെങ്കിൽ ഏറ്റവും കാലികമായ ML റിസർച്ച് ടൂൾ പ്രയോജനപ്പെടുത്താൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, Scikit-learn നന്നായി രേഖപ്പെടുത്തപ്പെട്ടതും ഉപയോഗിക്കാൻ ലളിതവുമാണ്.

കോഡിന്റെ ഏതാനും ലൈനുകളിൽ മാത്രം പ്രവചനാത്മക ഡാറ്റ മോഡൽ നിർമ്മിക്കാൻ ഇത് നിങ്ങളെ അനുവദിക്കുന്നു, തുടർന്ന് ഉയർന്ന തലത്തിലുള്ള ലൈബ്രറിയായി നിങ്ങളുടെ ഡാറ്റയ്ക്ക് അനുയോജ്യമായ രീതിയിൽ ആ മോഡൽ ഉപയോഗിക്കുന്നു. ഇത് വഴക്കമുള്ളതും മറ്റുള്ളവരുമായി നന്നായി പ്രവർത്തിക്കുന്നതുമാണ് പൈത്തൺ ലൈബ്രറികൾ ചാർട്ടിംഗിനായി Matplotlib, അറേ വെക്‌ടറൈസേഷനായി NumPy, ഡാറ്റ വിഷ്വലൈസേഷനായി പാണ്ടകൾ എന്നിവ പോലെ.

ഈ ഗൈഡിൽ, അത് എന്താണെന്നും നിങ്ങൾക്ക് അത് എങ്ങനെ ഉപയോഗിക്കാം എന്നതിനെക്കുറിച്ചും അതിന്റെ ഗുണദോഷങ്ങളെക്കുറിച്ചും എല്ലാം നിങ്ങൾ കണ്ടെത്തും.

എന്താണ് സ്കിക്കിറ്റ്-പഠിക്കുക?

Scikit-learn (sklearn എന്നും അറിയപ്പെടുന്നു) വൈവിധ്യമാർന്ന സ്റ്റാറ്റിസ്റ്റിക്കൽ മോഡലുകളും മെഷീൻ ലേണിംഗും വാഗ്ദാനം ചെയ്യുന്നു. മിക്ക മൊഡ്യൂളുകളിൽ നിന്നും വ്യത്യസ്‌തമായി, C യ്‌ക്ക് പകരം പൈത്തണിലാണ് sklearn വികസിപ്പിച്ചിരിക്കുന്നത്. പൈത്തണിൽ വികസിപ്പിച്ചിട്ടുണ്ടെങ്കിലും, ഉയർന്ന പ്രകടനമുള്ള ലീനിയർ ബീജഗണിതത്തിനും അറേ പ്രവർത്തനങ്ങൾക്കും NumPy ഉപയോഗിക്കുന്നതാണ് sklearn-ന്റെ കാര്യക്ഷമത.

ഗൂഗിളിന്റെ സമ്മർ ഓഫ് കോഡ് പ്രോജക്റ്റിന്റെ ഭാഗമായാണ് Scikit-Learn സൃഷ്ടിച്ചത്, അതിനുശേഷം ലോകമെമ്പാടുമുള്ള ദശലക്ഷക്കണക്കിന് പൈത്തൺ കേന്ദ്രീകൃത ഡാറ്റാ ശാസ്ത്രജ്ഞരുടെ ജീവിതം ലളിതമാക്കി. പരമ്പരയുടെ ഈ വിഭാഗം ലൈബ്രറി അവതരിപ്പിക്കുന്നതിലും ഒരു ഘടകത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നതിലും ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു - ഡാറ്റാസെറ്റ് പരിവർത്തനങ്ങൾ, ഒരു പ്രവചന മാതൃക വികസിപ്പിക്കുന്നതിന് മുമ്പ് എടുക്കേണ്ട പ്രധാനവും സുപ്രധാനവുമായ ചുവടുവെപ്പാണ്.

Sklearn

ലൈബ്രറി SciPy (Scientific Python) അടിസ്ഥാനമാക്കിയുള്ളതാണ്, അത് നിങ്ങൾക്ക് സ്കിറ്റ്-ലേൺ ഉപയോഗിക്കുന്നതിന് മുമ്പ് ഇൻസ്റ്റാൾ ചെയ്തിരിക്കണം. ഈ സ്റ്റാക്കിൽ ഇനിപ്പറയുന്ന ഇനങ്ങൾ അടങ്ങിയിരിക്കുന്നു:

NumPy: പൈത്തണിന്റെ സ്റ്റാൻഡേർഡ് എൻ-ഡൈമൻഷണൽ അറേ പാക്കേജ്
SciPy: ഇത് ശാസ്ത്രീയ കമ്പ്യൂട്ടിംഗിനായുള്ള ഒരു അടിസ്ഥാന പാക്കേജാണ്
പാണ്ടകൾ: ഡാറ്റ ഘടനകളും വിശകലനവും
Matplotlib: ഇതൊരു ശക്തമായ 2D/3D പ്ലോട്ടിംഗ് ലൈബ്രറിയാണ്
സിംപി: സിംബോളിക് മാത്തമാറ്റിക്സ്
IPython: മെച്ചപ്പെട്ട ഇന്ററാക്ടീവ് കൺസോൾ

സ്കിറ്റ്-ലേൺ ലൈബ്രറിയുടെ പ്രയോഗങ്ങൾ

അത്യാധുനിക ഡാറ്റാ വിശകലനവും മൈനിംഗ് സവിശേഷതകളും ഉള്ള ഒരു ഓപ്പൺ സോഴ്‌സ് പൈത്തൺ പാക്കേജാണ് Scikit-learn. നിങ്ങളുടെ ഡാറ്റാ സയൻസ് പ്രോജക്‌റ്റുകൾ പരമാവധി പ്രയോജനപ്പെടുത്താൻ സഹായിക്കുന്നതിന് ബിൽറ്റ്-ഇൻ അൽഗോരിതങ്ങളുടെ സമൃദ്ധിയോടെയാണ് ഇത് വരുന്നത്. Scikit-learn ലൈബ്രറി ഇനിപ്പറയുന്ന രീതികളിൽ ഉപയോഗിക്കുന്നു.

1. റിഗ്രഷൻ

രണ്ടോ അതിലധികമോ വേരിയബിളുകൾ തമ്മിലുള്ള ബന്ധം വിശകലനം ചെയ്യുന്നതിനും മനസ്സിലാക്കുന്നതിനുമുള്ള ഒരു സ്റ്റാറ്റിസ്റ്റിക്കൽ സാങ്കേതികതയാണ് റിഗ്രഷൻ വിശകലനം. റിഗ്രഷൻ വിശകലനം ചെയ്യാൻ ഉപയോഗിക്കുന്ന രീതി ഏതൊക്കെ ഘടകങ്ങൾ പ്രസക്തമാണെന്നും അവ അവഗണിക്കപ്പെടാമെന്നും അവ എങ്ങനെ ഇടപെടുന്നുവെന്നും നിർണ്ണയിക്കാൻ സഹായിക്കുന്നു. റിഗ്രഷൻ ടെക്നിക്കുകൾ, ഉദാഹരണത്തിന്, ഓഹരി വിലകളുടെ സ്വഭാവം നന്നായി മനസ്സിലാക്കാൻ ഉപയോഗിച്ചേക്കാം.

റിഗ്രഷൻ അൽഗോരിതങ്ങളിൽ ഇവ ഉൾപ്പെടുന്നു:

ലീനിയർ റിഗ്രഷൻ
റിഡ്ജ് റിഗ്രഷൻ
ലസ്സോ റിഗ്രഷൻ
ഡിസിഷൻ ട്രീ റിഗ്രഷൻ
റാൻഡം ഫോറസ്റ്റ്
സപ്പോർട്ട് വെക്റ്റർ മെഷീനുകൾ (SVM)

2. വർഗ്ഗീകരണം

പുതിയ നിരീക്ഷണങ്ങളുടെ വിഭാഗം തിരിച്ചറിയാൻ പരിശീലന ഡാറ്റ ഉപയോഗിക്കുന്ന സൂപ്പർവൈസ്ഡ് ലേണിംഗ് സമീപനമാണ് ക്ലാസിഫിക്കേഷൻ രീതി. ക്ലാസിഫിക്കേഷനിലെ ഒരു അൽഗോരിതം നൽകിയിരിക്കുന്നതിൽ നിന്ന് പഠിക്കുന്നു ഡാറ്റാസെറ്റ് അല്ലെങ്കിൽ നിരീക്ഷണങ്ങൾ തുടർന്ന് അധിക നിരീക്ഷണങ്ങളെ പല ക്ലാസുകളിലോ ഗ്രൂപ്പുകളിലോ ഒന്നായി തരംതിരിക്കുന്നു. ഉദാഹരണത്തിന്, ഇമെയിൽ ആശയവിനിമയങ്ങളെ സ്പാം ആയി തരംതിരിക്കാൻ അവ ഉപയോഗിക്കാം.

വർഗ്ഗീകരണ അൽഗോരിതങ്ങളിൽ ഇനിപ്പറയുന്നവ ഉൾപ്പെടുന്നു:

ലോജിസ്റ്റിക് റിഗ്രഷൻ
കെ-അടുത്തുള്ള അയൽക്കാർ
പിന്തുണ വെക്റ്റർ മെഷീൻ
തീരുമാനം
റാൻഡം ഫോറസ്റ്റ്

3. ക്ലസ്റ്ററിംഗ്

സമാന ഗുണങ്ങളുള്ള ഡാറ്റ സെറ്റുകളായി സ്വയമേവ ക്രമീകരിക്കാൻ Scikit-learn-ലെ ക്ലസ്റ്ററിംഗ് അൽഗോരിതങ്ങൾ ഉപയോഗിക്കുന്നു. ഒരു കൂട്ടം ഇനങ്ങളെ ഗ്രൂപ്പുചെയ്യുന്ന പ്രക്രിയയാണ് ക്ലസ്റ്ററിംഗ്, അങ്ങനെ ഒരേ ഗ്രൂപ്പിലുള്ളവർ മറ്റ് ഗ്രൂപ്പുകളുടേതിന് സമാനമാണ്. ഉപഭോക്തൃ ഡാറ്റ, ഉദാഹരണത്തിന്, അവരുടെ ലൊക്കേഷൻ അടിസ്ഥാനമാക്കി വേർതിരിക്കപ്പെട്ടേക്കാം.

ക്ലസ്റ്ററിംഗ് അൽഗോരിതങ്ങളിൽ ഇനിപ്പറയുന്നവ ഉൾപ്പെടുന്നു:

DB-SCAN
കെ-അർത്ഥം
മിനി-ബാച്ച് കെ-അർത്ഥം
സ്പെക്ട്രൽ ക്ലസ്റ്ററിംഗ്

4. മോഡൽ തിരഞ്ഞെടുക്കൽ

ഡാറ്റാ സയൻസ് സംരംഭങ്ങളിൽ ഉപയോഗിക്കുന്നതിനുള്ള ഒപ്റ്റിമൽ പാരാമീറ്ററുകളും മോഡലുകളും താരതമ്യം ചെയ്യുന്നതിനും സാധൂകരിക്കുന്നതിനും തിരഞ്ഞെടുക്കുന്നതിനുമുള്ള രീതികൾ മോഡൽ സെലക്ഷൻ അൽഗോരിതങ്ങൾ നൽകുന്നു. ഡാറ്റ നൽകുമ്പോൾ, ഒരു കൂട്ടം കാൻഡിഡേറ്റ് മോഡലുകളിൽ നിന്ന് ഒരു സ്റ്റാറ്റിസ്റ്റിക്കൽ മോഡൽ തിരഞ്ഞെടുക്കുന്നതിനുള്ള പ്രശ്നമാണ് മോഡൽ തിരഞ്ഞെടുക്കൽ. ഏറ്റവും അടിസ്ഥാനപരമായ സാഹചര്യങ്ങളിൽ, നിലവിലുള്ള ഡാറ്റയുടെ ഒരു ശേഖരം കണക്കിലെടുക്കുന്നു. എന്നിരുന്നാലും, പരീക്ഷണങ്ങളുടെ രൂപകൽപ്പനയും ടാസ്‌ക്കിൽ ഉൾപ്പെട്ടേക്കാം, അതിനാൽ ലഭിച്ച ഡാറ്റ മോഡൽ തിരഞ്ഞെടുക്കൽ പ്രശ്‌നത്തിന് നന്നായി യോജിക്കുന്നു.

പാരാമീറ്ററുകൾ ക്രമീകരിച്ചുകൊണ്ട് കൃത്യത മെച്ചപ്പെടുത്താൻ കഴിയുന്ന മോഡൽ തിരഞ്ഞെടുക്കൽ മൊഡ്യൂളുകളിൽ ഇവ ഉൾപ്പെടുന്നു:

ക്രോസ് മൂല്യനിർണ്ണയം
ഗ്രിഡ് തിരയൽ
മെട്രിക്സ്

5. ഡൈമൻഷണാലിറ്റി റിഡക്ഷൻ

ഹൈ-ഡൈമൻഷണൽ സ്‌പെയ്‌സിൽ നിന്ന് ലോ-ഡൈമൻഷണൽ സ്‌പെയ്‌സിലേക്ക് ഡാറ്റ കൈമാറ്റം ചെയ്യുന്നതിലൂടെ ലോ-ഡൈമൻഷണൽ പ്രാതിനിധ്യം യഥാർത്ഥ ഡാറ്റയുടെ ചില സുപ്രധാന വശങ്ങൾ സംരക്ഷിക്കുന്നു, അത് അതിന്റെ അന്തർലീനമായ അളവിന് അടുത്താണ്, ഡൈമൻഷണാലിറ്റി റിഡക്ഷൻ എന്ന് അറിയപ്പെടുന്നു. ഡൈമൻഷണാലിറ്റി കുറയുമ്പോൾ വിശകലനത്തിനുള്ള റാൻഡം വേരിയബിളുകളുടെ എണ്ണം കുറയുന്നു. ഉദാഹരണത്തിന്, വിഷ്വലൈസേഷന്റെ കാര്യക്ഷമത മെച്ചപ്പെടുത്തുന്നതിന് ഔട്ട്ലൈയിംഗ് ഡാറ്റ പരിഗണിക്കില്ല.

ഡൈമൻഷണാലിറ്റി റിഡക്ഷൻ അൽഗോരിതം ഇനിപ്പറയുന്നവ ഉൾക്കൊള്ളുന്നു:

സവിശേഷത തിരഞ്ഞെടുക്കൽ
പ്രിൻസിപ്പൽ ഘടക വിശകലനം (പിസി‌എ)

Scikit-learn ഇൻസ്റ്റാൾ ചെയ്യുന്നു

Scikit-learn ഉപയോഗിക്കുന്നതിന് മുമ്പ് NumPy, SciPy, Matplotlib, IPython, Sympy, Pandas എന്നിവ ഇൻസ്റ്റാൾ ചെയ്യേണ്ടതുണ്ട്. കൺസോളിൽ നിന്നുള്ള പൈപ്പ് ഉപയോഗിച്ച് അവ ഇൻസ്റ്റാൾ ചെയ്യാം (വിൻഡോസിൽ മാത്രം പ്രവർത്തിക്കുന്നു).

ഇൻസ്റ്റോൾ

ആവശ്യമായ ലൈബ്രറികൾ ഇൻസ്റ്റാൾ ചെയ്തതിനാൽ നമുക്ക് ഇപ്പോൾ Scikit-learn ഇൻസ്റ്റാൾ ചെയ്യാം.

Sklearn ഇൻസ്റ്റാൾ ചെയ്യുന്നു

സവിശേഷതകൾ

മെഷീൻ ലേണിംഗ് മോഡലുകളും സ്റ്റാറ്റിസ്റ്റിക്കൽ മോഡലിംഗും നടപ്പിലാക്കുന്നതിനുള്ള ഒരു പൈത്തൺ ടൂൾകിറ്റാണ് Scikit-learn, ചിലപ്പോൾ sklearn എന്നും അറിയപ്പെടുന്നു. റിഗ്രഷൻ, വർഗ്ഗീകരണം, ക്ലസ്റ്ററിംഗ് എന്നിവയ്‌ക്കായി ഒന്നിലധികം മെഷീൻ ലേണിംഗ് മോഡലുകളും ഈ മോഡലുകൾ വിലയിരുത്തുന്നതിനുള്ള സ്റ്റാറ്റിസ്റ്റിക്കൽ ടൂളുകളും സൃഷ്‌ടിക്കാൻ ഞങ്ങൾ ഇത് ഉപയോഗിച്ചേക്കാം. ഡൈമൻഷണാലിറ്റി റിഡക്ഷൻ, ഫീച്ചർ സെലക്ഷൻ, ഫീച്ചർ എക്‌സ്‌ട്രാക്ഷൻ, സമന്വയ സമീപനങ്ങൾ, ബിൽറ്റ്-ഇൻ ഡാറ്റാസെറ്റുകൾ എന്നിവയും ഇതിൽ ഉൾപ്പെടുന്നു. ഈ ഗുണങ്ങൾ ഓരോന്നും ഒരു സമയം ഞങ്ങൾ അന്വേഷിക്കും.

1. ഡാറ്റാസെറ്റുകൾ ഇറക്കുമതി ചെയ്യുന്നു

ഐറിസ് ഡാറ്റാസെറ്റ്, ഹോം പ്രൈസ് ഡാറ്റാസെറ്റ്, ടൈറ്റാനിക് ഡാറ്റാസെറ്റ് തുടങ്ങി നിരവധി പ്രീ-ബിൽറ്റ് ഡാറ്റാസെറ്റുകൾ Scikit-learn-ൽ ഉൾപ്പെടുന്നു. ഈ ഡാറ്റാസെറ്റുകളുടെ പ്രധാന നേട്ടങ്ങൾ, അവ മനസ്സിലാക്കാൻ ലളിതവും എംഎൽ മോഡലുകൾ ഉടനടി വികസിപ്പിക്കാൻ ഉപയോഗിക്കാവുന്നതുമാണ്. ഈ ഡാറ്റാസെറ്റുകൾ തുടക്കക്കാർക്ക് അനുയോജ്യമാണ്. അതുപോലെ, അധിക ഡാറ്റാസെറ്റുകൾ ഇറക്കുമതി ചെയ്യാൻ നിങ്ങൾക്ക് sklearn ഉപയോഗിക്കാം. അതുപോലെ, അധിക ഡാറ്റാസെറ്റുകൾ ഇറക്കുമതി ചെയ്യാൻ നിങ്ങൾക്ക് ഇത് ഉപയോഗിക്കാം.

ഡാറ്റാസെറ്റ്

2. പരിശീലനത്തിനും പരിശോധനയ്ക്കുമുള്ള ഡാറ്റാസെറ്റ് വിഭജിക്കുന്നു

ഡാറ്റാസെറ്റിനെ പരിശീലന, പരിശോധന വിഭാഗങ്ങളായി വിഭജിക്കാനുള്ള കഴിവ് Sklearn ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. പ്രവചന പ്രകടനത്തിന്റെ നിഷ്പക്ഷമായ വിലയിരുത്തലിന് ഡാറ്റാസെറ്റ് വിഭജിക്കേണ്ടത് ആവശ്യമാണ്. ട്രെയിനിലും ടെസ്റ്റ് ഡാറ്റാസെറ്റുകളിലും ഞങ്ങളുടെ ഡാറ്റ എത്രത്തോളം ഉൾപ്പെടുത്തണമെന്ന് ഞങ്ങൾ വ്യക്തമാക്കിയേക്കാം. ട്രെയിൻ ടെസ്റ്റ് സ്പ്ലിറ്റ് ഉപയോഗിച്ച് ഞങ്ങൾ ഡാറ്റാസെറ്റ് വിഭജിച്ചു, അതായത് ട്രെയിൻ സെറ്റിൽ ഡാറ്റയുടെ 80% ഉൾപ്പെടുന്നു, ടെസ്റ്റ് സെറ്റിൽ 20% ഉണ്ട്. ഡാറ്റാസെറ്റ് ഇനിപ്പറയുന്ന രീതിയിൽ വിഭജിക്കാം:

വിഭജിക്കുന്നു

3. ലീനിയർ റിഗ്രഷൻ

ലീനിയർ റിഗ്രഷൻ ഒരു സൂപ്പർവൈസ്ഡ് ലേണിംഗ് അധിഷ്ഠിത മെഷീൻ ലേണിംഗ് ടെക്നിക്കാണ്. ഇത് ഒരു റിഗ്രഷൻ ജോലി നിർവഹിക്കുന്നു. സ്വതന്ത്ര വേരിയബിളുകളെ അടിസ്ഥാനമാക്കി, റിഗ്രഷൻ ഒരു ഗോൾ പ്രവചന മൂല്യം മാതൃകയാക്കുന്നു. വേരിയബിളുകളും പ്രവചനവും തമ്മിലുള്ള ബന്ധം നിർണ്ണയിക്കാൻ ഇത് കൂടുതലും ഉപയോഗിക്കുന്നു. വ്യത്യസ്‌ത റിഗ്രഷൻ മോഡലുകൾ ആശ്രിതവും സ്വതന്ത്രവുമായ വേരിയബിളുകൾക്കിടയിൽ അവർ വിലയിരുത്തുന്ന കണക്ഷന്റെ തരത്തിലും അതുപോലെ ഉപയോഗിക്കുന്ന സ്വതന്ത്ര വേരിയബിളുകളുടെ എണ്ണത്തിലും വ്യത്യാസപ്പെട്ടിരിക്കുന്നു. sklearn ഉപയോഗിച്ച് നമുക്ക് ലീനിയർ റിഗ്രഷൻ മോഡൽ ഇനിപ്പറയുന്ന രീതിയിൽ സൃഷ്ടിക്കാൻ കഴിയും:

ലീനിയർ റിഗ്രഷൻ

4. ലോജിസ്റ്റിക് റിഗ്രഷൻ

ഒരു പൊതു വർഗ്ഗീകരണ സമീപനം ലോജിസ്റ്റിക് റിഗ്രഷൻ ആണ്. ഇത് പോളിനോമിയലും ലീനിയർ റിഗ്രഷനും ഉള്ള ഒരേ കുടുംബത്തിലാണ്, ലീനിയർ ക്ലാസിഫയർ കുടുംബത്തിൽ പെടുന്നു. ലോജിസ്റ്റിക് റിഗ്രഷന്റെ കണ്ടെത്തലുകൾ മനസ്സിലാക്കാൻ ലളിതവും വേഗത്തിൽ കണക്കുകൂട്ടാൻ കഴിയുന്നതുമാണ്. ലീനിയർ റിഗ്രഷൻ പോലെ തന്നെ, ലോജിസ്റ്റിക് റിഗ്രഷൻ ഒരു സൂപ്പർവൈസ്ഡ് റിഗ്രഷൻ ടെക്നിക്കാണ്. ഔട്ട്‌പുട്ട് വേരിയബിൾ വർഗ്ഗീയമാണ്, അത് മാത്രമാണ് വ്യത്യാസം. ഒരു രോഗിക്ക് ഹൃദയ സംബന്ധമായ അസുഖമുണ്ടോ ഇല്ലയോ എന്ന് നിർണ്ണയിക്കാനാകും.

ലോജിസ്റ്റിക് റിഗ്രഷൻ ഉപയോഗിച്ച് സ്പാം കണ്ടെത്തൽ പോലുള്ള വിവിധ വർഗ്ഗീകരണ പ്രശ്നങ്ങൾ പരിഹരിക്കപ്പെട്ടേക്കാം. പ്രമേഹം പ്രവചിക്കൽ, ഒരു ഉപഭോക്താവ് ഒരു നിർദ്ദിഷ്ട ഉൽപ്പന്നം വാങ്ങുമോ അല്ലെങ്കിൽ ഒരു എതിരാളിയിലേക്ക് മാറുമോ എന്ന് നിർണ്ണയിക്കുക, ഒരു ഉപയോക്താവ് ഒരു നിർദ്ദിഷ്ട മാർക്കറ്റിംഗ് ലിങ്കിൽ ക്ലിക്ക് ചെയ്യുമോ എന്ന് നിർണ്ണയിക്കുക, കൂടാതെ മറ്റ് നിരവധി സാഹചര്യങ്ങൾ ചില ഉദാഹരണങ്ങൾ മാത്രമാണ്.

ലോജിസ്റ്റിക് റിഗ്രഷൻ

5. തീരുമാന വൃക്ഷം

ഏറ്റവും ശക്തവും വ്യാപകമായി ഉപയോഗിക്കുന്നതുമായ വർഗ്ഗീകരണവും പ്രവചന സാങ്കേതികതയും ഡിസിഷൻ ട്രീ ആണ്. ഒരു ഫ്ലോചാർട്ട് പോലെ കാണപ്പെടുന്ന ഒരു ട്രീ ഘടനയാണ് ഡിസിഷൻ ട്രീ, ഓരോ ആന്തരിക നോഡും ഒരു ആട്രിബ്യൂട്ടിലെ ഒരു ടെസ്റ്റിനെ പ്രതിനിധീകരിക്കുന്നു, ഓരോ ശാഖയും ടെസ്റ്റിന്റെ നിഗമനത്തെ പ്രതിനിധീകരിക്കുന്നു, ഓരോ ലീഫ് നോഡും (ടെർമിനൽ നോഡ്) ഒരു ക്ലാസ് ലേബൽ കൈവശം വയ്ക്കുന്നു.

ആശ്രിത വേരിയബിളുകൾക്ക് സ്വതന്ത്ര വേരിയബിളുകളുമായി ഒരു രേഖീയ ബന്ധം ഇല്ലെങ്കിൽ, അതായത് ലീനിയർ റിഗ്രഷൻ ശരിയായ കണ്ടെത്തലുകൾ ഉണ്ടാക്കാത്തപ്പോൾ, ഡിസിഷൻ ട്രീകൾ പ്രയോജനകരമാണ്. ഡിസിഷൻ ട്രീ റിഗ്രഷൻ() ഒബ്ജക്റ്റ് റിഗ്രഷനുവേണ്ടി ഡിസിഷൻ ട്രീ ഉപയോഗിക്കുന്നതിന് സമാനമായ രീതിയിൽ ഉപയോഗിക്കാം.

തീരുമാനം

6. ക്രമരഹിത വനം

റാൻഡം ഫോറസ്റ്റ് എന്നത് എ മെഷീൻ ലേണിംഗ് റിഗ്രഷൻ, വർഗ്ഗീകരണ പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിനുള്ള സമീപനം. സങ്കീർണ്ണമായ പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിന് ഒന്നിലധികം ക്ലാസിഫയറുകൾ സംയോജിപ്പിക്കുന്ന ഒരു സാങ്കേതികതയാണ് ഇത് സമന്വയ പഠനം ഉപയോഗിക്കുന്നു. ഒരു റാൻഡം ഫോറസ്റ്റ് രീതി ഒരു വലിയ സംഖ്യ തീരുമാന മരങ്ങൾ ചേർന്നതാണ്. വായ്പാ അപേക്ഷകളെ തരംതിരിക്കാനും വഞ്ചനാപരമായ പെരുമാറ്റം കണ്ടെത്താനും രോഗം പൊട്ടിപ്പുറപ്പെടുന്നത് മുൻകൂട്ടി കാണാനും ഇത് ഉപയോഗിച്ചേക്കാം.

റാൻഡം ഫോറസ്റ്റ്

7. കൺഫ്യൂഷൻ മാട്രിക്സ്

വർഗ്ഗീകരണ മോഡൽ പ്രകടനത്തെ വിവരിക്കാൻ ഉപയോഗിക്കുന്ന ഒരു പട്ടികയാണ് കൺഫ്യൂഷൻ മാട്രിക്സ്. കൺഫ്യൂഷൻ മാട്രിക്സ് പരിശോധിക്കാൻ ഇനിപ്പറയുന്ന നാല് വാക്കുകൾ ഉപയോഗിക്കുന്നു:

യഥാർത്ഥ പോസിറ്റീവ്: മോഡൽ അനുകൂലമായ ഒരു ഫലം പ്രവചിച്ചുവെന്നും അത് ശരിയായിരുന്നുവെന്നും ഇത് സൂചിപ്പിക്കുന്നു.
യഥാർത്ഥ നെഗറ്റീവ്: മോഡൽ ഒരു മോശം ഫലം പ്രവചിച്ചുവെന്നും അത് ശരിയായിരുന്നുവെന്നും ഇത് സൂചിപ്പിക്കുന്നു.
തെറ്റായ പോസിറ്റീവ്: മോഡൽ അനുകൂലമായ ഒരു ഫലം പ്രതീക്ഷിച്ചിരുന്നുവെങ്കിലും അത് ശരിക്കും നെഗറ്റീവ് ആയിരുന്നു എന്നാണ് ഇത് സൂചിപ്പിക്കുന്നത്.
തെറ്റായ നെഗറ്റീവ്: മോഡൽ ഒരു നെഗറ്റീവ് ഫലം പ്രതീക്ഷിച്ചിരുന്നു, അതേസമയം ഫലം ശരിക്കും പോസിറ്റീവ് ആയിരുന്നു എന്ന് ഇത് സൂചിപ്പിക്കുന്നു.

ആശയക്കുഴപ്പം മാട്രിക്സ് ഫോട്ടോ

കൺഫ്യൂഷൻ മാട്രിക്സ് നടപ്പിലാക്കൽ:

കൺഫ്യൂഷൻ മെട്രിക്‌സ്

ആരേലും

ഉപയോഗിക്കുന്നത് ലളിതമാണ്.
ഉപഭോക്തൃ പെരുമാറ്റ പ്രവചനം, ന്യൂറോ ഇമേജ് വികസനം മുതലായവ പോലുള്ള യഥാർത്ഥ ലോക ലക്ഷ്യങ്ങൾ നിറവേറ്റുന്ന Scikit-ലേൺ പാക്കേജ് വളരെ അനുയോജ്യവും ഉപയോഗപ്രദവുമാണ്.
അൽഗോരിതങ്ങൾ അവരുടെ പ്ലാറ്റ്‌ഫോമുകളുമായി ബന്ധിപ്പിക്കാൻ ആഗ്രഹിക്കുന്ന ഉപയോക്താക്കൾക്ക് Scikit-learn വെബ്‌സൈറ്റിൽ വിശദമായ API ഡോക്യുമെന്റേഷൻ കണ്ടെത്താനാകും.
നിരവധി രചയിതാക്കളും സഹകാരികളും ലോകമെമ്പാടുമുള്ള ഒരു വലിയ ഓൺലൈൻ കമ്മ്യൂണിറ്റിയും Scikit-ലേൺ അപ് ടു ഡേറ്റ് ആയി നിലനിർത്തുകയും പിന്തുണയ്ക്കുകയും ചെയ്യുന്നു.

ബാക്ക്ട്രെയിസ്കൊണ്ടു്

ആഴത്തിലുള്ള പഠനത്തിന് അനുയോജ്യമായ ഓപ്ഷനല്ല ഇത്.

തീരുമാനം

ഓരോ ഡാറ്റാ സയന്റിസ്റ്റിനും ശക്തമായ ഗ്രാഹ്യവും കുറച്ച് അനുഭവവും ഉള്ള ഒരു നിർണായക പാക്കേജാണ് Scikit-learn. sklearn ഉപയോഗിച്ച് ഡാറ്റ കൈകാര്യം ചെയ്യാൻ ഈ ഗൈഡ് നിങ്ങളെ സഹായിക്കും. നിങ്ങളുടെ ഡാറ്റാ സയൻസ് സാഹസികതയിലൂടെ പുരോഗമിക്കുമ്പോൾ നിങ്ങൾ കണ്ടെത്തുന്ന സ്കിക്കിറ്റ്-ലേണിന്റെ നിരവധി കഴിവുകൾ ഉണ്ട്. അഭിപ്രായങ്ങളിൽ നിങ്ങളുടെ ചിന്തകൾ പങ്കിടുക.

സ്കിറ്റ്-ലേണിലേക്കുള്ള ഒരു തുടക്കക്കാരന്റെ ഗൈഡ്

എന്താണ് സ്കിക്കിറ്റ്-പഠിക്കുക?