ஸ்கிகிட்-கற்க ஒரு தொடக்க வழிகாட்டி

பொருளடக்கம்[மறை][காட்டு]

Scikit-Learn என்றால் என்ன?
ஸ்கிகிட்-லேர்ன் லைப்ரரியின் பயன்பாடுகள்+-
Scikit-learn ஐ நிறுவுகிறது
அம்சங்கள் +-
நன்மை
பாதகம்
தீர்மானம்

நீங்கள் ஒரு பைதான் புரோகிராமராக இருந்தால் அல்லது உற்பத்தி அமைப்பில் இயந்திரக் கற்றலை அறிமுகப்படுத்துவதற்கு சக்திவாய்ந்த கருவித்தொகுப்பைத் தேடுகிறீர்களானால், Scikit-learn என்பது நீங்கள் பார்க்க வேண்டிய ஒரு நூலகமாகும்.

நீங்கள் மெஷின் லேர்னிங்கிற்கு புதியவராக இருந்தாலும், விரைவாக எழுந்து இயங்க விரும்பினாலும், அல்லது மிகவும் புதுப்பித்த ML ஆராய்ச்சிக் கருவியைப் பயன்படுத்த விரும்பினாலும், Scikit-learn நன்கு ஆவணப்படுத்தப்பட்டுள்ளது மற்றும் பயன்படுத்த எளிதானது.

இது ஒரு சில வரிக் குறியீட்டில் மட்டுமே முன்கணிப்பு தரவு மாதிரியை உருவாக்க உங்களை அனுமதிக்கிறது, பின்னர் அந்த மாதிரியை உங்கள் தரவை உயர்நிலை நூலகமாகப் பயன்படுத்துகிறது. இது நெகிழ்வானது மற்றும் மற்றவர்களுடன் நன்றாக வேலை செய்கிறது பைதான் நூலகங்கள் விளக்கப்படத்திற்கான Matplotlib, வரிசை வெக்டரைசேஷனுக்கான NumPy மற்றும் தரவு காட்சிப்படுத்தலுக்கான பாண்டாக்கள் போன்றவை.

இந்த வழிகாட்டியில், அது என்ன, அதை எவ்வாறு பயன்படுத்தலாம், அதன் நன்மைகள் மற்றும் தீமைகள் ஆகியவற்றைப் பற்றிய அனைத்தையும் நீங்கள் கண்டுபிடிப்பீர்கள்.

என்ன ஸ்கிக்கிட்-கற்க?

ஸ்கிகிட்-லெர்ன் (ஸ்க்லேர்ன் என்றும் அழைக்கப்படுகிறது) பலவிதமான புள்ளிவிவர மாதிரிகள் மற்றும் இயந்திர கற்றலை வழங்குகிறது. பெரும்பாலான தொகுதிகள் போலல்லாமல், sklearn ஆனது C ஐ விட Python இல் உருவாக்கப்பட்டுள்ளது. பைத்தானில் உருவாக்கப்பட்ட போதிலும், sklearn இன் செயல்திறன் உயர் செயல்திறன் கொண்ட நேரியல் இயற்கணிதம் மற்றும் வரிசை செயல்பாடுகளுக்கு NumPy ஐப் பயன்படுத்துவதே காரணமாகும்.

கூகிளின் சம்மர் ஆஃப் கோட் திட்டத்தின் ஒரு பகுதியாக ஸ்கிகிட்-லேர்ன் உருவாக்கப்பட்டது, அதன் பின்னர் உலகம் முழுவதும் உள்ள மில்லியன் கணக்கான பைதான் மைய தரவு விஞ்ஞானிகளின் வாழ்க்கையை எளிதாக்கியுள்ளது. இந்தத் தொடரின் இந்தப் பகுதி நூலகத்தை வழங்குவதிலும், ஒரு உறுப்பில் கவனம் செலுத்துவதிலும் கவனம் செலுத்துகிறது - தரவுத்தொகுப்பு உருமாற்றங்கள், கணிப்பு மாதிரியை உருவாக்குவதற்கு முன் எடுக்க வேண்டிய முக்கிய மற்றும் முக்கியமான படியாகும்.

ஸ்க்லேர்ன்

நூலகம் SciPy (அறிவியல் பைதான்) அடிப்படையிலானது, நீங்கள் ஸ்கிகிட்-லெர்னைப் பயன்படுத்துவதற்கு முன் அதை நிறுவ வேண்டும். இந்த அடுக்கில் பின்வரும் உருப்படிகள் உள்ளன:

NumPy: பைத்தானின் நிலையான n-பரிமாண வரிசை தொகுப்பு
SciPy: இது அறிவியல் கம்ப்யூட்டிங்கிற்கான ஒரு அடிப்படை தொகுப்பு ஆகும்
பாண்டாக்கள்: தரவு கட்டமைப்புகள் மற்றும் பகுப்பாய்வு
Matplotlib: இது ஒரு சக்திவாய்ந்த 2D/3D சதி நூலகம்
சிம்பி: குறியீட்டு கணிதம்
IPython: மேம்படுத்தப்பட்ட ஊடாடும் பணியகம்

ஸ்கிகிட்-லேர்ன் லைப்ரரியின் பயன்பாடுகள்

Scikit-learn என்பது அதிநவீன தரவு பகுப்பாய்வு மற்றும் சுரங்க அம்சங்களைக் கொண்ட ஒரு திறந்த மூல பைதான் தொகுப்பாகும். இது உங்கள் தரவு அறிவியல் திட்டங்களில் இருந்து அதிகப் பலனைப் பெற உதவும் பல உள்ளமைக்கப்பட்ட அல்காரிதங்களுடன் வருகிறது. Scikit-learn நூலகம் பின்வரும் வழிகளில் பயன்படுத்தப்படுகிறது.

1. பின்னடைவு

பின்னடைவு பகுப்பாய்வு என்பது இரண்டு அல்லது அதற்கு மேற்பட்ட மாறிகளுக்கு இடையிலான தொடர்பை பகுப்பாய்வு செய்வதற்கும் புரிந்து கொள்வதற்கும் ஒரு புள்ளிவிவர நுட்பமாகும். பின்னடைவு பகுப்பாய்வு செய்யப் பயன்படுத்தப்படும் முறை, எந்த உறுப்புகள் பொருத்தமானவை, எது புறக்கணிக்கப்படலாம் மற்றும் அவை எவ்வாறு தொடர்பு கொள்கின்றன என்பதைத் தீர்மானிக்க உதவுகிறது. எடுத்துக்காட்டாக, பின்னடைவு நுட்பங்கள், பங்கு விலைகளின் நடத்தையை நன்கு புரிந்துகொள்ள பயன்படுத்தப்படலாம்.

பின்னடைவு வழிமுறைகளில் பின்வருவன அடங்கும்:

நேரியல் பின்னடைவு
ரிட்ஜ் பின்னடைவு
லாசோ பின்னடைவு
முடிவு மரம் பின்னடைவு
சீரற்ற காடு
ஆதரவு திசையன் இயந்திரங்கள் (SVM)

2. வகைப்பாடு

வகைப்பாடு முறை என்பது மேற்பார்வையிடப்பட்ட கற்றல் அணுகுமுறையாகும், இது புதிய அவதானிப்புகளின் வகையை அடையாளம் காண பயிற்சி தரவைப் பயன்படுத்துகிறது. வகைப்படுத்தலில் ஒரு அல்காரிதம் கொடுக்கப்பட்டவற்றிலிருந்து கற்றுக்கொள்கிறது தரவுத்தொகுப்பைக் அல்லது அவதானிப்புகள் பின்னர் கூடுதல் அவதானிப்புகளை பல வகுப்புகள் அல்லது குழுக்களில் ஒன்றாக வகைப்படுத்துகிறது. எடுத்துக்காட்டாக, மின்னஞ்சல் தகவல்தொடர்புகளை ஸ்பேம் அல்லது இல்லை என வகைப்படுத்த அவற்றைப் பயன்படுத்தலாம்.

வகைப்படுத்தல் வழிமுறைகளில் பின்வருவன அடங்கும்:

லாஜிஸ்டிக் பின்னடைவு
கே-அருகில் உள்ளவர்கள்
ஆதரவு திசையன் இயந்திரம்
முடிவு மரம்
சீரற்ற காடு

3. கிளஸ்டரிங்

Scikit-learn இல் உள்ள க்ளஸ்டரிங் அல்காரிதம்கள், ஒரே மாதிரியான பண்புகளைக் கொண்ட தரவைத் தானாகவே செட்களாக ஒழுங்கமைக்கப் பயன்படுகிறது. க்ளஸ்டரிங் என்பது, ஒரே குழுவில் உள்ளவர்கள் மற்ற குழுக்களில் உள்ளவர்களுடன் மிகவும் ஒத்ததாக இருக்கும் வகையில், பொருட்களைக் குழுவாக்கும் செயல்முறையாகும். எடுத்துக்காட்டாக, வாடிக்கையாளர் தரவு அவர்களின் இருப்பிடத்தின் அடிப்படையில் பிரிக்கப்படலாம்.

கிளஸ்டரிங் அல்காரிதம்கள் பின்வருவனவற்றை உள்ளடக்குகின்றன:

DB-SCAN
கே-அர்த்தம்
மினி-பேட்ச் கே-அர்த்தம்
ஸ்பெக்ட்ரல் கிளஸ்டரிங்

4. மாதிரி தேர்வு

தரவு அறிவியல் முன்முயற்சிகளில் பயன்படுத்துவதற்கு உகந்த அளவுருக்கள் மற்றும் மாதிரிகளை ஒப்பிடுவதற்கும், சரிபார்ப்பதற்கும் மற்றும் தேர்ந்தெடுப்பதற்கும் மாதிரி தேர்வு வழிமுறைகள் முறைகளை வழங்குகின்றன. தரவின் அடிப்படையில், மாதிரித் தேர்வு என்பது வேட்பாளர் மாதிரிகளின் குழுவிலிருந்து புள்ளிவிவர மாதிரியைத் தேர்ந்தெடுப்பதில் உள்ள சிக்கலாகும். மிக அடிப்படையான சூழ்நிலைகளில், முன்பே இருக்கும் தரவு சேகரிப்பு கணக்கில் எடுத்துக்கொள்ளப்படுகிறது. இருப்பினும், சோதனைகளின் வடிவமைப்பையும் பணியில் சேர்க்கலாம், இதனால் பெறப்பட்ட தரவு மாதிரி தேர்வு சிக்கலுக்கு மிகவும் பொருத்தமானது.

அளவுருக்களை சரிசெய்வதன் மூலம் துல்லியத்தை மேம்படுத்தக்கூடிய மாதிரி தேர்வு தொகுதிகள் பின்வருமாறு:

மறு சரிபார்த்தல்
கட்டம் தேடல்
மெட்ரிக்ஸ்

5. பரிமாணக் குறைப்பு

உயர் பரிமாண இடத்திலிருந்து குறைந்த பரிமாண இடைவெளிக்கு தரவை மாற்றுவது, இதன் மூலம் குறைந்த பரிமாண பிரதிநிதித்துவம் அசல் தரவின் சில குறிப்பிடத்தக்க அம்சங்களை பாதுகாக்கிறது, இது அதன் உள்ளார்ந்த பரிமாணத்திற்கு மிக அருகில் உள்ளது, இது பரிமாணக் குறைப்பு என அழைக்கப்படுகிறது. பரிமாணத்தை குறைக்கும் போது பகுப்பாய்வுக்கான சீரற்ற மாறிகளின் எண்ணிக்கை குறைக்கப்படுகிறது. வெளிப்புற தரவு, எடுத்துக்காட்டாக, காட்சிப்படுத்தல் செயல்திறனை மேம்படுத்த கருதப்படாது.

பரிமாணக் குறைப்பு அல்காரிதம் பின்வருவனவற்றை உள்ளடக்கியது:

அம்சம் தேர்வு
முதன்மை உபகரண பகுப்பாய்வு (பிசிஏ)

Scikit-learn ஐ நிறுவுகிறது

Scikit-learn ஐப் பயன்படுத்துவதற்கு முன் NumPy, SciPy, Matplotlib, IPython, Sympy மற்றும் Pandas ஆகியவை நிறுவப்பட வேண்டும். கன்சோலில் இருந்து பிப்பைப் பயன்படுத்தி அவற்றை நிறுவுவோம் (விண்டோஸுக்கு மட்டுமே வேலை செய்யும்).

நிறுவ

தேவையான நூலகங்களை நிறுவிவிட்டதால் இப்போது Scikit-learn ஐ நிறுவுவோம்.

Sklearn ஐ நிறுவுகிறது

அம்சங்கள்

Scikit-learn, சில சமயங்களில் sklearn என அழைக்கப்படுகிறது, இது இயந்திர கற்றல் மாதிரிகள் மற்றும் புள்ளியியல் மாதிரிகளை செயல்படுத்துவதற்கான ஒரு பைதான் கருவித்தொகுப்பாகும். பின்னடைவு, வகைப்பாடு மற்றும் கிளஸ்டரிங் ஆகியவற்றிற்கான பல இயந்திர கற்றல் மாதிரிகளை உருவாக்கவும், இந்த மாதிரிகளை மதிப்பிடுவதற்கான புள்ளியியல் கருவிகளை உருவாக்கவும் இதைப் பயன்படுத்தலாம். இதில் பரிமாணக் குறைப்பு, அம்சத் தேர்வு, அம்சம் பிரித்தெடுத்தல், குழும அணுகுமுறைகள் மற்றும் உள்ளமைக்கப்பட்ட தரவுத்தொகுப்புகள் ஆகியவையும் அடங்கும். இந்த குணங்கள் ஒவ்வொன்றையும் ஒரு நேரத்தில் ஆராய்வோம்.

1. தரவுத்தொகுப்புகளை இறக்குமதி செய்தல்

Scikit-learn ஆனது கருவிழி தரவுத்தொகுப்பு, வீட்டு விலை தரவுத்தொகுப்பு, டைட்டானிக் தரவுத்தொகுப்பு மற்றும் பல முன் கட்டப்பட்ட தரவுத்தொகுப்புகளை உள்ளடக்கியது. இந்த தரவுத்தொகுப்புகளின் முக்கிய நன்மைகள் என்னவென்றால், அவை எளிதில் புரிந்துகொள்ளக்கூடியவை மற்றும் ML மாதிரிகளை உடனடியாக உருவாக்கப் பயன்படும். இந்த தரவுத்தொகுப்புகள் புதியவர்களுக்கு ஏற்றது. இதேபோல், கூடுதல் தரவுத்தொகுப்புகளை இறக்குமதி செய்ய நீங்கள் sklearn ஐப் பயன்படுத்தலாம். இதேபோல், கூடுதல் தரவுத்தொகுப்புகளை இறக்குமதி செய்ய இதைப் பயன்படுத்தலாம்.

தரவுத்தொகுப்பைக்

2. பயிற்சி மற்றும் சோதனைக்கான தரவுத்தொகுப்பைப் பிரித்தல்

Sklearn ஆனது தரவுத்தொகுப்பை பயிற்சி மற்றும் சோதனைப் பிரிவுகளாகப் பிரிக்கும் திறனை உள்ளடக்கியது. முன்கணிப்பு செயல்திறனின் பாரபட்சமற்ற மதிப்பீட்டிற்கு தரவுத்தொகுப்பைப் பிரிப்பது அவசியம். ரயில் மற்றும் சோதனை தரவுத்தொகுப்புகளில் நமது தரவு எவ்வளவு சேர்க்கப்பட வேண்டும் என்பதைக் குறிப்பிடலாம். ரயில் சோதனைப் பிரிவைப் பயன்படுத்தி தரவுத்தொகுப்பைப் பிரித்தோம், அதாவது ரயில் பெட்டியில் 80% தரவு மற்றும் சோதனைத் தொகுப்பில் 20% இருக்கும். தரவுத்தொகுப்பை பின்வருமாறு பிரிக்கலாம்:

பிரித்தல்

3. நேரியல் பின்னடைவு

நேரியல் பின்னடைவு என்பது மேற்பார்வையிடப்பட்ட கற்றல் அடிப்படையிலான இயந்திர கற்றல் நுட்பமாகும். இது ஒரு பின்னடைவு வேலையைச் செய்கிறது. சுயாதீன மாறிகள் அடிப்படையில், பின்னடைவு மாதிரிகள் ஒரு இலக்கு முன்கணிப்பு மதிப்பு. மாறிகள் மற்றும் கணிப்பு ஆகியவற்றுக்கு இடையேயான தொடர்பைத் தீர்மானிக்க இது பெரும்பாலும் பயன்படுத்தப்படுகிறது. வெவ்வேறு பின்னடைவு மாதிரிகள் சார்பு மற்றும் சார்பற்ற மாறிகள் இடையே மதிப்பிடும் இணைப்பு வகை மற்றும் பயன்படுத்தப்படும் சுயாதீன மாறிகளின் எண்ணிக்கை ஆகியவற்றின் அடிப்படையில் வேறுபடுகின்றன. sklearn ஐப் பயன்படுத்தி நாம் லீனியர் ரிக்ரஷன் மாதிரியை பின்வருமாறு உருவாக்கலாம்:

நேரியல் பின்னடைவு

4. லாஜிஸ்டிக் பின்னடைவு

ஒரு பொதுவான வகைப்படுத்தல் அணுகுமுறை லாஜிஸ்டிக் பின்னடைவு ஆகும். இது பல்லுறுப்புக்கோவை மற்றும் நேரியல் பின்னடைவு போன்ற ஒரே குடும்பத்தில் உள்ளது மற்றும் நேரியல் வகைப்படுத்தி குடும்பத்தைச் சேர்ந்தது. லாஜிஸ்டிக் பின்னடைவின் கண்டுபிடிப்புகள் புரிந்துகொள்வதற்கு எளிமையானவை மற்றும் விரைவாக கணக்கிடக்கூடியவை. நேரியல் பின்னடைவைப் போலவே, லாஜிஸ்டிக் பின்னடைவு என்பது மேற்பார்வையிடப்பட்ட பின்னடைவு நுட்பமாகும். வெளியீட்டு மாறி வகைப்படுத்தப்பட்டுள்ளது, அதுதான் வித்தியாசம். ஒரு நோயாளிக்கு இதய நோய் இருக்கிறதா இல்லையா என்பதை இது தீர்மானிக்க முடியும்.

ஸ்பேம் கண்டறிதல் போன்ற பல்வேறு வகைப்பாடு சிக்கல்கள் லாஜிஸ்டிக் பின்னடைவைப் பயன்படுத்தி தீர்க்கப்படலாம். நீரிழிவு நோய் முன்னறிவிப்பு, ஒரு நுகர்வோர் ஒரு குறிப்பிட்ட பொருளை வாங்குவாரா அல்லது போட்டியாளருக்கு மாறுவாரா என்பதை தீர்மானித்தல், ஒரு குறிப்பிட்ட மார்க்கெட்டிங் இணைப்பை ஒரு பயனர் கிளிக் செய்வாரா என்பதை தீர்மானித்தல், மேலும் பல காட்சிகள் ஒரு சில எடுத்துக்காட்டுகள்.

லாஜிஸ்டிக் பின்னடைவு

5. முடிவு மரம்

மிகவும் சக்திவாய்ந்த மற்றும் பரவலாகப் பயன்படுத்தப்படும் வகைப்பாடு மற்றும் கணிப்பு நுட்பம் முடிவு மரமாகும். ஒரு முடிவு மரம் என்பது ஒரு பாய்வு விளக்கப்படம் போல தோற்றமளிக்கும் ஒரு மர அமைப்பாகும், ஒவ்வொரு உள் முனையும் ஒரு பண்புக்கூறில் ஒரு சோதனையைக் குறிக்கிறது, ஒவ்வொரு கிளையும் சோதனையின் முடிவைக் குறிக்கிறது, மேலும் ஒவ்வொரு இலை முனையும் (டெர்மினல் முனை) ஒரு வகுப்பு லேபிளைக் கொண்டிருக்கும்.

சார்பு மாறிகள் சார்பற்ற மாறிகளுடன் நேரியல் உறவைக் கொண்டிருக்கவில்லை என்றால், அதாவது நேரியல் பின்னடைவு சரியான கண்டுபிடிப்புகளை உருவாக்காதபோது, முடிவு மரங்கள் நன்மை பயக்கும். DecisionTreeRegression() பொருள் பின்னடைவுக்கு ஒரு முடிவு மரத்தைப் பயன்படுத்த அதே வழியில் பயன்படுத்தப்படலாம்.

முடிவு மரம்

6. சீரற்ற காடு

ஒரு சீரற்ற காடு என்பது a இயந்திர கற்றல் பின்னடைவு மற்றும் வகைப்பாடு சிக்கல்களைத் தீர்ப்பதற்கான அணுகுமுறை. இது குழும கற்றலைப் பயன்படுத்துகிறது, இது சிக்கலான சிக்கல்களைத் தீர்க்க பல வகைப்படுத்திகளை இணைக்கும் ஒரு நுட்பமாகும். ஒரு சீரற்ற வன முறையானது அதிக எண்ணிக்கையிலான முடிவு மரங்களால் ஆனது. கடன் விண்ணப்பங்களை வகைப்படுத்தவும், மோசடி நடத்தைகளை கண்டறியவும், நோய் வெடிப்புகளை எதிர்பார்க்கவும் இது பயன்படுத்தப்படலாம்.

சீரற்ற காடு

7. குழப்ப மேட்ரிக்ஸ்

ஒரு குழப்ப அணி என்பது வகைப்பாடு மாதிரி செயல்திறனை விவரிக்கப் பயன்படும் அட்டவணை. குழப்ப மேட்ரிக்ஸை ஆராய பின்வரும் நான்கு சொற்கள் பயன்படுத்தப்படுகின்றன:

உண்மை நேர்மறை: இது மாதிரி ஒரு சாதகமான விளைவைக் கணித்தது மற்றும் அது சரியானது என்பதைக் குறிக்கிறது.
உண்மை எதிர்மறை: இது மாதிரி ஒரு மோசமான விளைவைக் கணித்தது மற்றும் அது சரியானது என்பதைக் குறிக்கிறது.
தவறான நேர்மறை: இது மாதிரி ஒரு சாதகமான விளைவை எதிர்பார்த்தது ஆனால் அது உண்மையில் எதிர்மறையானது என்பதைக் குறிக்கிறது.
தவறான எதிர்மறை: இது மாதிரி எதிர்மறையான விளைவை எதிர்பார்க்கிறது என்பதைக் குறிக்கிறது, அதே நேரத்தில் விளைவு உண்மையில் நேர்மறையானது.

குழப்பம் மேட்ரிக்ஸ் புகைப்படம்

குழப்ப மேட்ரிக்ஸ் செயல்படுத்தல்:

குழப்ப அளவீடுகள்

நன்மை

இது பயன்படுத்த எளிதானது.
Scikit-learn தொகுப்பு மிகவும் மாற்றியமைக்கக்கூடியது மற்றும் பயனுள்ளது, நுகர்வோர் நடத்தை முன்கணிப்பு, நியூரோஇமேஜ் மேம்பாடு மற்றும் பல போன்ற நிஜ-உலக இலக்குகளை வழங்குகிறது.
அல்காரிதம்களை தங்கள் தளங்களுடன் இணைக்க விரும்பும் பயனர்கள் Scikit-learn இணையதளத்தில் விரிவான API ஆவணங்களைக் காணலாம்.
ஏராளமான ஆசிரியர்கள், கூட்டுப்பணியாளர்கள் மற்றும் உலகளாவிய ஆன்லைன் சமூகத்தின் ஆதரவு மற்றும் Scikit-கற்றை புதுப்பித்த நிலையில் வைத்திருங்கள்.

பாதகம்

ஆழ்ந்த ஆய்வுக்கு இது சிறந்த வழி அல்ல.

தீர்மானம்

Scikit-learn என்பது ஒவ்வொரு தரவு விஞ்ஞானியும் ஒரு வலுவான பிடிப்பு மற்றும் சில அனுபவங்களைப் பெறுவதற்கான ஒரு முக்கியமான தொகுப்பாகும். sklearn ஐப் பயன்படுத்தி தரவு கையாளுதலுக்கு இந்த வழிகாட்டி உங்களுக்கு உதவும். உங்கள் தரவு அறிவியல் சாகசத்தின் மூலம் நீங்கள் முன்னேறும் போது, Scikit-learn இன் இன்னும் பல திறன்கள் உள்ளன. கருத்துகளில் உங்கள் எண்ணங்களைப் பகிர்ந்து கொள்ளுங்கள்.

ஸ்கிகிட்-கற்க ஒரு தொடக்க வழிகாட்டி

என்ன ஸ்கிக்கிட்-கற்க?