ಸ್ಕಿಕಿಟ್-ಲರ್ನ್‌ಗೆ ಆರಂಭಿಕರ ಮಾರ್ಗದರ್ಶಿ

ಪರಿವಿಡಿ[ಮರೆಮಾಡಿ][ತೋರಿಸಿ]

ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಎಂದರೇನು?
ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಲೈಬ್ರರಿಯ ಅಪ್ಲಿಕೇಶನ್‌ಗಳು+-
Scikit-Learn ಅನ್ನು ಸ್ಥಾಪಿಸಲಾಗುತ್ತಿದೆ
ವೈಶಿಷ್ಟ್ಯಗಳು +-
ಪರ
ಕಾನ್ಸ್
ತೀರ್ಮಾನ

ನೀವು ಪೈಥಾನ್ ಪ್ರೋಗ್ರಾಮರ್ ಆಗಿದ್ದರೆ ಅಥವಾ ಉತ್ಪಾದನಾ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆಯನ್ನು ಪರಿಚಯಿಸಲು ನೀವು ಶಕ್ತಿಯುತ ಟೂಲ್‌ಕಿಟ್‌ಗಾಗಿ ಹುಡುಕುತ್ತಿದ್ದರೆ, Scikit-learn ನೀವು ಪರಿಶೀಲಿಸಬೇಕಾದ ಗ್ರಂಥಾಲಯವಾಗಿದೆ.

Scikit-learn ಉತ್ತಮವಾಗಿ ದಾಖಲಿಸಲಾಗಿದೆ ಮತ್ತು ಬಳಸಲು ಸರಳವಾಗಿದೆ, ನೀವು ಯಂತ್ರ ಕಲಿಕೆಗೆ ಹೊಸಬರಾಗಿದ್ದರೂ, ತ್ವರಿತವಾಗಿ ಎದ್ದೇಳಲು ಮತ್ತು ಚಾಲನೆ ಮಾಡಲು ಬಯಸುತ್ತೀರಾ ಅಥವಾ ಹೆಚ್ಚು ನವೀಕೃತ ML ಸಂಶೋಧನಾ ಸಾಧನವನ್ನು ಬಳಸಲು ಬಯಸುತ್ತೀರಾ.

ಕೋಡ್‌ನ ಕೆಲವೇ ಸಾಲುಗಳಲ್ಲಿ ಭವಿಷ್ಯಸೂಚಕ ಡೇಟಾ ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಲು ಇದು ನಿಮ್ಮನ್ನು ಅನುಮತಿಸುತ್ತದೆ ಮತ್ತು ಉನ್ನತ ಮಟ್ಟದ ಲೈಬ್ರರಿಯಾಗಿ ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಸರಿಹೊಂದಿಸಲು ಆ ಮಾದರಿಯನ್ನು ಬಳಸುತ್ತದೆ. ಇದು ಹೊಂದಿಕೊಳ್ಳುವ ಮತ್ತು ಇತರರೊಂದಿಗೆ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಪೈಥಾನ್ ಗ್ರಂಥಾಲಯಗಳು ಚಾರ್ಟಿಂಗ್‌ಗಾಗಿ Matplotlib, ಅರೇ ವೆಕ್ಟರೈಸೇಶನ್‌ಗಾಗಿ NumPy ಮತ್ತು ಡೇಟಾ ದೃಶ್ಯೀಕರಣಕ್ಕಾಗಿ ಪಾಂಡಾಗಳಂತೆ.

ಈ ಮಾರ್ಗದರ್ಶಿಯಲ್ಲಿ, ಅದರ ಸಾಧಕ-ಬಾಧಕಗಳ ಜೊತೆಗೆ ಅದು ಏನು, ನೀವು ಅದನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು ಎಂಬುದರ ಕುರಿತು ಎಲ್ಲವನ್ನೂ ನೀವು ಕಂಡುಕೊಳ್ಳುತ್ತೀರಿ.

ಏನದು ಸ್ಕಿಕಿಟ್-ಕಲಿಯಿರಿ?

ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ (ಸ್ಕ್ಲೀರ್ನ್ ಎಂದೂ ಕರೆಯುತ್ತಾರೆ) ವೈವಿಧ್ಯಮಯ ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಮಾದರಿಗಳು ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಯನ್ನು ನೀಡುತ್ತದೆ. ಹೆಚ್ಚಿನ ಮಾಡ್ಯೂಲ್‌ಗಳಿಗಿಂತ ಭಿನ್ನವಾಗಿ, ಸ್ಕ್ಲೀರ್ನ್ ಅನ್ನು C ಗಿಂತ ಪೈಥಾನ್‌ನಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ. ಪೈಥಾನ್‌ನಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದ್ದರೂ, ಹೆಚ್ಚಿನ ಕಾರ್ಯಕ್ಷಮತೆಯ ರೇಖೀಯ ಬೀಜಗಣಿತ ಮತ್ತು ಅರೇ ಕಾರ್ಯಾಚರಣೆಗಳಿಗಾಗಿ ಸ್ಕ್ಲೀರ್ನ್‌ನ ದಕ್ಷತೆಯು ಅದರ NumPy ಬಳಕೆಗೆ ಕಾರಣವಾಗಿದೆ.

Scikit-Learn ಅನ್ನು Google ನ ಸಮ್ಮರ್ ಆಫ್ ಕೋಡ್ ಯೋಜನೆಯ ಭಾಗವಾಗಿ ರಚಿಸಲಾಗಿದೆ ಮತ್ತು ಪ್ರಪಂಚದಾದ್ಯಂತ ಲಕ್ಷಾಂತರ ಪೈಥಾನ್-ಕೇಂದ್ರಿತ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳ ಜೀವನವನ್ನು ಸರಳಗೊಳಿಸಿದೆ. ಸರಣಿಯ ಈ ವಿಭಾಗವು ಲೈಬ್ರರಿಯನ್ನು ಪ್ರಸ್ತುತಪಡಿಸುವುದರ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ ಮತ್ತು ಒಂದು ಅಂಶದ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ - ಡೇಟಾಸೆಟ್ ರೂಪಾಂತರಗಳು, ಇದು ಭವಿಷ್ಯ ಮಾದರಿಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಮೊದಲು ತೆಗೆದುಕೊಳ್ಳಬೇಕಾದ ಪ್ರಮುಖ ಮತ್ತು ಪ್ರಮುಖ ಹಂತವಾಗಿದೆ.

ಸ್ಕ್ಲೀರ್ನ್

ಲೈಬ್ರರಿಯು SciPy (ವೈಜ್ಞಾನಿಕ ಪೈಥಾನ್) ಅನ್ನು ಆಧರಿಸಿದೆ, ನೀವು ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಅನ್ನು ಬಳಸುವ ಮೊದಲು ಅದನ್ನು ಸ್ಥಾಪಿಸಬೇಕು. ಈ ಸ್ಟಾಕ್ ಈ ಕೆಳಗಿನ ವಸ್ತುಗಳನ್ನು ಒಳಗೊಂಡಿದೆ:

NumPy: ಪೈಥಾನ್‌ನ ಪ್ರಮಾಣಿತ n-ಆಯಾಮದ ಅರೇ ಪ್ಯಾಕೇಜ್
SciPy: ಇದು ವೈಜ್ಞಾನಿಕ ಕಂಪ್ಯೂಟಿಂಗ್‌ಗೆ ಮೂಲಭೂತ ಪ್ಯಾಕೇಜ್ ಆಗಿದೆ
ಪಾಂಡಾಗಳು: ಡೇಟಾ ರಚನೆಗಳು ಮತ್ತು ವಿಶ್ಲೇಷಣೆ
Matplotlib: ಇದು ಶಕ್ತಿಯುತ 2D/3D ಪ್ಲಾಟಿಂಗ್ ಲೈಬ್ರರಿಯಾಗಿದೆ
ಸಿಂಪಿ: ಸಾಂಕೇತಿಕ ಗಣಿತ
IPython: ಸುಧಾರಿತ ಸಂವಾದಾತ್ಮಕ ಕನ್ಸೋಲ್

ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಲೈಬ್ರರಿಯ ಅಪ್ಲಿಕೇಶನ್‌ಗಳು

ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಅತ್ಯಾಧುನಿಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಗಣಿಗಾರಿಕೆ ವೈಶಿಷ್ಟ್ಯಗಳೊಂದಿಗೆ ತೆರೆದ ಮೂಲ ಪೈಥಾನ್ ಪ್ಯಾಕೇಜ್ ಆಗಿದೆ. ನಿಮ್ಮ ಡೇಟಾ ಸೈನ್ಸ್ ಪ್ರಾಜೆಕ್ಟ್‌ಗಳಿಂದ ಹೆಚ್ಚಿನದನ್ನು ಪಡೆಯಲು ನಿಮಗೆ ಸಹಾಯ ಮಾಡಲು ಇದು ಅಂತರ್ನಿರ್ಮಿತ ಅಲ್ಗಾರಿದಮ್‌ಗಳೊಂದಿಗೆ ಬರುತ್ತದೆ. ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಲೈಬ್ರರಿಯನ್ನು ಈ ಕೆಳಗಿನ ವಿಧಾನಗಳಲ್ಲಿ ಬಳಸಲಾಗುತ್ತದೆ.

1. ಹಿಂಜರಿಕೆ

ಹಿಂಜರಿತ ವಿಶ್ಲೇಷಣೆಯು ಎರಡು ಅಥವಾ ಹೆಚ್ಚಿನ ಅಸ್ಥಿರಗಳ ನಡುವಿನ ಸಂಪರ್ಕವನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಮತ್ತು ಗ್ರಹಿಸಲು ಒಂದು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ತಂತ್ರವಾಗಿದೆ. ಹಿಂಜರಿತ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಮಾಡಲು ಬಳಸುವ ವಿಧಾನವು ಯಾವ ಅಂಶಗಳು ಪ್ರಸ್ತುತವಾಗಿವೆ, ಯಾವುದನ್ನು ನಿರ್ಲಕ್ಷಿಸಬಹುದು ಮತ್ತು ಅವು ಹೇಗೆ ಸಂವಹನ ನಡೆಸುತ್ತವೆ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ರಿಗ್ರೆಶನ್ ತಂತ್ರಗಳನ್ನು ಸ್ಟಾಕ್ ಬೆಲೆಗಳ ನಡವಳಿಕೆಯನ್ನು ಚೆನ್ನಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಬಳಸಬಹುದು.

ರಿಗ್ರೆಶನ್ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಸೇರಿವೆ:

ರೇಖಾತ್ಮಕ ಹಿಂಜರಿತ
ರಿಡ್ಜ್ ರಿಗ್ರೆಶನ್
ಲಾಸೊ ಹಿಂಜರಿಕೆ
ಡಿಸಿಷನ್ ಟ್ರೀ ರಿಗ್ರೆಶನ್
ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯ
ಬೆಂಬಲ ವೆಕ್ಟರ್ ಯಂತ್ರಗಳು (SVM)

2. ವರ್ಗೀಕರಣ

ವರ್ಗೀಕರಣ ವಿಧಾನವು ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆಯ ವಿಧಾನವಾಗಿದ್ದು ಅದು ತಾಜಾ ಅವಲೋಕನಗಳ ವರ್ಗವನ್ನು ಗುರುತಿಸಲು ತರಬೇತಿ ಡೇಟಾವನ್ನು ಬಳಸುತ್ತದೆ. ವರ್ಗೀಕರಣದಲ್ಲಿನ ಅಲ್ಗಾರಿದಮ್ ಕೊಟ್ಟಿರುವ ಮೂಲಕ ಕಲಿಯುತ್ತದೆ ಡೇಟಾಸೆಟ್ ಅಥವಾ ವೀಕ್ಷಣೆಗಳು ಮತ್ತು ನಂತರ ಹೆಚ್ಚುವರಿ ಅವಲೋಕನಗಳನ್ನು ಹಲವು ವರ್ಗಗಳು ಅಥವಾ ಗುಂಪುಗಳಲ್ಲಿ ಒಂದಾಗಿ ವರ್ಗೀಕರಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಇಮೇಲ್ ಸಂವಹನಗಳನ್ನು ಸ್ಪ್ಯಾಮ್ ಅಥವಾ ಇಲ್ಲವೇ ಎಂದು ವರ್ಗೀಕರಿಸಲು ಅವುಗಳನ್ನು ಬಳಸಬಹುದು.

ವರ್ಗೀಕರಣ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಒಳಗೊಂಡಿವೆ:

ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಷನ್
ಕೆ-ಹತ್ತಿರದ ನೆರೆಹೊರೆಯವರು
ಬೆಂಬಲ ವೆಕ್ಟರ್ ಯಂತ್ರ
ನಿರ್ಧಾರ ಮರ
ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯ

3. ಕ್ಲಸ್ಟರಿಂಗ್

ಸ್ಕಿಕಿಟ್-ಲರ್ನ್‌ನಲ್ಲಿನ ಕ್ಲಸ್ಟರಿಂಗ್ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಒಂದೇ ರೀತಿಯ ಗುಣಲಕ್ಷಣಗಳೊಂದಿಗೆ ಡೇಟಾವನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಸೆಟ್‌ಗಳಾಗಿ ಜೋಡಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ. ಕ್ಲಸ್ಟರಿಂಗ್ ಎನ್ನುವುದು ಒಂದೇ ಗುಂಪಿನಲ್ಲಿರುವವರು ಇತರ ಗುಂಪುಗಳಂತೆಯೇ ಇರುವಂತೆ ಐಟಂಗಳ ಗುಂಪನ್ನು ಗುಂಪು ಮಾಡುವ ಪ್ರಕ್ರಿಯೆಯಾಗಿದೆ. ಗ್ರಾಹಕರ ಡೇಟಾವನ್ನು, ಉದಾಹರಣೆಗೆ, ಅವರ ಸ್ಥಳವನ್ನು ಆಧರಿಸಿ ಪ್ರತ್ಯೇಕಿಸಬಹುದು.

ಕ್ಲಸ್ಟರಿಂಗ್ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಒಳಗೊಂಡಿವೆ:

DB-SCAN
ಕೆ-ಅಂದರೆ
ಮಿನಿ-ಬ್ಯಾಚ್ ಕೆ-ಅಂದರೆ
ಸ್ಪೆಕ್ಟ್ರಲ್ ಕ್ಲಸ್ಟರಿಂಗ್

4. ಮಾದರಿ ಆಯ್ಕೆ

ಮಾದರಿ ಆಯ್ಕೆ ಕ್ರಮಾವಳಿಗಳು ದತ್ತಾಂಶ ವಿಜ್ಞಾನದ ಉಪಕ್ರಮಗಳಲ್ಲಿ ಬಳಸಲು ಸೂಕ್ತವಾದ ನಿಯತಾಂಕಗಳು ಮತ್ತು ಮಾದರಿಗಳನ್ನು ಹೋಲಿಸಲು, ಮೌಲ್ಯೀಕರಿಸಲು ಮತ್ತು ಆಯ್ಕೆಮಾಡಲು ವಿಧಾನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ಡೇಟಾವನ್ನು ನೀಡಿದರೆ, ಮಾದರಿ ಆಯ್ಕೆಯು ಅಭ್ಯರ್ಥಿ ಮಾದರಿಗಳ ಗುಂಪಿನಿಂದ ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಮಾದರಿಯನ್ನು ಆಯ್ಕೆ ಮಾಡುವ ಸಮಸ್ಯೆಯಾಗಿದೆ. ಅತ್ಯಂತ ಮೂಲಭೂತ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಡೇಟಾದ ಸಂಗ್ರಹವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲಾಗುತ್ತದೆ. ಆದಾಗ್ಯೂ, ಕಾರ್ಯವು ಪ್ರಯೋಗಗಳ ವಿನ್ಯಾಸವನ್ನು ಸಹ ಒಳಗೊಂಡಿರಬಹುದು ಆದ್ದರಿಂದ ಸ್ವಾಧೀನಪಡಿಸಿಕೊಂಡ ಡೇಟಾವು ಮಾದರಿ ಆಯ್ಕೆಯ ಸಮಸ್ಯೆಗೆ ಸೂಕ್ತವಾಗಿರುತ್ತದೆ.

ನಿಯತಾಂಕಗಳನ್ನು ಸರಿಹೊಂದಿಸುವ ಮೂಲಕ ನಿಖರತೆಯನ್ನು ಸುಧಾರಿಸುವ ಮಾದರಿ ಆಯ್ಕೆ ಮಾಡ್ಯೂಲ್‌ಗಳು ಸೇರಿವೆ:

ಅಡ್ಡ-ಮೌಲ್ಯಮಾಪನ
ಗ್ರಿಡ್ ಹುಡುಕಾಟ
ಮೆಟ್ರಿಕ್ಸ್

5. ಆಯಾಮದ ಕಡಿತ

ಹೆಚ್ಚಿನ ಆಯಾಮದ ಜಾಗದಿಂದ ಕಡಿಮೆ ಆಯಾಮದ ಜಾಗಕ್ಕೆ ಡೇಟಾವನ್ನು ವರ್ಗಾವಣೆ ಮಾಡುವುದರಿಂದ ಕಡಿಮೆ ಆಯಾಮದ ಪ್ರಾತಿನಿಧ್ಯವು ಮೂಲ ಡೇಟಾದ ಕೆಲವು ಮಹತ್ವದ ಅಂಶಗಳನ್ನು ಸಂರಕ್ಷಿಸುತ್ತದೆ, ಆದರ್ಶಪ್ರಾಯವಾಗಿ ಅದರ ಅಂತರ್ಗತ ಆಯಾಮಕ್ಕೆ ಹತ್ತಿರದಲ್ಲಿದೆ, ಇದನ್ನು ಆಯಾಮದ ಕಡಿತ ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ಆಯಾಮವನ್ನು ಕಡಿಮೆಗೊಳಿಸಿದಾಗ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಯಾದೃಚ್ಛಿಕ ಅಸ್ಥಿರಗಳ ಸಂಖ್ಯೆ ಕಡಿಮೆಯಾಗುತ್ತದೆ. ಬಾಹ್ಯ ಡೇಟಾ, ಉದಾಹರಣೆಗೆ, ದೃಶ್ಯೀಕರಣದ ದಕ್ಷತೆಯನ್ನು ಸುಧಾರಿಸಲು ಪರಿಗಣಿಸಲಾಗುವುದಿಲ್ಲ.

ಆಯಾಮದ ಕಡಿತ ಅಲ್ಗಾರಿದಮ್ ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಒಳಗೊಂಡಿದೆ:

ವೈಶಿಷ್ಟ್ಯದ ಆಯ್ಕೆ
ಪ್ರಧಾನ ಘಟಕ ವಿಶ್ಲೇಷಣೆ (ಪಿಸಿಎ)

Scikit-Learn ಅನ್ನು ಸ್ಥಾಪಿಸಲಾಗುತ್ತಿದೆ

Scikit-Learn ಅನ್ನು ಬಳಸುವ ಮೊದಲು NumPy, SciPy, Matplotlib, IPython, Sympy ಮತ್ತು Pandas ಅನ್ನು ಸ್ಥಾಪಿಸುವ ಅಗತ್ಯವಿದೆ. ಕನ್ಸೋಲ್‌ನಿಂದ ಪಿಪ್ ಬಳಸಿ ಅವುಗಳನ್ನು ಸ್ಥಾಪಿಸೋಣ (ವಿಂಡೋಸ್‌ಗಾಗಿ ಮಾತ್ರ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ).

ಸ್ಥಾಪಿಸಿ

ನಾವು ಅಗತ್ಯವಿರುವ ಲೈಬ್ರರಿಗಳನ್ನು ಇನ್‌ಸ್ಟಾಲ್ ಮಾಡಿರುವುದರಿಂದ ಈಗ ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಅನ್ನು ಸ್ಥಾಪಿಸೋಣ.

Sklearn ಅನ್ನು ಸ್ಥಾಪಿಸಲಾಗುತ್ತಿದೆ

ವೈಶಿಷ್ಟ್ಯಗಳು

Scikit-Learn, ಕೆಲವೊಮ್ಮೆ sklearn ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ, ಇದು ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳು ಮತ್ತು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಮಾಡೆಲಿಂಗ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು ಪೈಥಾನ್ ಟೂಲ್ಕಿಟ್ ಆಗಿದೆ. ಹಿಮ್ಮೆಟ್ಟುವಿಕೆ, ವರ್ಗೀಕರಣ ಮತ್ತು ಕ್ಲಸ್ಟರಿಂಗ್‌ಗಾಗಿ ಬಹು ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳನ್ನು ರಚಿಸಲು ನಾವು ಇದನ್ನು ಬಳಸಬಹುದು, ಹಾಗೆಯೇ ಈ ಮಾದರಿಗಳನ್ನು ನಿರ್ಣಯಿಸಲು ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಸಾಧನಗಳು. ಇದು ಆಯಾಮದ ಕಡಿತ, ವೈಶಿಷ್ಟ್ಯದ ಆಯ್ಕೆ, ವೈಶಿಷ್ಟ್ಯದ ಹೊರತೆಗೆಯುವಿಕೆ, ಸಮಗ್ರ ವಿಧಾನಗಳು ಮತ್ತು ಅಂತರ್ನಿರ್ಮಿತ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಸಹ ಒಳಗೊಂಡಿದೆ. ನಾವು ಈ ಪ್ರತಿಯೊಂದು ಗುಣಗಳನ್ನು ಒಂದೊಂದಾಗಿ ಪರಿಶೀಲಿಸುತ್ತೇವೆ.

1. ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳುವುದು

ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಹಲವಾರು ಪೂರ್ವ-ನಿರ್ಮಿತ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿದೆ, ಉದಾಹರಣೆಗೆ ಐರಿಸ್ ಡೇಟಾಸೆಟ್, ಹೋಮ್ ಪ್ರೈಸ್ ಡೇಟಾಸೆಟ್, ಟೈಟಾನಿಕ್ ಡೇಟಾಸೆಟ್, ಇತ್ಯಾದಿ. ಈ ಡೇಟಾಸೆಟ್‌ಗಳ ಪ್ರಮುಖ ಪ್ರಯೋಜನಗಳೆಂದರೆ ಅವುಗಳು ಗ್ರಹಿಸಲು ಸರಳವಾಗಿದೆ ಮತ್ತು ತಕ್ಷಣವೇ ML ಮಾದರಿಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ಬಳಸಬಹುದು. ಈ ಡೇಟಾಸೆಟ್‌ಗಳು ಹೊಸಬರಿಗೆ ಸೂಕ್ತವಾಗಿದೆ. ಅಂತೆಯೇ, ನೀವು ಹೆಚ್ಚುವರಿ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಆಮದು ಮಾಡಲು sklearn ಅನ್ನು ಬಳಸಬಹುದು. ಅಂತೆಯೇ, ಹೆಚ್ಚುವರಿ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳಲು ನೀವು ಇದನ್ನು ಬಳಸಬಹುದು.

ಡೇಟಾಸೆಟ್

2. ತರಬೇತಿ ಮತ್ತು ಪರೀಕ್ಷೆಗಾಗಿ ಡೇಟಾಸೆಟ್ ಅನ್ನು ವಿಭಜಿಸುವುದು

Sklearn ಡೇಟಾಸೆಟ್ ಅನ್ನು ತರಬೇತಿ ಮತ್ತು ಪರೀಕ್ಷಾ ವಿಭಾಗಗಳಾಗಿ ವಿಭಜಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಒಳಗೊಂಡಿದೆ. ಮುನ್ಸೂಚನೆಯ ಕಾರ್ಯಕ್ಷಮತೆಯ ಪಕ್ಷಪಾತವಿಲ್ಲದ ಮೌಲ್ಯಮಾಪನಕ್ಕಾಗಿ ಡೇಟಾಸೆಟ್ ಅನ್ನು ವಿಭಜಿಸುವ ಅಗತ್ಯವಿದೆ. ರೈಲು ಮತ್ತು ಪರೀಕ್ಷಾ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ನಮ್ಮ ಡೇಟಾವನ್ನು ಎಷ್ಟು ಸೇರಿಸಬೇಕು ಎಂಬುದನ್ನು ನಾವು ನಿರ್ದಿಷ್ಟಪಡಿಸಬಹುದು. ಟ್ರೈನ್ ಟೆಸ್ಟ್ ಸ್ಪ್ಲಿಟ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ನಾವು ಡೇಟಾಸೆಟ್ ಅನ್ನು ವಿಂಗಡಿಸಿದ್ದೇವೆ ಅಂದರೆ ರೈಲು ಸೆಟ್ 80% ಡೇಟಾವನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಮತ್ತು ಪರೀಕ್ಷಾ ಸೆಟ್ 20% ಅನ್ನು ಹೊಂದಿರುತ್ತದೆ. ಡೇಟಾಸೆಟ್ ಅನ್ನು ಈ ಕೆಳಗಿನಂತೆ ವಿಂಗಡಿಸಬಹುದು:

ವಿಭಜನೆ

3. ಲೀನಿಯರ್ ರಿಗ್ರೆಷನ್

ಲೀನಿಯರ್ ರಿಗ್ರೆಶನ್ ಎನ್ನುವುದು ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆ ಆಧಾರಿತ ಯಂತ್ರ ಕಲಿಕೆಯ ತಂತ್ರವಾಗಿದೆ. ಇದು ಹಿಂಜರಿತದ ಕೆಲಸವನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ಸ್ವತಂತ್ರ ವೇರಿಯಬಲ್‌ಗಳ ಆಧಾರದ ಮೇಲೆ, ಹಿಂಜರಿತ ಮಾದರಿಗಳು ಒಂದು ಗುರಿ ಮುನ್ಸೂಚನೆ ಮೌಲ್ಯ. ವೇರಿಯೇಬಲ್ಸ್ ಮತ್ತು ಪ್ರಿಡಿಟಿಂಗ್ ನಡುವಿನ ಲಿಂಕ್ ಅನ್ನು ನಿರ್ಧರಿಸಲು ಇದನ್ನು ಹೆಚ್ಚಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ. ಅವಲಂಬಿತ ಮತ್ತು ಸ್ವತಂತ್ರ ವೇರಿಯೇಬಲ್‌ಗಳ ನಡುವೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡುವ ಸಂಪರ್ಕದ ಪ್ರಕಾರದಲ್ಲಿ ವಿಭಿನ್ನ ಹಿಂಜರಿತ ಮಾದರಿಗಳು ಭಿನ್ನವಾಗಿರುತ್ತವೆ, ಹಾಗೆಯೇ ಬಳಸಿದ ಸ್ವತಂತ್ರ ಅಸ್ಥಿರಗಳ ಸಂಖ್ಯೆ. ನಾವು ಈ ಕೆಳಗಿನಂತೆ sklearn ಅನ್ನು ಬಳಸಿಕೊಂಡು ಲೀನಿಯರ್ ರಿಗ್ರೆಷನ್ ಮಾದರಿಯನ್ನು ಸರಳವಾಗಿ ರಚಿಸಬಹುದು:

ರೇಖಾತ್ಮಕ ಹಿಂಜರಿತ

4. ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಷನ್

ಸಾಮಾನ್ಯ ವರ್ಗೀಕರಣ ವಿಧಾನವೆಂದರೆ ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಷನ್. ಇದು ಬಹುಪದೋಕ್ತಿ ಮತ್ತು ರೇಖೀಯ ಹಿಂಜರಿತದ ಒಂದೇ ಕುಟುಂಬದಲ್ಲಿದೆ ಮತ್ತು ರೇಖೀಯ ವರ್ಗೀಕರಣ ಕುಟುಂಬಕ್ಕೆ ಸೇರಿದೆ. ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಶನ್ ಆವಿಷ್ಕಾರಗಳು ಗ್ರಹಿಸಲು ಸರಳವಾಗಿದೆ ಮತ್ತು ತ್ವರಿತವಾಗಿ ಲೆಕ್ಕಾಚಾರ ಮಾಡುತ್ತವೆ. ಲೀನಿಯರ್ ರಿಗ್ರೆಶನ್ ರೀತಿಯಲ್ಲಿಯೇ, ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಶನ್ ಒಂದು ಮೇಲ್ವಿಚಾರಣೆಯ ಹಿಂಜರಿತ ತಂತ್ರವಾಗಿದೆ. ಔಟ್ಪುಟ್ ವೇರಿಯೇಬಲ್ ವರ್ಗೀಯವಾಗಿದೆ, ಆದ್ದರಿಂದ ಇದು ಒಂದೇ ವ್ಯತ್ಯಾಸವಾಗಿದೆ. ರೋಗಿಗೆ ಹೃದಯ ಸಂಬಂಧಿ ಕಾಯಿಲೆ ಇದೆಯೇ ಅಥವಾ ಇಲ್ಲವೇ ಎಂಬುದನ್ನು ಇದು ನಿರ್ಧರಿಸುತ್ತದೆ.

ಸ್ಪ್ಯಾಮ್ ಪತ್ತೆಯಂತಹ ವಿವಿಧ ವರ್ಗೀಕರಣ ಸಮಸ್ಯೆಗಳನ್ನು ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಶನ್ ಬಳಸಿ ಪರಿಹರಿಸಬಹುದು. ಮಧುಮೇಹದ ಮುನ್ಸೂಚನೆ, ಗ್ರಾಹಕರು ನಿರ್ದಿಷ್ಟ ಉತ್ಪನ್ನವನ್ನು ಖರೀದಿಸುತ್ತಾರೆಯೇ ಅಥವಾ ಪ್ರತಿಸ್ಪರ್ಧಿಗೆ ಬದಲಾಯಿಸುತ್ತಾರೆಯೇ ಎಂದು ನಿರ್ಧರಿಸುವುದು, ನಿರ್ದಿಷ್ಟ ಮಾರ್ಕೆಟಿಂಗ್ ಲಿಂಕ್ ಅನ್ನು ಬಳಕೆದಾರರು ಕ್ಲಿಕ್ ಮಾಡುತ್ತಾರೆಯೇ ಎಂದು ನಿರ್ಧರಿಸುವುದು ಮತ್ತು ಇನ್ನೂ ಹೆಚ್ಚಿನ ಸನ್ನಿವೇಶಗಳು ಕೆಲವೇ ಉದಾಹರಣೆಗಳಾಗಿವೆ.

ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಷನ್

5. ನಿರ್ಧಾರ ಮರ

ಅತ್ಯಂತ ಶಕ್ತಿಶಾಲಿ ಮತ್ತು ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುವ ವರ್ಗೀಕರಣ ಮತ್ತು ಭವಿಷ್ಯ ತಂತ್ರವೆಂದರೆ ನಿರ್ಧಾರ ವೃಕ್ಷ. ನಿರ್ಧಾರ ವೃಕ್ಷವು ಮರದ ರಚನೆಯಾಗಿದ್ದು ಅದು ಫ್ಲೋಚಾರ್ಟ್‌ನಂತೆ ಕಾಣುತ್ತದೆ, ಪ್ರತಿ ಆಂತರಿಕ ನೋಡ್ ಗುಣಲಕ್ಷಣದ ಮೇಲೆ ಪರೀಕ್ಷೆಯನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ, ಪ್ರತಿ ಶಾಖೆಯು ಪರೀಕ್ಷೆಯ ತೀರ್ಮಾನವನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ ಮತ್ತು ಪ್ರತಿ ಲೀಫ್ ನೋಡ್ (ಟರ್ಮಿನಲ್ ನೋಡ್) ವರ್ಗ ಲೇಬಲ್ ಅನ್ನು ಹೊಂದಿರುತ್ತದೆ.

ಅವಲಂಬಿತ ಅಸ್ಥಿರಗಳು ಸ್ವತಂತ್ರ ಅಸ್ಥಿರಗಳೊಂದಿಗೆ ರೇಖೀಯ ಸಂಬಂಧವನ್ನು ಹೊಂದಿರದಿದ್ದಾಗ, ಅಂದರೆ ರೇಖೀಯ ಹಿಂಜರಿತವು ಸರಿಯಾದ ಸಂಶೋಧನೆಗಳನ್ನು ಉತ್ಪಾದಿಸದಿದ್ದಾಗ, ನಿರ್ಧಾರ ಮರಗಳು ಪ್ರಯೋಜನಕಾರಿ. DecisionTreeRegression() ಆಬ್ಜೆಕ್ಟ್ ಅನ್ನು ರಿಗ್ರೆಶನ್ಗಾಗಿ ನಿರ್ಧಾರ ವೃಕ್ಷವನ್ನು ಬಳಸಿಕೊಳ್ಳಲು ಇದೇ ರೀತಿಯಲ್ಲಿ ಬಳಸಬಹುದು.

ನಿರ್ಧಾರ ಮರ

6. ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯ

ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯವು a ಯಂತ್ರ ಕಲಿಕೆ ಹಿಂಜರಿತ ಮತ್ತು ವರ್ಗೀಕರಣ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುವ ವಿಧಾನ. ಇದು ಸಮಗ್ರ ಕಲಿಕೆಯನ್ನು ಬಳಸುತ್ತದೆ, ಇದು ಸಂಕೀರ್ಣ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಬಹು ವರ್ಗೀಕರಣಗಳನ್ನು ಸಂಯೋಜಿಸುವ ತಂತ್ರವಾಗಿದೆ. ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯ ವಿಧಾನವು ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ನಿರ್ಧಾರ ಮರಗಳಿಂದ ಮಾಡಲ್ಪಟ್ಟಿದೆ. ಸಾಲದ ಅರ್ಜಿಗಳನ್ನು ವರ್ಗೀಕರಿಸಲು, ಮೋಸದ ನಡವಳಿಕೆಯನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಮತ್ತು ರೋಗ ಉಲ್ಬಣಗಳನ್ನು ನಿರೀಕ್ಷಿಸಲು ಇದನ್ನು ಬಳಸಬಹುದು.

ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯ

7. ಗೊಂದಲ ಮ್ಯಾಟ್ರಿಕ್ಸ್

ಗೊಂದಲದ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಎನ್ನುವುದು ವರ್ಗೀಕರಣ ಮಾದರಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ವಿವರಿಸಲು ಬಳಸುವ ಟೇಬಲ್ ಆಗಿದೆ. ಗೊಂದಲದ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಅನ್ನು ಪರೀಕ್ಷಿಸಲು ಕೆಳಗಿನ ನಾಲ್ಕು ಪದಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ:

ನಿಜವಾದ ಧನಾತ್ಮಕ: ಮಾದರಿಯು ಅನುಕೂಲಕರ ಫಲಿತಾಂಶವನ್ನು ಯೋಜಿಸಿದೆ ಮತ್ತು ಅದು ಸರಿಯಾಗಿದೆ ಎಂದು ಇದು ಸೂಚಿಸುತ್ತದೆ.
ನಿಜವಾದ ಋಣಾತ್ಮಕ: ಮಾದರಿಯು ಕೆಟ್ಟ ಫಲಿತಾಂಶವನ್ನು ಯೋಜಿಸಿದೆ ಮತ್ತು ಅದು ಸರಿಯಾಗಿದೆ ಎಂದು ಇದು ಸೂಚಿಸುತ್ತದೆ.
ತಪ್ಪು ಧನಾತ್ಮಕ: ಇದು ಮಾದರಿಯು ಅನುಕೂಲಕರ ಫಲಿತಾಂಶವನ್ನು ನಿರೀಕ್ಷಿಸಿದೆ ಎಂದು ಸೂಚಿಸುತ್ತದೆ ಆದರೆ ಇದು ನಿಜವಾಗಿಯೂ ನಕಾರಾತ್ಮಕವಾಗಿದೆ.
ತಪ್ಪು ಋಣಾತ್ಮಕ: ಇದು ಮಾದರಿಯು ನಕಾರಾತ್ಮಕ ಫಲಿತಾಂಶವನ್ನು ನಿರೀಕ್ಷಿಸಿದೆ ಎಂದು ಸೂಚಿಸುತ್ತದೆ, ಆದರೆ ಫಲಿತಾಂಶವು ನಿಜವಾಗಿಯೂ ಧನಾತ್ಮಕವಾಗಿದೆ.

ಗೊಂದಲ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಫೋಟೋ

ಗೊಂದಲ ಮ್ಯಾಟ್ರಿಕ್ಸ್ ಅನುಷ್ಠಾನ:

ಗೊಂದಲದ ಮೆಟ್ರಿಕ್ಸ್

ಪರ

ಇದು ಬಳಸಲು ಸರಳವಾಗಿದೆ.
ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಪ್ಯಾಕೇಜ್ ಅತ್ಯಂತ ಹೊಂದಿಕೊಳ್ಳಬಲ್ಲ ಮತ್ತು ಉಪಯುಕ್ತವಾಗಿದೆ, ಗ್ರಾಹಕರ ನಡವಳಿಕೆಯ ಮುನ್ಸೂಚನೆ, ನ್ಯೂರೋಇಮೇಜ್ ಅಭಿವೃದ್ಧಿ ಮತ್ತು ಮುಂತಾದವುಗಳಂತಹ ನೈಜ-ಪ್ರಪಂಚದ ಗುರಿಗಳನ್ನು ಪೂರೈಸುತ್ತದೆ.
ತಮ್ಮ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳೊಂದಿಗೆ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಸಂಪರ್ಕಿಸಲು ಬಯಸುವ ಬಳಕೆದಾರರು Scikit-learn ವೆಬ್‌ಸೈಟ್‌ನಲ್ಲಿ ವಿವರವಾದ API ದಾಖಲಾತಿಯನ್ನು ಕಾಣಬಹುದು.
ಹಲವಾರು ಲೇಖಕರು, ಸಹಯೋಗಿಗಳು ಮತ್ತು ವಿಶ್ವಾದ್ಯಂತದ ದೊಡ್ಡ ಆನ್‌ಲೈನ್ ಸಮುದಾಯವು Scikit-ಕಲಿಯಲು ನವೀಕೃತವಾಗಿರುವುದನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ.

ಕಾನ್ಸ್

ಆಳವಾದ ಅಧ್ಯಯನಕ್ಕೆ ಇದು ಸೂಕ್ತ ಆಯ್ಕೆಯಾಗಿಲ್ಲ.

ತೀರ್ಮಾನ

ಸ್ಕಿಕಿಟ್-ಲರ್ನ್ ಎನ್ನುವುದು ಪ್ರತಿಯೊಬ್ಬ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳಿಗೆ ಬಲವಾದ ಗ್ರಹಿಕೆ ಮತ್ತು ಕೆಲವು ಅನುಭವವನ್ನು ಹೊಂದಲು ನಿರ್ಣಾಯಕ ಪ್ಯಾಕೇಜ್ ಆಗಿದೆ. sklearn ಬಳಸಿಕೊಂಡು ಡೇಟಾ ಮ್ಯಾನಿಪ್ಯುಲೇಷನ್‌ಗೆ ಈ ಮಾರ್ಗದರ್ಶಿ ನಿಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ. ನಿಮ್ಮ ಡೇಟಾ ಸೈನ್ಸ್ ಸಾಹಸದ ಮೂಲಕ ನೀವು ಪ್ರಗತಿಯಲ್ಲಿರುವಂತೆ ನೀವು ಕಂಡುಕೊಳ್ಳುವ ಸ್ಕಿಕಿಟ್-ಲರ್ನ್‌ನ ಇನ್ನೂ ಹಲವು ಸಾಮರ್ಥ್ಯಗಳಿವೆ. ಕಾಮೆಂಟ್‌ಗಳಲ್ಲಿ ನಿಮ್ಮ ಆಲೋಚನೆಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಿ.

ಸ್ಕಿಕಿಟ್-ಕಲಿಯಲು ಒಂದು ಬಿಗಿನರ್ಸ್ ಗೈಡ್

ಏನದು ಸ್ಕಿಕಿಟ್-ಕಲಿಯಿರಿ?