ਵਿਸ਼ਾ - ਸੂਚੀ[ਛੁਪਾਓ][ਦਿਖਾਓ]
ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਪਾਈਥਨ ਪ੍ਰੋਗਰਾਮਰ ਹੋ ਜਾਂ ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਪ੍ਰੋਡਕਸ਼ਨ ਸਿਸਟਮ ਵਿੱਚ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੂੰ ਪੇਸ਼ ਕਰਨ ਲਈ ਵਰਤਣ ਲਈ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਟੂਲਕਿੱਟ ਦੀ ਖੋਜ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ Scikit-learn ਇੱਕ ਲਾਇਬ੍ਰੇਰੀ ਹੈ ਜਿਸਦੀ ਤੁਹਾਨੂੰ ਜਾਂਚ ਕਰਨ ਦੀ ਲੋੜ ਹੈ।
Scikit-lern ਚੰਗੀ ਤਰ੍ਹਾਂ ਦਸਤਾਵੇਜ਼ੀ ਅਤੇ ਵਰਤੋਂ ਵਿੱਚ ਆਸਾਨ ਹੈ, ਭਾਵੇਂ ਤੁਸੀਂ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਲਈ ਨਵੇਂ ਹੋ, ਜਲਦੀ ਉੱਠਣਾ ਅਤੇ ਚਲਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਜਾਂ ਸਭ ਤੋਂ ਨਵੀਨਤਮ ML ਖੋਜ ਟੂਲ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ।
ਇਹ ਤੁਹਾਨੂੰ ਕੋਡ ਦੀਆਂ ਸਿਰਫ ਕੁਝ ਲਾਈਨਾਂ ਵਿੱਚ ਇੱਕ ਪੂਰਵ-ਅਨੁਮਾਨਿਤ ਡੇਟਾ ਮਾਡਲ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਅਤੇ ਫਿਰ ਇੱਕ ਉੱਚ-ਪੱਧਰੀ ਲਾਇਬ੍ਰੇਰੀ ਦੇ ਰੂਪ ਵਿੱਚ ਤੁਹਾਡੇ ਡੇਟਾ ਦੇ ਅਨੁਕੂਲ ਹੋਣ ਲਈ ਉਸ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਲਚਕਦਾਰ ਹੈ ਅਤੇ ਹੋਰਾਂ ਨਾਲ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ ਪਾਈਥਨ ਲਾਇਬ੍ਰੇਰੀਆਂ ਜਿਵੇਂ ਕਿ ਚਾਰਟਿੰਗ ਲਈ Matplotlib, ਐਰੇ ਵੈਕਟੋਰਾਈਜ਼ੇਸ਼ਨ ਲਈ NumPy, ਅਤੇ ਡੇਟਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ ਲਈ ਪਾਂਡਾ।
ਇਸ ਗਾਈਡ ਵਿੱਚ, ਤੁਸੀਂ ਇਸ ਬਾਰੇ ਸਭ ਕੁਝ ਪਤਾ ਲਗਾਓਗੇ ਕਿ ਇਹ ਕੀ ਹੈ, ਤੁਸੀਂ ਇਸਨੂੰ ਕਿਵੇਂ ਵਰਤ ਸਕਦੇ ਹੋ, ਇਸਦੇ ਫਾਇਦੇ ਅਤੇ ਨੁਕਸਾਨ ਦੇ ਨਾਲ।
ਕੀ ਹੈ ਵਿਗਿਆਨ-ਸਿੱਖੋ?
ਸਕਿਟ-ਲਰਨ (ਸਕਲੈਰਨ ਵਜੋਂ ਵੀ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ) ਅੰਕੜਾਤਮਕ ਮਾਡਲਾਂ ਅਤੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੇ ਵਿਭਿੰਨ ਸਮੂਹ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ। ਬਹੁਤੇ ਮੋਡੀਊਲਾਂ ਦੇ ਉਲਟ, ਸਕਲੈਰਨ ਨੂੰ C ਦੀ ਬਜਾਏ ਪਾਈਥਨ ਵਿੱਚ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਪਾਈਥਨ ਵਿੱਚ ਵਿਕਸਤ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਸਕਲਰਨ ਦੀ ਕੁਸ਼ਲਤਾ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਰੇਖਿਕ ਅਲਜਬਰਾ ਅਤੇ ਐਰੇ ਓਪਰੇਸ਼ਨਾਂ ਲਈ NumPy ਦੀ ਵਰਤੋਂ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹੈ।
Scikit-Learn ਨੂੰ ਗੂਗਲ ਦੇ ਸਮਰ ਆਫ ਕੋਡ ਪ੍ਰੋਜੈਕਟ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਬਣਾਇਆ ਗਿਆ ਸੀ ਅਤੇ ਇਸਨੇ ਦੁਨੀਆ ਭਰ ਦੇ ਲੱਖਾਂ ਪਾਈਥਨ-ਕੇਂਦ੍ਰਿਤ ਡੇਟਾ ਵਿਗਿਆਨੀਆਂ ਦੇ ਜੀਵਨ ਨੂੰ ਸਰਲ ਬਣਾ ਦਿੱਤਾ ਹੈ। ਲੜੀ ਦਾ ਇਹ ਭਾਗ ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਪੇਸ਼ ਕਰਨ ਅਤੇ ਇੱਕ ਤੱਤ - ਡੇਟਾਸੇਟ ਪਰਿਵਰਤਨ 'ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਨ 'ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਇੱਕ ਪੂਰਵ-ਅਨੁਮਾਨ ਮਾਡਲ ਵਿਕਸਿਤ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਚੁੱਕਣ ਲਈ ਇੱਕ ਮੁੱਖ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ।
ਲਾਇਬ੍ਰੇਰੀ SciPy (ਵਿਗਿਆਨਕ ਪਾਈਥਨ) 'ਤੇ ਅਧਾਰਤ ਹੈ, ਜੋ ਕਿ ਤੁਹਾਡੇ ਦੁਆਰਾ scikit-learn ਦੀ ਵਰਤੋਂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇੰਸਟਾਲ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ। ਇਸ ਸਟੈਕ ਵਿੱਚ ਹੇਠ ਲਿਖੀਆਂ ਆਈਟਮਾਂ ਸ਼ਾਮਲ ਹਨ:
- NumPy: ਪਾਈਥਨ ਦਾ ਮਿਆਰੀ n-ਆਯਾਮੀ ਐਰੇ ਪੈਕੇਜ
- SciPy: ਇਹ ਵਿਗਿਆਨਕ ਕੰਪਿਊਟਿੰਗ ਲਈ ਇੱਕ ਬੁਨਿਆਦੀ ਪੈਕੇਜ ਹੈ
- ਪਾਂਡਾ: ਡੇਟਾ ਬਣਤਰ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ
- Matplotlib: ਇਹ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ 2D/3D ਪਲਾਟਿੰਗ ਲਾਇਬ੍ਰੇਰੀ ਹੈ
- Sympy: ਪ੍ਰਤੀਕ ਗਣਿਤ
- IPython: ਸੁਧਾਰਿਆ ਇੰਟਰਐਕਟਿਵ ਕੰਸੋਲ
ਸਕਿਟ-ਲਰਨ ਲਾਇਬ੍ਰੇਰੀ ਦੀਆਂ ਐਪਲੀਕੇਸ਼ਨਾਂ
ਸਕਿਟ-ਲਰਨ ਇੱਕ ਓਪਨ-ਸੋਰਸ ਪਾਈਥਨ ਪੈਕੇਜ ਹੈ ਜਿਸ ਵਿੱਚ ਵਧੀਆ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਮਾਈਨਿੰਗ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹਨ। ਇਹ ਤੁਹਾਡੇ ਡੇਟਾ ਵਿਗਿਆਨ ਪ੍ਰੋਜੈਕਟਾਂ ਦਾ ਵੱਧ ਤੋਂ ਵੱਧ ਲਾਭ ਲੈਣ ਵਿੱਚ ਤੁਹਾਡੀ ਮਦਦ ਕਰਨ ਲਈ ਬਿਲਟ-ਇਨ ਐਲਗੋਰਿਦਮ ਦੀ ਬਹੁਤਾਤ ਦੇ ਨਾਲ ਆਉਂਦਾ ਹੈ। ਸਕਿਟ-ਲਰਨ ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਹੇਠ ਲਿਖੇ ਤਰੀਕਿਆਂ ਨਾਲ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
1. ਰਿਗਰੈਸ਼ਨ
ਰਿਗਰੈਸ਼ਨ ਵਿਸ਼ਲੇਸ਼ਣ ਦੋ ਜਾਂ ਦੋ ਤੋਂ ਵੱਧ ਵੇਰੀਏਬਲਾਂ ਦੇ ਵਿਚਕਾਰ ਸਬੰਧ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਅਤੇ ਸਮਝਣ ਲਈ ਇੱਕ ਅੰਕੜਾ ਤਕਨੀਕ ਹੈ। ਰੀਗਰੈਸ਼ਨ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਤਰੀਕਾ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਦਾ ਹੈ ਕਿ ਕਿਹੜੇ ਤੱਤ ਢੁਕਵੇਂ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਣਡਿੱਠ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਉਹ ਕਿਵੇਂ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਪਾਉਂਦੇ ਹਨ। ਰਿਗਰੈਸ਼ਨ ਤਕਨੀਕਾਂ, ਉਦਾਹਰਨ ਲਈ, ਸਟਾਕ ਕੀਮਤਾਂ ਦੇ ਵਿਵਹਾਰ ਨੂੰ ਬਿਹਤਰ ਢੰਗ ਨਾਲ ਸਮਝਣ ਲਈ ਵਰਤੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ।
ਰਿਗਰੈਸ਼ਨ ਐਲਗੋਰਿਦਮ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਲੀਨੀਅਰ ਰੈਗਰੈਸ਼ਨ
- ਰਿਜ ਰਿਗਰੈਸ਼ਨ
- ਲਾਸੋ ਰੀਗਰੈਸ਼ਨ
- ਫੈਸਲਾ ਟ੍ਰੀ ਰਿਗਰੈਸ਼ਨ
- ਬੇਤਰਤੀਬ ਜੰਗਲ
- ਸਪੋਰਟ ਵੈਕਟਰ ਮਸ਼ੀਨਾਂ (SVM)
2. ਵਰਗੀਕਰਣ
ਵਰਗੀਕਰਨ ਵਿਧੀ ਇੱਕ ਨਿਰੀਖਣ ਕੀਤੀ ਸਿਖਲਾਈ ਪਹੁੰਚ ਹੈ ਜੋ ਤਾਜ਼ੇ ਨਿਰੀਖਣਾਂ ਦੀ ਸ਼੍ਰੇਣੀ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਵਰਗੀਕਰਨ ਵਿੱਚ ਇੱਕ ਐਲਗੋਰਿਦਮ ਦਿੱਤੇ ਗਏ ਤੋਂ ਸਿੱਖਦਾ ਹੈ ਡੇਟਾਸੇਟ ਜਾਂ ਨਿਰੀਖਣ ਅਤੇ ਫਿਰ ਅਤਿਰਿਕਤ ਨਿਰੀਖਣਾਂ ਨੂੰ ਕਈ ਸ਼੍ਰੇਣੀਆਂ ਜਾਂ ਸਮੂਹਾਂ ਵਿੱਚੋਂ ਇੱਕ ਵਿੱਚ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਦਾ ਹੈ। ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ, ਉਦਾਹਰਨ ਲਈ, ਈਮੇਲ ਸੰਚਾਰਾਂ ਨੂੰ ਸਪੈਮ ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜਾਂ ਨਹੀਂ।
ਵਰਗੀਕਰਨ ਐਲਗੋਰਿਦਮ ਵਿੱਚ ਹੇਠ ਲਿਖੇ ਸ਼ਾਮਲ ਹਨ:
- ਲੌਜਿਸਟਿਕ ਰੈਗ੍ਰੇਸ਼ਨ
- K- ਨਜ਼ਦੀਕੀ ਗੁਆਂਢੀ
- ਵੈਕਟਰ ਮਸ਼ੀਨ ਦਾ ਸਮਰਥਨ ਕਰੋ
- ਫੈਸਲਾ ਲੜੀ
- ਬੇਤਰਤੀਬ ਜੰਗਲ
3. ਕਲੱਸਟਰਿੰਗ
Scikit-lern ਵਿੱਚ ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਦਮ ਨੂੰ ਸੈੱਟਾਂ ਵਿੱਚ ਸਮਾਨ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਾਲੇ ਡੇਟਾ ਨੂੰ ਸਵੈਚਲਿਤ ਤੌਰ 'ਤੇ ਵਿਵਸਥਿਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਕਲੱਸਟਰਿੰਗ ਆਈਟਮਾਂ ਦੇ ਸਮੂਹ ਨੂੰ ਸਮੂਹ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ ਹੈ ਤਾਂ ਜੋ ਸਮਾਨ ਸਮੂਹ ਵਿੱਚ ਹੋਰ ਸਮੂਹਾਂ ਦੇ ਸਮਾਨ ਹੋਣ। ਗਾਹਕ ਡੇਟਾ, ਉਦਾਹਰਨ ਲਈ, ਉਹਨਾਂ ਦੇ ਸਥਾਨ ਦੇ ਅਧਾਰ ਤੇ ਵੱਖ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਕਲੱਸਟਰਿੰਗ ਐਲਗੋਰਿਦਮ ਵਿੱਚ ਹੇਠ ਲਿਖੇ ਸ਼ਾਮਲ ਹਨ:
- DB-ਸਕੈਨ
- ਕੇ-ਭਾਵ
- ਮਿੰਨੀ-ਬੈਚ ਕੇ-ਮੀਨਜ਼
- ਸਪੈਕਟ੍ਰਲ ਕਲੱਸਟਰਿੰਗ
4. ਮਾਡਲ ਦੀ ਚੋਣ
ਮਾਡਲ ਚੋਣ ਐਲਗੋਰਿਦਮ ਡੇਟਾ ਵਿਗਿਆਨ ਪਹਿਲਕਦਮੀਆਂ ਵਿੱਚ ਵਰਤੋਂ ਲਈ ਅਨੁਕੂਲ ਮਾਪਦੰਡਾਂ ਅਤੇ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨ, ਪ੍ਰਮਾਣਿਤ ਕਰਨ ਅਤੇ ਚੁਣਨ ਲਈ ਢੰਗ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਦਿੱਤੇ ਗਏ ਡੇਟਾ, ਮਾਡਲ ਦੀ ਚੋਣ ਉਮੀਦਵਾਰ ਮਾਡਲਾਂ ਦੇ ਸਮੂਹ ਵਿੱਚੋਂ ਇੱਕ ਅੰਕੜਾ ਮਾਡਲ ਚੁਣਨ ਦੀ ਸਮੱਸਿਆ ਹੈ। ਸਭ ਤੋਂ ਬੁਨਿਆਦੀ ਸਥਿਤੀਆਂ ਵਿੱਚ, ਡੇਟਾ ਦੇ ਇੱਕ ਪਹਿਲਾਂ ਤੋਂ ਮੌਜੂਦ ਸੰਗ੍ਰਹਿ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਕਾਰਜ ਵਿੱਚ ਪ੍ਰਯੋਗਾਂ ਦਾ ਡਿਜ਼ਾਈਨ ਵੀ ਸ਼ਾਮਲ ਹੋ ਸਕਦਾ ਹੈ ਤਾਂ ਜੋ ਪ੍ਰਾਪਤ ਕੀਤਾ ਡੇਟਾ ਮਾਡਲ ਚੋਣ ਸਮੱਸਿਆ ਲਈ ਚੰਗੀ ਤਰ੍ਹਾਂ ਅਨੁਕੂਲ ਹੋਵੇ।
ਮਾਡਲ ਚੋਣ ਮੈਡਿਊਲ ਜੋ ਮਾਪਦੰਡਾਂ ਨੂੰ ਅਨੁਕੂਲ ਕਰਕੇ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰ ਸਕਦੇ ਹਨ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਅੰਤਰ-ਪ੍ਰਮਾਣਿਕਤਾ
- ਗਰਿੱਡ ਖੋਜ
- ਮੈਟ੍ਰਿਕਸ
5. ਅਯਾਮੀ ਕਮੀ
ਇੱਕ ਉੱਚ-ਅਯਾਮੀ ਸਪੇਸ ਤੋਂ ਇੱਕ ਘੱਟ-ਅਯਾਮੀ ਸਪੇਸ ਵਿੱਚ ਡੇਟਾ ਦਾ ਟ੍ਰਾਂਸਫਰ ਤਾਂ ਜੋ ਘੱਟ-ਅਯਾਮੀ ਪ੍ਰਤੀਨਿਧਤਾ ਮੂਲ ਡੇਟਾ ਦੇ ਕੁਝ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂਆਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖ ਸਕੇ, ਆਦਰਸ਼ਕ ਤੌਰ 'ਤੇ ਇਸਦੇ ਅੰਦਰੂਨੀ ਅਯਾਮ ਦੇ ਨੇੜੇ, ਨੂੰ ਅਯਾਮਤਾ ਕਮੀ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ। ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਬੇਤਰਤੀਬ ਵੇਰੀਏਬਲਾਂ ਦੀ ਸੰਖਿਆ ਉਦੋਂ ਘਟ ਜਾਂਦੀ ਹੈ ਜਦੋਂ ਅਯਾਮ ਘਟਾਇਆ ਜਾਂਦਾ ਹੈ। ਬਾਹਰਲੇ ਡੇਟਾ, ਉਦਾਹਰਨ ਲਈ, ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨਾਂ ਦੀ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ ਲਈ ਨਹੀਂ ਮੰਨਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਅਯਾਮੀ ਕਮੀ ਐਲਗੋਰਿਦਮ ਵਿੱਚ ਹੇਠ ਲਿਖੇ ਸ਼ਾਮਲ ਹਨ:
- ਵਿਸ਼ੇਸ਼ਤਾ ਚੋਣ
- ਪ੍ਰਿੰਸੀਪਲ ਕੰਪੋਨੈਂਟ ਵਿਸ਼ਲੇਸ਼ਣ (ਪੀਸੀਏ)
ਸਕਿਟ-ਲਰਨ ਇੰਸਟਾਲ ਕਰਨਾ
NumPy, SciPy, Matplotlib, IPython, Sympy, ਅਤੇ Pandas ਨੂੰ Scikit-learn ਦੀ ਵਰਤੋਂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇੰਸਟਾਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ। ਆਉ ਉਹਨਾਂ ਨੂੰ ਕੰਸੋਲ ਤੋਂ ਪਾਈਪ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਥਾਪਿਤ ਕਰੀਏ (ਸਿਰਫ਼ ਵਿੰਡੋਜ਼ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ)।
ਚਲੋ ਹੁਣ ਸਕਿਟ-ਲਰਨ ਇੰਸਟਾਲ ਕਰੀਏ ਕਿ ਅਸੀਂ ਲੋੜੀਂਦੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਨੂੰ ਸਥਾਪਿਤ ਕਰ ਲਿਆ ਹੈ।
ਫੀਚਰ
ਸਕਿਟ-ਲਰਨ, ਜਿਸਨੂੰ ਕਈ ਵਾਰ ਸਕਲੈਰਨ ਕਿਹਾ ਜਾਂਦਾ ਹੈ, ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਅਤੇ ਅੰਕੜਾ ਮਾਡਲਿੰਗ ਨੂੰ ਲਾਗੂ ਕਰਨ ਲਈ ਇੱਕ ਪਾਈਥਨ ਟੂਲਕਿੱਟ ਹੈ। ਅਸੀਂ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਰੀਗਰੈਸ਼ਨ, ਵਰਗੀਕਰਨ, ਅਤੇ ਕਲੱਸਟਰਿੰਗ ਦੇ ਨਾਲ-ਨਾਲ ਅੰਕੜਾ ਟੂਲ ਲਈ ਮਲਟੀਪਲ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਇਸਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਾਂ। ਇਸ ਵਿੱਚ ਅਯਾਮ ਵਿੱਚ ਕਮੀ, ਵਿਸ਼ੇਸ਼ਤਾ ਦੀ ਚੋਣ, ਵਿਸ਼ੇਸ਼ਤਾ ਐਕਸਟਰੈਕਸ਼ਨ, ਐਨਸੈਂਬਲ ਪਹੁੰਚ, ਅਤੇ ਬਿਲਟ-ਇਨ ਡੇਟਾਸੈਟ ਵੀ ਸ਼ਾਮਲ ਹਨ। ਅਸੀਂ ਇਹਨਾਂ ਵਿੱਚੋਂ ਹਰੇਕ ਗੁਣ ਦੀ ਇੱਕ-ਇੱਕ ਕਰਕੇ ਜਾਂਚ ਕਰਾਂਗੇ।
1. ਡੇਟਾਸੇਟਸ ਨੂੰ ਆਯਾਤ ਕਰਨਾ
ਸਕਿਟ-ਲਰਨ ਵਿੱਚ ਕਈ ਪ੍ਰੀ-ਬਿਲਟ ਡੇਟਾਸੈੱਟ ਸ਼ਾਮਲ ਹਨ, ਜਿਵੇਂ ਕਿ ਆਈਰਿਸ ਡੇਟਾਸੈਟ, ਘਰ ਦੀ ਕੀਮਤ ਡੇਟਾਸੈਟ, ਟਾਇਟੈਨਿਕ ਡੇਟਾਸੈਟ, ਅਤੇ ਹੋਰ। ਇਹਨਾਂ ਡੇਟਾਸੈਟਾਂ ਦੇ ਮੁੱਖ ਫਾਇਦੇ ਇਹ ਹਨ ਕਿ ਉਹ ਸਮਝਣ ਵਿੱਚ ਅਸਾਨ ਹਨ ਅਤੇ ਤੁਰੰਤ ਐਮਐਲ ਮਾਡਲਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ। ਇਹ ਡੇਟਾਸੈਟ ਨਵੇਂ ਲੋਕਾਂ ਲਈ ਢੁਕਵੇਂ ਹਨ। ਇਸੇ ਤਰ੍ਹਾਂ, ਤੁਸੀਂ ਵਾਧੂ ਡੇਟਾਸੇਟਾਂ ਨੂੰ ਆਯਾਤ ਕਰਨ ਲਈ sklearn ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ। ਇਸੇ ਤਰ੍ਹਾਂ, ਤੁਸੀਂ ਇਸਦੀ ਵਰਤੋਂ ਵਾਧੂ ਡੇਟਾਸੇਟਾਂ ਨੂੰ ਆਯਾਤ ਕਰਨ ਲਈ ਕਰ ਸਕਦੇ ਹੋ।
2. ਸਿਖਲਾਈ ਅਤੇ ਟੈਸਟਿੰਗ ਲਈ ਡੇਟਾਸੈਟ ਨੂੰ ਵੰਡਣਾ
Sklearn ਵਿੱਚ ਡੇਟਾਸੈਟ ਨੂੰ ਸਿਖਲਾਈ ਅਤੇ ਟੈਸਟਿੰਗ ਖੰਡਾਂ ਵਿੱਚ ਵੰਡਣ ਦੀ ਯੋਗਤਾ ਸ਼ਾਮਲ ਹੈ। ਪੂਰਵ ਅਨੁਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਨਿਰਪੱਖ ਮੁਲਾਂਕਣ ਲਈ ਡੇਟਾਸੈਟ ਨੂੰ ਵੰਡਣਾ ਜ਼ਰੂਰੀ ਹੈ। ਅਸੀਂ ਦੱਸ ਸਕਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਕਿੰਨੇ ਡੇਟਾ ਨੂੰ ਰੇਲਗੱਡੀ ਅਤੇ ਟੈਸਟ ਡੇਟਾਸੈਟਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਅਸੀਂ ਟ੍ਰੇਨ ਟੈਸਟ ਸਪਲਿਟ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਡੇਟਾਸੈਟ ਨੂੰ ਵੰਡਿਆ ਹੈ ਜਿਵੇਂ ਕਿ ਟ੍ਰੇਨ ਸੈੱਟ ਵਿੱਚ 80% ਡੇਟਾ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ ਅਤੇ ਟੈਸਟ ਸੈੱਟ ਵਿੱਚ 20% ਹੁੰਦਾ ਹੈ। ਡੇਟਾਸੈਟ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਵੰਡਿਆ ਜਾ ਸਕਦਾ ਹੈ:
3. ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ
ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਇੱਕ ਨਿਰੀਖਣ ਕੀਤੀ ਸਿਖਲਾਈ-ਅਧਾਰਤ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਤਕਨੀਕ ਹੈ। ਇਹ ਇੱਕ ਰਿਗਰੈਸ਼ਨ ਕੰਮ ਕਰਦਾ ਹੈ। ਸੁਤੰਤਰ ਵੇਰੀਏਬਲਾਂ ਦੇ ਆਧਾਰ 'ਤੇ, ਰਿਗਰੈਸ਼ਨ ਮਾਡਲ ਇੱਕ ਟੀਚਾ ਪੂਰਵ ਅਨੁਮਾਨ ਮੁੱਲ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਜਿਆਦਾਤਰ ਵੇਰੀਏਬਲ ਅਤੇ ਪੂਰਵ ਅਨੁਮਾਨ ਦੇ ਵਿਚਕਾਰ ਸਬੰਧ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਵੱਖੋ-ਵੱਖਰੇ ਰਿਗਰੈਸ਼ਨ ਮਾੱਡਲ ਨਿਰਭਰ ਅਤੇ ਸੁਤੰਤਰ ਵੇਰੀਏਬਲਾਂ ਦੇ ਨਾਲ-ਨਾਲ ਵਰਤੇ ਗਏ ਸੁਤੰਤਰ ਵੇਰੀਏਬਲਾਂ ਦੀ ਗਿਣਤੀ ਦੇ ਵਿਚਕਾਰ ਕਨੈਕਸ਼ਨ ਦੀ ਕਿਸਮ ਦੇ ਰੂਪ ਵਿੱਚ ਵੱਖਰੇ ਹੁੰਦੇ ਹਨ। ਅਸੀਂ ਹੇਠਾਂ ਦਿੱਤੇ sklearn ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਮਾਡਲ ਬਣਾ ਸਕਦੇ ਹਾਂ:
4. ਲੌਜਿਸਟਿਕ ਰਿਗਰੈਸ਼ਨ
ਇੱਕ ਆਮ ਵਰਗੀਕਰਨ ਪਹੁੰਚ ਲੌਜਿਸਟਿਕ ਰਿਗਰੈਸ਼ਨ ਹੈ। ਇਹ ਪੌਲੀਨੋਮੀਅਲ ਅਤੇ ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਦੇ ਸਮਾਨ ਪਰਿਵਾਰ ਵਿੱਚ ਹੈ ਅਤੇ ਰੇਖਿਕ ਵਰਗੀਕਰਣ ਪਰਿਵਾਰ ਨਾਲ ਸਬੰਧਤ ਹੈ। ਲੌਜਿਸਟਿਕ ਰੀਗਰੈਸ਼ਨ ਦੀਆਂ ਖੋਜਾਂ ਸਮਝਣ ਲਈ ਸਧਾਰਨ ਹਨ ਅਤੇ ਗਣਨਾ ਕਰਨ ਲਈ ਤੇਜ਼ ਹਨ। ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਵਾਂਗ ਹੀ, ਲੌਜਿਸਟਿਕ ਰਿਗਰੈਸ਼ਨ ਇੱਕ ਨਿਗਰਾਨੀ ਕੀਤੀ ਰਿਗਰੈਸ਼ਨ ਤਕਨੀਕ ਹੈ। ਆਉਟਪੁੱਟ ਵੇਰੀਏਬਲ ਸਪੱਸ਼ਟ ਹੈ, ਇਸ ਲਈ ਇਹ ਸਿਰਫ ਫਰਕ ਹੈ। ਇਹ ਨਿਰਧਾਰਤ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਮਰੀਜ਼ ਨੂੰ ਦਿਲ ਦੀ ਬਿਮਾਰੀ ਹੈ ਜਾਂ ਨਹੀਂ।
ਵੱਖ-ਵੱਖ ਵਰਗੀਕਰਣ ਮੁੱਦੇ, ਜਿਵੇਂ ਕਿ ਸਪੈਮ ਖੋਜ, ਨੂੰ ਲੌਜਿਸਟਿਕ ਰੀਗਰੈਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਹੱਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਡਾਇਬੀਟੀਜ਼ ਦੀ ਭਵਿੱਖਬਾਣੀ, ਇਹ ਨਿਰਧਾਰਤ ਕਰਨਾ ਕਿ ਕੀ ਕੋਈ ਉਪਭੋਗਤਾ ਇੱਕ ਖਾਸ ਉਤਪਾਦ ਖਰੀਦੇਗਾ ਜਾਂ ਕਿਸੇ ਵਿਰੋਧੀ ਨੂੰ ਬਦਲੇਗਾ, ਇਹ ਨਿਰਧਾਰਤ ਕਰਨਾ ਕਿ ਕੀ ਉਪਭੋਗਤਾ ਇੱਕ ਖਾਸ ਮਾਰਕੀਟਿੰਗ ਲਿੰਕ 'ਤੇ ਕਲਿੱਕ ਕਰੇਗਾ, ਅਤੇ ਹੋਰ ਬਹੁਤ ਸਾਰੇ ਦ੍ਰਿਸ਼ ਸਿਰਫ ਕੁਝ ਉਦਾਹਰਣਾਂ ਹਨ।
5. ਨਿਰਣਾਇਕ ਰੁੱਖ
ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ ਅਤੇ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤੀ ਜਾਂਦੀ ਵਰਗੀਕਰਨ ਅਤੇ ਪੂਰਵ-ਅਨੁਮਾਨ ਤਕਨੀਕ ਫੈਸਲੇ ਦਾ ਰੁੱਖ ਹੈ। ਇੱਕ ਨਿਰਣਾਇਕ ਰੁੱਖ ਇੱਕ ਰੁੱਖ ਦਾ ਢਾਂਚਾ ਹੁੰਦਾ ਹੈ ਜੋ ਇੱਕ ਫਲੋਚਾਰਟ ਵਰਗਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ, ਹਰੇਕ ਅੰਦਰੂਨੀ ਨੋਡ ਇੱਕ ਗੁਣ 'ਤੇ ਇੱਕ ਟੈਸਟ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਹਰੇਕ ਸ਼ਾਖਾ ਟੈਸਟ ਦੇ ਸਿੱਟੇ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ, ਅਤੇ ਹਰੇਕ ਲੀਫ ਨੋਡ (ਟਰਮੀਨਲ ਨੋਡ) ਇੱਕ ਕਲਾਸ ਲੇਬਲ ਰੱਖਦਾ ਹੈ।
ਜਦੋਂ ਨਿਰਭਰ ਵੇਰੀਏਬਲਾਂ ਦਾ ਸੁਤੰਤਰ ਵੇਰੀਏਬਲਾਂ ਨਾਲ ਕੋਈ ਲੀਨੀਅਰ ਰਿਸ਼ਤਾ ਨਹੀਂ ਹੁੰਦਾ, ਭਾਵ ਜਦੋਂ ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਸਹੀ ਖੋਜਾਂ ਨਹੀਂ ਪੈਦਾ ਕਰਦਾ, ਤਾਂ ਨਿਰਣਾਇਕ ਰੁੱਖ ਲਾਭਦਾਇਕ ਹੁੰਦੇ ਹਨ। DecisionTreeRegression() ਆਬਜੈਕਟ ਨੂੰ ਰਿਗਰੈਸ਼ਨ ਲਈ ਫੈਸਲੇ ਦੇ ਰੁੱਖ ਦੀ ਵਰਤੋਂ ਕਰਨ ਲਈ ਇਸੇ ਤਰ੍ਹਾਂ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।
6. ਬੇਤਰਤੀਬ ਜੰਗਲ
ਇੱਕ ਬੇਤਰਤੀਬ ਜੰਗਲ ਏ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਰਿਗਰੈਸ਼ਨ ਅਤੇ ਵਰਗੀਕਰਨ ਦੇ ਮੁੱਦਿਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਪਹੁੰਚ ਇਹ ensemble ਸਿੱਖਣ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਇੱਕ ਤਕਨੀਕ ਹੈ ਜੋ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਕਈ ਵਰਗੀਕਰਣਾਂ ਨੂੰ ਜੋੜਦੀ ਹੈ। ਇੱਕ ਬੇਤਰਤੀਬ ਜੰਗਲ ਦਾ ਤਰੀਕਾ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਫੈਸਲੇ ਦੇ ਰੁੱਖਾਂ ਦਾ ਬਣਿਆ ਹੁੰਦਾ ਹੈ। ਇਸਦੀ ਵਰਤੋਂ ਕਰਜ਼ੇ ਦੀਆਂ ਅਰਜ਼ੀਆਂ ਨੂੰ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਨ, ਧੋਖਾਧੜੀ ਵਾਲੇ ਵਿਵਹਾਰ ਦਾ ਪਤਾ ਲਗਾਉਣ ਅਤੇ ਬਿਮਾਰੀ ਦੇ ਫੈਲਣ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
7. ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ
ਇੱਕ ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ ਇੱਕ ਸਾਰਣੀ ਹੈ ਜੋ ਵਰਗੀਕਰਨ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਵਰਣਨ ਕਰਨ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਹੈ। ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਹੇਠਾਂ ਦਿੱਤੇ ਚਾਰ ਸ਼ਬਦਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ:
- ਸਹੀ ਸਕਾਰਾਤਮਕ: ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੇ ਇੱਕ ਅਨੁਕੂਲ ਨਤੀਜਾ ਪੇਸ਼ ਕੀਤਾ ਅਤੇ ਇਹ ਸਹੀ ਸੀ।
- ਸੱਚਾ ਨਕਾਰਾਤਮਕ: ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੇ ਇੱਕ ਮਾੜਾ ਨਤੀਜਾ ਪੇਸ਼ ਕੀਤਾ ਅਤੇ ਇਹ ਸਹੀ ਸੀ।
- ਗਲਤ ਸਕਾਰਾਤਮਕ: ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਇੱਕ ਅਨੁਕੂਲ ਨਤੀਜੇ ਦੀ ਉਮੀਦ ਸੀ ਪਰ ਇਹ ਅਸਲ ਵਿੱਚ ਇੱਕ ਨਕਾਰਾਤਮਕ ਸੀ।
- ਗਲਤ ਨਕਾਰਾਤਮਕ: ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਇੱਕ ਨਕਾਰਾਤਮਕ ਨਤੀਜੇ ਦੀ ਉਮੀਦ ਸੀ, ਜਦੋਂ ਕਿ ਨਤੀਜਾ ਅਸਲ ਵਿੱਚ ਸਕਾਰਾਤਮਕ ਸੀ।
ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ ਲਾਗੂ ਕਰਨਾ:
ਫ਼ਾਇਦੇ
- ਇਸ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸੌਖਾ ਹੈ.
- ਸਕਿਟ-ਲਰਨ ਪੈਕੇਜ ਬਹੁਤ ਹੀ ਅਨੁਕੂਲ ਅਤੇ ਉਪਯੋਗੀ ਹੈ, ਅਸਲ-ਸੰਸਾਰ ਟੀਚਿਆਂ ਜਿਵੇਂ ਕਿ ਉਪਭੋਗਤਾ ਵਿਵਹਾਰ ਦੀ ਭਵਿੱਖਬਾਣੀ, ਨਿਊਰੋਇਮੇਜ ਵਿਕਾਸ, ਆਦਿ ਦੀ ਸੇਵਾ ਕਰਦਾ ਹੈ।
- ਜਿਹੜੇ ਉਪਭੋਗਤਾ ਐਲਗੋਰਿਦਮ ਨੂੰ ਆਪਣੇ ਪਲੇਟਫਾਰਮਾਂ ਨਾਲ ਜੋੜਨਾ ਚਾਹੁੰਦੇ ਹਨ, ਉਹਨਾਂ ਨੂੰ ਸਕਿਟ-ਲਰਨ ਵੈੱਬਸਾਈਟ 'ਤੇ ਵਿਸਤ੍ਰਿਤ API ਦਸਤਾਵੇਜ਼ ਮਿਲਣਗੇ।
- ਬਹੁਤ ਸਾਰੇ ਲੇਖਕ, ਸਹਿਯੋਗੀ, ਅਤੇ ਇੱਕ ਵਿਸ਼ਾਲ ਵਿਸ਼ਵਵਿਆਪੀ ਔਨਲਾਈਨ ਕਮਿਊਨਿਟੀ ਸਹਾਇਤਾ ਅਤੇ Scikit-Learn ਨੂੰ ਅੱਪ ਟੂ ਡੇਟ ਰੱਖਦੇ ਹਨ।
ਨੁਕਸਾਨ
- ਇਹ ਡੂੰਘਾਈ ਨਾਲ ਅਧਿਐਨ ਕਰਨ ਲਈ ਆਦਰਸ਼ ਵਿਕਲਪ ਨਹੀਂ ਹੈ।
ਸਿੱਟਾ
ਸਕਿਟ-ਲਰਨ ਹਰੇਕ ਡੇਟਾ ਵਿਗਿਆਨੀ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਣ ਪੈਕੇਜ ਹੈ ਜਿਸਦੀ ਮਜ਼ਬੂਤੀ ਸਮਝ ਅਤੇ ਕੁਝ ਅਨੁਭਵ ਹੈ। ਇਹ ਗਾਈਡ sklearn ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਡਾਟਾ ਹੇਰਾਫੇਰੀ ਵਿੱਚ ਤੁਹਾਡੀ ਮਦਦ ਕਰੇਗੀ। ਸਕਿਟ-ਲਰਨ ਦੀਆਂ ਬਹੁਤ ਸਾਰੀਆਂ ਹੋਰ ਸਮਰੱਥਾਵਾਂ ਹਨ ਜੋ ਤੁਸੀਂ ਆਪਣੇ ਡੇਟਾ ਸਾਇੰਸ ਐਡਵੈਂਚਰ ਵਿੱਚ ਅੱਗੇ ਵਧਣ ਦੇ ਨਾਲ ਹੀ ਖੋਜੋਗੇ। ਟਿੱਪਣੀਆਂ ਵਿੱਚ ਆਪਣੇ ਵਿਚਾਰ ਸਾਂਝੇ ਕਰੋ.
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ