ਕੀ ਤੁਸੀਂ ਇਸ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨਾ ਚਾਹੋਗੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ?
ਮੈਂ ਸੰਪੂਰਨ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਇੱਕ ਸਧਾਰਨ ਅਤੇ ਆਸਾਨ ਟਿਊਟੋਰਿਅਲ ਬਣਾਇਆ ਹੈ। ਇਕੱਠੇ ਮਿਲ ਕੇ, ਅਸੀਂ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਦੇ ਬੁਨਿਆਦੀ ਪੜਾਵਾਂ 'ਤੇ ਜਾਵਾਂਗੇ।
ਇੱਕ-ਇੱਕ ਕਰਕੇ ਇੱਕ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਦੇ ਪੜਾਵਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਦੇ ਹੋਏ, ਮੈਂ ਇੱਕ ਮਸ਼ੀਨ-ਲਰਨਿੰਗ ਸਮੱਸਿਆ ਦਾ ਇੱਕ ਬਹੁਤ ਹੀ ਬੁਨਿਆਦੀ ਉਦਾਹਰਣ ਵੀ ਦੇਵਾਂਗਾ। ਇਸ ਲਈ, ਜੇਕਰ ਤੁਸੀਂ ਇਸ ਦੇ ਨਾਲ ਪਾਲਣਾ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਇਸ ਤੋਂ ਇਸ ਨਮੂਨਾ ਡੇਟਾ ਸੈੱਟ ਨੂੰ ਡਾਊਨਲੋਡ ਕਰ ਸਕਦੇ ਹੋ ਲਿੰਕ.
ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਿੱਚ ਤੁਹਾਡੀ ਮਦਦ ਕਰਨ ਲਈ ਇਹ ਸਿਰਫ਼ ਇੱਕ ਨਮੂਨਾ ਡੇਟਾਸੈਟ ਹੈ।
ਸਾਡੇ ਕੋਲ ਵੱਖ-ਵੱਖ ਉਮਰਾਂ ਅਤੇ ਲਿੰਗਾਂ ਦੇ ਲੋਕਾਂ ਦੇ 18 ਮੁੱਲ ਹਨ ਜਿਨ੍ਹਾਂ ਦੇ ਮਨਪਸੰਦ ਸੰਗੀਤ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। "ਉਮਰ" ਅਤੇ "ਲਿੰਗ" ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਅਸੀਂ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਾਂਗੇ ਕਿ ਸੰਗੀਤ ਦੀ ਕਿਹੜੀ ਸ਼ੈਲੀ ਉਹਨਾਂ ਦੀ ਮਨਪਸੰਦ ਹੈ।
ਨੋਟ: 1 ਅਤੇ 0 ਨੂੰ ਇਸ ਡੈਟਾਸੈੱਟ ਵਿੱਚ ਔਰਤ ਅਤੇ ਮਰਦ ਦੇ ਤੌਰ 'ਤੇ ਲਿੰਗਾਂ ਨੂੰ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਹੈ।
ਹਾਲਾਂਕਿ, ਜੇਕਰ ਤੁਸੀਂ ਉਦਾਹਰਨ ਦੀ ਪਾਲਣਾ ਨਹੀਂ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਇਹ ਬਿਲਕੁਲ ਠੀਕ ਹੈ। ਮੈਂ ਇਹਨਾਂ ਸਾਰੇ ਕਦਮਾਂ ਦੀ ਵਿਸਥਾਰ ਵਿੱਚ ਵਿਆਖਿਆ ਕਰਾਂਗਾ। ਇਸ ਲਈ, ਆਓ ਅੰਦਰ ਡੁਬਕੀ ਕਰੀਏ!
ਜਾਣਨ ਲਈ ਪਹਿਲੀਆਂ ਗੱਲਾਂ
ਇੱਕ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਦੇ ਪੜਾਵਾਂ ਵਿੱਚ ਜਾਣ ਤੋਂ ਪਹਿਲਾਂ, ਆਓ ਕੁਝ ਨੁਕਤਿਆਂ ਨੂੰ ਸਪੱਸ਼ਟ ਕਰੀਏ। ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਇੱਕ ਹੈ ਬਣਾਵਟੀ ਗਿਆਨ ਅਨੁਸ਼ਾਸਨ ਜੋ ਐਲਗੋਰਿਦਮ ਵਿਕਸਿਤ ਕਰਨ 'ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ ਜੋ ਡੇਟਾ ਤੋਂ ਸਿੱਖ ਸਕਦੇ ਹਨ।
ਅਜਿਹਾ ਕਰਨ ਲਈ, ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਡੇਟਾਸੈੱਟ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਸਿਖਾਉਂਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਸਹੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨੀ ਹੈ ਜਾਂ ਵਰਗੀਕਰਣ ਤਾਜ਼ਾ, ਪਹਿਲਾਂ ਅਣਜਾਣ ਡੇਟਾ 'ਤੇ।
ਇਸ ਲਈ, ਇਹ ਮਾਡਲ ਕੀ ਹਨ? ਏ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਇੱਕ ਵਿਅੰਜਨ ਦੇ ਸਮਾਨ ਹੈ ਜੋ ਇੱਕ ਕੰਪਿਊਟਰ ਡੇਟਾ ਪੂਰਵ-ਅਨੁਮਾਨ ਜਾਂ ਵਿਕਲਪ ਬਣਾਉਣ ਲਈ ਵਰਤਦਾ ਹੈ।
ਇੱਕ ਮਾਡਲ, ਇੱਕ ਵਿਅੰਜਨ ਵਾਂਗ, ਡੇਟਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਅਤੇ ਡੇਟਾ ਵਿੱਚ ਪਾਏ ਗਏ ਪੈਟਰਨਾਂ ਦੇ ਅਧਾਰ ਤੇ ਪੂਰਵ-ਅਨੁਮਾਨ ਜਾਂ ਨਿਰਣੇ ਬਣਾਉਣ ਲਈ ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਨੂੰ ਜਿੰਨੇ ਜ਼ਿਆਦਾ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਇਸ ਦੀਆਂ ਭਵਿੱਖਬਾਣੀਆਂ ਓਨੀਆਂ ਹੀ ਸਹੀ ਹੁੰਦੀਆਂ ਹਨ।
ਅਸੀਂ ਕਿਸ ਕਿਸਮ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇ ਸਕਦੇ ਹਾਂ?
ਆਓ ਦੇਖੀਏ ਕਿ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੇ ਬੁਨਿਆਦੀ ਮਾਡਲ ਕੀ ਹਨ।
- ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ: ਇੱਕ ਮਾਡਲ ਜੋ ਇੱਕ ਜਾਂ ਇੱਕ ਤੋਂ ਵੱਧ ਇਨਪੁਟ ਵੇਰੀਏਬਲਾਂ ਤੋਂ ਲਗਾਤਾਰ ਟਾਰਗੇਟ ਵੇਰੀਏਬਲ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ।
- ਨਿਊਰਲ ਨੈੱਟਵਰਕ: ਲਿੰਕਡ ਨੋਡਾਂ ਦਾ ਇੱਕ ਨੈਟਵਰਕ ਜੋ ਡੇਟਾ ਵਿੱਚ ਗੁੰਝਲਦਾਰ ਪੈਟਰਨਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਸਿੱਖ ਸਕਦਾ ਹੈ।
- ਨਿਰਣਾਇਕ ਰੁੱਖ: ਇੱਕ ਫੈਸਲੇ ਲੈਣ ਦੀ ਪਹੁੰਚ ਸ਼ਾਖਾਵਾਂ ਦੀ ਇੱਕ ਲੜੀ 'ਤੇ ਬਣੀ ਹੋਈ ਹੈ if-else ਸਟੇਟਮੈਂਟਾਂ।
- ਕਲੱਸਟਰਿੰਗ: ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਜੋ ਸਮਾਨਤਾ ਦੇ ਅਧਾਰ 'ਤੇ ਤੁਲਨਾਤਮਕ ਡੇਟਾ ਪੁਆਇੰਟਾਂ ਦਾ ਸਮੂਹ ਕਰਦਾ ਹੈ।
- ਲੌਜਿਸਟਿਕ ਰਿਗਰੈਸ਼ਨ: ਬਾਈਨਰੀ ਵਰਗੀਕਰਨ ਸਮੱਸਿਆਵਾਂ ਲਈ ਇੱਕ ਮਾਡਲ ਜਿਸ ਵਿੱਚ ਟੀਚਾ ਵੇਰੀਏਬਲ ਦੇ ਦੋ ਸੰਭਾਵੀ ਮੁੱਲ ਹਨ।
- ਨਿਰਣਾਇਕ ਰੁੱਖ: ਇੱਕ ਫੈਸਲੇ ਲੈਣ ਦੀ ਪਹੁੰਚ ਸ਼ਾਖਾਵਾਂ ਦੀ ਇੱਕ ਲੜੀ 'ਤੇ ਬਣੀ ਹੋਈ ਹੈ if-else ਸਟੇਟਮੈਂਟਾਂ।
- ਰੈਂਡਮ ਫੋਰੈਸਟ: ਬਹੁਤ ਸਾਰੇ ਫੈਸਲੇ ਵਾਲੇ ਰੁੱਖਾਂ ਦਾ ਬਣਿਆ ਇੱਕ ਸਮੂਹ ਮਾਡਲ। ਉਹ ਅਕਸਰ ਵਰਗੀਕਰਨ ਅਤੇ ਰਿਗਰੈਸ਼ਨ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਵਰਤੇ ਜਾਂਦੇ ਹਨ।
- ਕੇ-ਨੇੜਲੇ ਗੁਆਂਢੀ: ਇੱਕ ਮਾਡਲ ਜੋ ਸਿਖਲਾਈ ਸੈੱਟ ਵਿੱਚ k-ਨੇੜਲੇ ਡੇਟਾ ਪੁਆਇੰਟਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਟੀਚੇ ਦੇ ਵੇਰੀਏਬਲ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ।
ਸਾਡੀ ਸਮੱਸਿਆ ਅਤੇ ਡੇਟਾਸੈਟ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹੋਏ, ਅਸੀਂ ਫੈਸਲਾ ਕਰਦੇ ਹਾਂ ਕਿ ਕਿਹੜਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਸਾਡੀ ਸਥਿਤੀ ਨੂੰ ਸਭ ਤੋਂ ਵੱਧ ਫਿੱਟ ਕਰਦਾ ਹੈ। ਫਿਰ ਵੀ, ਅਸੀਂ ਇਸ ਬਾਰੇ ਬਾਅਦ ਵਿੱਚ ਵਾਪਸ ਆਵਾਂਗੇ। ਹੁਣ, ਆਓ ਆਪਣੇ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਸ਼ੁਰੂ ਕਰੀਏ। ਮੈਨੂੰ ਉਮੀਦ ਹੈ ਕਿ ਤੁਸੀਂ ਪਹਿਲਾਂ ਹੀ ਡਾਊਨਲੋਡ ਕਰ ਲਿਆ ਹੈ ਡੇਟਾਸੇਟ ਜੇਕਰ ਤੁਸੀਂ ਸਾਡੀ ਮਿਸਾਲ ਦੀ ਪਾਲਣਾ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ।
ਨਾਲ ਹੀ, ਮੈਂ ਹੋਣ ਦੀ ਸਿਫਾਰਸ਼ ਕਰਦਾ ਹਾਂ ਜੁਪੀਟਰ ਨੋਟਬੁੱਕ ਤੁਹਾਡੀ ਸਥਾਨਕ ਮਸ਼ੀਨ 'ਤੇ ਸਥਾਪਿਤ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਇਸਨੂੰ ਤੁਹਾਡੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ ਵਰਤ ਰਿਹਾ ਹੈ।
1: ਸਮੱਸਿਆ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ
ਵਿਚ ਪਹਿਲਾ ਪੜਾਅ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੀ ਸਿਖਲਾਈ ਮਾਡਲ ਹੱਲ ਕਰਨ ਲਈ ਮੁੱਦੇ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰ ਰਿਹਾ ਹੈ। ਇਸ ਵਿੱਚ ਉਹਨਾਂ ਵੇਰੀਏਬਲਾਂ ਨੂੰ ਚੁਣਨਾ ਸ਼ਾਮਲ ਹੈ ਜੋ ਤੁਸੀਂ ਪੂਰਵ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ (ਜਿਨ੍ਹਾਂ ਨੂੰ ਟੀਚਾ ਵੇਰੀਏਬਲ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ) ਅਤੇ ਵੇਰੀਏਬਲ ਜੋ ਉਹਨਾਂ ਪੂਰਵ-ਅਨੁਮਾਨਾਂ (ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜਾਂ ਪੂਰਵ-ਅਨੁਮਾਨਾਂ ਵਜੋਂ ਜਾਣੇ ਜਾਂਦੇ ਹਨ) ਬਣਾਉਣ ਲਈ ਵਰਤੇ ਜਾਣਗੇ।
ਤੁਹਾਨੂੰ ਇਹ ਵੀ ਤੈਅ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕਿਸ ਕਿਸਮ ਦੀ ਮਸ਼ੀਨ-ਲਰਨਿੰਗ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹੋ (ਵਰਗੀਕਰਨ, ਰਿਗਰੈਸ਼ਨ, ਕਲੱਸਟਰਿੰਗ, ਅਤੇ ਹੋਰ) ਅਤੇ ਤੁਹਾਨੂੰ ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕਿਸ ਕਿਸਮ ਦਾ ਡੇਟਾ ਇਕੱਠਾ ਕਰਨ ਜਾਂ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਲੋੜ ਪਵੇਗੀ।
ਤੁਹਾਡੇ ਦੁਆਰਾ ਨਿਯੁਕਤ ਕੀਤੇ ਗਏ ਮਾਡਲ ਦੀ ਕਿਸਮ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਸਮੱਸਿਆ ਦੀ ਕਿਸਮ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤੀ ਜਾਵੇਗੀ ਜਿਸ ਨੂੰ ਤੁਸੀਂ ਹੱਲ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ। ਵਰਗੀਕਰਨ, ਰਿਗਰੈਸ਼ਨ ਅਤੇ ਕਲੱਸਟਰਿੰਗ ਤਿੰਨ ਪ੍ਰਾਇਮਰੀ ਸ਼੍ਰੇਣੀਆਂ ਹਨ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਚੁਣੌਤੀਆਂ. ਜਦੋਂ ਤੁਸੀਂ ਕਿਸੇ ਸ਼੍ਰੇਣੀਗਤ ਵੇਰੀਏਬਲ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਜਿਵੇਂ ਕਿ ਕੀ ਕੋਈ ਈਮੇਲ ਸਪੈਮ ਹੈ ਜਾਂ ਨਹੀਂ, ਤੁਸੀਂ ਵਰਗੀਕਰਨ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ।
ਜਦੋਂ ਤੁਸੀਂ ਇੱਕ ਨਿਰੰਤਰ ਵੇਰੀਏਬਲ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਘਰ ਦੀ ਕੀਮਤ, ਤੁਸੀਂ ਰਿਗਰੈਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ। ਕਲੱਸਟਰਿੰਗ ਦੀ ਵਰਤੋਂ ਉਹਨਾਂ ਦੀਆਂ ਸਮਾਨਤਾਵਾਂ ਦੇ ਅਧਾਰ ਤੇ ਤੁਲਨਾਤਮਕ ਡੇਟਾ ਆਈਟਮਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਜੇ ਅਸੀਂ ਆਪਣੀ ਉਦਾਹਰਨ ਦੇਖੀਏ; ਸਾਡੀ ਚੁਣੌਤੀ ਕਿਸੇ ਵਿਅਕਤੀ ਦੇ ਲਿੰਗ ਅਤੇ ਉਮਰ ਤੋਂ ਉਸ ਦੀ ਪਸੰਦੀਦਾ ਸੰਗੀਤ ਸ਼ੈਲੀ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨਾ ਹੈ। ਅਸੀਂ ਇਸ ਉਦਾਹਰਨ ਲਈ ਅਤੇ ਉਹਨਾਂ ਦੀ ਉਮਰ, ਲਿੰਗ, ਅਤੇ ਮਨਪਸੰਦ ਸੰਗੀਤ ਸ਼ੈਲੀ ਬਾਰੇ ਜਾਣਕਾਰੀ ਲਈ 18 ਲੋਕਾਂ ਦੇ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ।
2. ਡੇਟਾ ਤਿਆਰ ਕਰੋ
ਤੁਹਾਡੇ ਦੁਆਰਾ ਸਮੱਸਿਆ ਨੂੰ ਨਿਸ਼ਚਿਤ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਤੁਹਾਨੂੰ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਲਈ ਡੇਟਾ ਤਿਆਰ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਹੋਏਗੀ। ਇਸ ਵਿੱਚ ਡੇਟਾ ਦੀ ਸਫਾਈ ਅਤੇ ਪ੍ਰੋਸੈਸਿੰਗ ਸ਼ਾਮਲ ਹੈ। ਇਸ ਲਈ, ਅਸੀਂ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿ ਇਹ ਇੱਕ ਫਾਰਮੈਟ ਵਿੱਚ ਹੈ ਜੋ ਕਿ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਐਲਗੋਰਿਦਮ ਵਰਤ ਸਕਦੇ ਹੋ.
ਇਸ ਵਿੱਚ ਗਾਇਬ ਮੁੱਲਾਂ ਨੂੰ ਮਿਟਾਉਣ, ਸ਼੍ਰੇਣੀਬੱਧ ਡੇਟਾ ਨੂੰ ਸੰਖਿਆਤਮਕ ਡੇਟਾ ਵਿੱਚ ਬਦਲਣਾ, ਅਤੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਡੇਟਾ ਨੂੰ ਸਕੇਲਿੰਗ ਜਾਂ ਸਧਾਰਣ ਬਣਾਉਣ ਵਰਗੀਆਂ ਗਤੀਵਿਧੀਆਂ ਸ਼ਾਮਲ ਹੋ ਸਕਦੀਆਂ ਹਨ ਕਿ ਸਾਰੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਇੱਕੋ ਪੈਮਾਨੇ 'ਤੇ ਹਨ।
ਉਦਾਹਰਨ ਲਈ, ਤੁਸੀਂ ਗੁੰਮ ਹੋਏ ਮੁੱਲਾਂ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਮਿਟਾਉਂਦੇ ਹੋ:
import pandas as pd
# Load the data into a pandas DataFrame
data = pd.read_csv('data.csv')
# Check for missing values
print(data.isnull().sum())
# Drop rows with missing values
data.dropna(inplace=True)
# Check that all missing values have been removed
print(data.isnull().sum())
ਛੋਟਾ ਨੋਟ: ਲਾਈਨ ਵਿੱਚ o “import pandas as pd",
ਅਸੀਂ ਪਾਂਡਾਸ ਲਾਇਬ੍ਰੇਰੀ ਨੂੰ ਆਯਾਤ ਕਰਦੇ ਹਾਂ ਅਤੇ ਇਸਨੂੰ ਬਾਅਦ ਵਿੱਚ ਕੋਡ ਵਿੱਚ ਇਸਦੇ ਫੰਕਸ਼ਨਾਂ ਅਤੇ ਵਸਤੂਆਂ ਦਾ ਹਵਾਲਾ ਦੇਣਾ ਆਸਾਨ ਬਣਾਉਣ ਲਈ ਇਸਨੂੰ ਉਪਨਾਮ "pd" ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਾਂ।
ਪਾਂਡਾ ਡੇਟਾ ਹੇਰਾਫੇਰੀ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਪਾਈਥਨ ਲਈ ਇੱਕ ਜਾਣਿਆ-ਪਛਾਣਿਆ ਮੋਡੀਊਲ ਹੈ, ਖਾਸ ਤੌਰ 'ਤੇ ਜਦੋਂ ਸਟ੍ਰਕਚਰਡ ਜਾਂ ਟੇਬਲਯੂਲਰ ਡੇਟਾ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ।
ਸੰਗੀਤ ਸ਼ੈਲੀਆਂ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀ ਸਾਡੀ ਉਦਾਹਰਣ ਵਿੱਚ। ਅਸੀਂ ਪਹਿਲਾਂ ਡੇਟਾਸੇਟ ਨੂੰ ਆਯਾਤ ਕਰਾਂਗੇ। ਮੈਂ ਇਸਦਾ ਨਾਮ music.csv ਰੱਖਿਆ ਹੈ, ਹਾਲਾਂਕਿ, ਤੁਸੀਂ ਇਸਨੂੰ ਜਿਵੇਂ ਚਾਹੋ ਨਾਮ ਦੇ ਸਕਦੇ ਹੋ।
ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਡੇਟਾ ਤਿਆਰ ਕਰਨ ਲਈ, ਅਸੀਂ ਇਸਨੂੰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਉਮਰ ਅਤੇ ਲਿੰਗ) ਅਤੇ ਉਦੇਸ਼ਾਂ (ਸੰਗੀਤ ਸ਼ੈਲੀ) ਵਿੱਚ ਵੰਡਦੇ ਹਾਂ।
ਅਸੀਂ ਆਪਣੇ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਅਤੇ ਓਵਰਫਿਟਿੰਗ ਤੋਂ ਬਚਣ ਲਈ ਡੇਟਾ ਨੂੰ 80:20 ਸਿਖਲਾਈ ਅਤੇ ਟੈਸਟਿੰਗ ਸੈੱਟਾਂ ਵਿੱਚ ਵੀ ਵੰਡਾਂਗੇ।
# Import necessary libraries
import pandas as pd
from sklearn.model_selection import train_test_split
# Load data from CSV file/code>
music_data = pd.read_csv('music.csv')
# Split data into features and target
X = music_data.drop(columns=['genre'])
y = music_data['genre']
# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
3. ਇੱਕ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਚੁਣੋ।
ਤੁਹਾਡੇ ਦੁਆਰਾ ਡੇਟਾ ਤਿਆਰ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਤੁਹਾਨੂੰ ਇੱਕ ਮਸ਼ੀਨ-ਲਰਨਿੰਗ ਮਾਡਲ ਚੁਣਨਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਤੁਹਾਡੇ ਕੰਮ ਲਈ ਅਨੁਕੂਲ ਹੋਵੇ।
ਚੁਣਨ ਲਈ ਕਈ ਐਲਗੋਰਿਦਮ ਹਨ, ਜਿਵੇਂ ਕਿ ਫੈਸਲੇ ਦੇ ਰੁੱਖ, ਲੌਜਿਸਟਿਕ ਰੀਗਰੈਸ਼ਨ, ਸਹਾਇਤਾ ਵੈਕਟਰ ਮਸ਼ੀਨਾਂ, ਨਿਊਰਲ ਨੈੱਟਵਰਕ, ਅਤੇ ਹੋਰ। ਤੁਹਾਡੇ ਦੁਆਰਾ ਚੁਣਿਆ ਗਿਆ ਐਲਗੋਰਿਦਮ ਤੁਹਾਡੇ ਦੁਆਰਾ ਜਵਾਬ ਦੇਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਮੁੱਦੇ, ਤੁਹਾਡੇ ਕੋਲ ਮੌਜੂਦ ਡੇਟਾ ਦੀ ਕਿਸਮ, ਅਤੇ ਤੁਹਾਡੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀਆਂ ਲੋੜਾਂ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤਾ ਜਾਵੇਗਾ।
ਅਸੀਂ ਇਸ ਉਦਾਹਰਨ ਲਈ ਇੱਕ ਨਿਰਣਾਇਕ ਟ੍ਰੀ ਕਲਾਸੀਫਾਇਰ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ ਕਿਉਂਕਿ ਅਸੀਂ ਇੱਕ ਵਰਗੀਕਰਨ ਸਮੱਸਿਆ ਨਾਲ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ (ਸ਼੍ਰੇਣੀਗਤ ਡੇਟਾ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨਾ)।
# Import necessary libraries
from sklearn.tree import DecisionTreeClassifier
ਇੱਥੇ ਇੱਕ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਹੈ ਕਿ ਫੈਸਲਾ ਟ੍ਰੀ ਵਰਗੀਫਾਇਰ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ:
4. ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦਿਓ
ਜਦੋਂ ਤੁਸੀਂ ਇੱਕ ਸਵੀਕਾਰਯੋਗ ਮਸ਼ੀਨ-ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਚੁਣਦੇ ਹੋ ਤਾਂ ਤੁਸੀਂ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹੋ। ਇਹ ਐਲਗੋਰਿਦਮ ਨੂੰ ਸਿੱਖਿਅਤ ਕਰਨ ਲਈ ਪਹਿਲਾਂ ਤਿਆਰ ਕੀਤੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਕਿ ਤਾਜ਼ਾ, ਪਹਿਲਾਂ ਅਣਦੇਖੇ ਡੇਟਾ 'ਤੇ ਭਵਿੱਖਬਾਣੀ ਕਿਵੇਂ ਕੀਤੀ ਜਾਵੇ।
ਐਲਗੋਰਿਦਮ ਸਿਖਲਾਈ ਦੇ ਦੌਰਾਨ ਇਸਦੇ ਅੰਦਰੂਨੀ ਮਾਪਦੰਡਾਂ ਨੂੰ ਸੰਸ਼ੋਧਿਤ ਕਰੇਗਾ ਤਾਂ ਜੋ ਇਸਦੇ ਅਨੁਮਾਨਿਤ ਮੁੱਲਾਂ ਅਤੇ ਸਿਖਲਾਈ ਡੇਟਾ ਵਿੱਚ ਅਸਲ ਮੁੱਲਾਂ ਵਿੱਚ ਅੰਤਰ ਨੂੰ ਘੱਟ ਕੀਤਾ ਜਾ ਸਕੇ। ਸਿਖਲਾਈ ਲਈ ਵਰਤੇ ਗਏ ਡੇਟਾ ਦੀ ਮਾਤਰਾ, ਅਤੇ ਨਾਲ ਹੀ ਐਲਗੋਰਿਦਮ ਦੇ ਖਾਸ ਮਾਪਦੰਡ, ਸਭ ਦਾ ਨਤੀਜਾ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ 'ਤੇ ਪ੍ਰਭਾਵ ਪੈ ਸਕਦਾ ਹੈ।
ਸਾਡੇ ਖਾਸ ਉਦਾਹਰਨ ਵਿੱਚ, ਹੁਣ ਜਦੋਂ ਅਸੀਂ ਇੱਕ ਢੰਗ ਦਾ ਫੈਸਲਾ ਕਰ ਲਿਆ ਹੈ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਡੇਟਾ ਨਾਲ ਸਿਖਲਾਈ ਦੇ ਸਕਦੇ ਹਾਂ।
# Train the decision tree classifier
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
5. ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ
ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਤੋਂ ਬਾਅਦ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਨਵੇਂ ਡੇਟਾ 'ਤੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਹ ਸਹੀ ਅਤੇ ਭਰੋਸੇਯੋਗ ਹੈ। ਇਸ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਅਜਿਹੇ ਡੇਟਾ ਦੇ ਨਾਲ ਟੈਸਟ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ ਜਿਸਦੀ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵਰਤੋਂ ਨਹੀਂ ਕੀਤੀ ਗਈ ਸੀ ਅਤੇ ਇਸਦੇ ਅਨੁਮਾਨਿਤ ਮੁੱਲਾਂ ਦੀ ਤੁਲਨਾ ਟੈਸਟ ਡੇਟਾ ਵਿੱਚ ਅਸਲ ਮੁੱਲਾਂ ਨਾਲ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਇਹ ਸਮੀਖਿਆ ਕਿਸੇ ਵੀ ਮਾਡਲ ਦੀਆਂ ਖਾਮੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਓਵਰਫਿਟਿੰਗ ਜਾਂ ਅੰਡਰਫਿਟਿੰਗ, ਅਤੇ ਕਿਸੇ ਵੀ ਵਧੀਆ-ਟਿਊਨਿੰਗ ਦੀ ਅਗਵਾਈ ਕਰ ਸਕਦੀ ਹੈ ਜਿਸਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ।
ਟੈਸਟਿੰਗ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਾਂਗੇ।
# Import necessary libraries
from sklearn.metrics import accuracy_score
# Predict the music genre for the test data
predictions = model.predict(X_test)
# Evaluate the model's accuracy
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: ", accuracy)
ਸ਼ੁੱਧਤਾ ਸਕੋਰ ਹੁਣ ਲਈ ਇੰਨਾ ਮਾੜਾ ਨਹੀਂ ਹੈ। 🙂 ਆਪਣੇ ਸਟੀਕਤਾ ਸਕੋਰ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ, ਤੁਸੀਂ ਹਮੇਸ਼ਾ ਡਾਟਾ ਨੂੰ ਹੋਰ ਸਾਫ਼ ਕਰ ਸਕਦੇ ਹੋ ਜਾਂ ਵੱਖ-ਵੱਖ ਮਸ਼ੀਨ-ਲਰਨਿੰਗ ਮਾਡਲਾਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹੋ ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਕਿਹੜਾ ਸਭ ਤੋਂ ਵੱਧ ਸਕੋਰ ਦਿੰਦਾ ਹੈ।
6. ਮਾਡਲ ਨੂੰ ਵਧੀਆ ਬਣਾਓ
ਜੇਕਰ ਮਾਡਲ ਦੀ ਕੁਸ਼ਲਤਾ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਐਲਗੋਰਿਦਮ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਬਦਲ ਕੇ ਜਾਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੇਂ ਐਲਗੋਰਿਦਮ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਕੇ ਇਸ ਨੂੰ ਵਧੀਆ ਬਣਾ ਸਕਦੇ ਹੋ।
ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਵਿਕਲਪਕ ਸਿੱਖਣ ਦੀਆਂ ਦਰਾਂ ਦੇ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨਾ, ਨਿਯਮਤਕਰਨ ਸੈਟਿੰਗਾਂ ਨੂੰ ਸੋਧਣਾ, ਜਾਂ ਨਿਊਰਲ ਨੈਟਵਰਕ ਵਿੱਚ ਲੁਕੀਆਂ ਪਰਤਾਂ ਦੀ ਸੰਖਿਆ ਜਾਂ ਆਕਾਰ ਨੂੰ ਬਦਲਣਾ ਸ਼ਾਮਲ ਹੋ ਸਕਦਾ ਹੈ।
7. ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰੋ
ਇੱਕ ਵਾਰ ਜਦੋਂ ਤੁਸੀਂ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਤੋਂ ਖੁਸ਼ ਹੋ ਜਾਂਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਨਵੇਂ ਡੇਟਾ 'ਤੇ ਪੂਰਵ-ਅਨੁਮਾਨ ਬਣਾਉਣ ਲਈ ਇਸਦੀ ਵਰਤੋਂ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹੋ।
ਇਹ ਮਾਡਲ ਵਿੱਚ ਤਾਜ਼ਾ ਡੇਟਾ ਨੂੰ ਫੀਡ ਕਰਨ ਅਤੇ ਉਸ ਡੇਟਾ 'ਤੇ ਪੂਰਵ-ਅਨੁਮਾਨ ਬਣਾਉਣ ਲਈ ਮਾਡਲ ਦੇ ਸਿੱਖੇ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ, ਜਾਂ ਮਾਡਲ ਨੂੰ ਇੱਕ ਵਿਸ਼ਾਲ ਐਪਲੀਕੇਸ਼ਨ ਜਾਂ ਸਿਸਟਮ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਲਈ ਸ਼ਾਮਲ ਕਰ ਸਕਦਾ ਹੈ।
ਅਸੀਂ ਆਪਣੇ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਤੋਂ ਖੁਸ਼ ਹੋਣ ਤੋਂ ਬਾਅਦ ਨਵੇਂ ਡੇਟਾ 'ਤੇ ਪੂਰਵ-ਅਨੁਮਾਨ ਬਣਾਉਣ ਲਈ ਵਰਤ ਸਕਦੇ ਹਾਂ। ਤੁਸੀਂ ਲਿੰਗ ਅਤੇ ਉਮਰ ਦੇ ਵੱਖ-ਵੱਖ ਮੁੱਲਾਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹੋ।
# Test the model with new data
new_data = [[25, 1], [30, 0]]
predictions = model.predict(new_data)
print("Predictions: ", predictions)
ਸਮੇਟੋ ਉੱਪਰ
ਅਸੀਂ ਆਪਣੇ ਪਹਿਲੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਦੀ ਸਿਖਲਾਈ ਪੂਰੀ ਕਰ ਲਈ ਹੈ।
ਮੈਨੂੰ ਉਮੀਦ ਹੈ ਕਿ ਤੁਹਾਨੂੰ ਇਹ ਲਾਭਦਾਇਕ ਮਿਲਿਆ ਹੈ। ਤੁਸੀਂ ਹੁਣ ਵੱਖ-ਵੱਖ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲਾਂ ਜਿਵੇਂ ਕਿ ਲੀਨੀਅਰ ਰਿਗਰੈਸ਼ਨ ਜਾਂ ਰੈਂਡਮ ਫੋਰੈਸਟ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਸਕਦੇ ਹੋ।
ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਡੇਟਾਸੈਟ ਅਤੇ ਚੁਣੌਤੀਆਂ ਹਨ ਕਾਗਲ ਜੇਕਰ ਤੁਸੀਂ ਆਪਣੀ ਕੋਡਿੰਗ ਅਤੇ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਸਮਝ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ।
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ