ਵਿਸ਼ਾ - ਸੂਚੀ[ਛੁਪਾਓ][ਦਿਖਾਓ]
ਕਾਰੋਬਾਰਾਂ ਨੇ 2021 ਤੱਕ ਉਪਭੋਗਤਾ ਇੰਟਰੈਕਸ਼ਨ ਡੇਟਾ ਦੀ ਪ੍ਰਾਪਤੀ ਵਿੱਚ ਮੁਹਾਰਤ ਹਾਸਲ ਕਰ ਲਈ ਹੈ।
ਦੂਜੇ ਪਾਸੇ, ਇਹਨਾਂ ਡੇਟਾ ਪੁਆਇੰਟਾਂ 'ਤੇ ਜ਼ਿਆਦਾ-ਨਿਰਭਰਤਾ, ਗਾਹਕਾਂ ਦੇ ਇੰਪੁੱਟ ਨੂੰ ਅੰਕੜਿਆਂ ਦੇ ਰੂਪ ਵਿੱਚ ਮੰਨਣ ਵਾਲੀਆਂ ਸੰਸਥਾਵਾਂ ਨੂੰ ਅਕਸਰ ਲੈ ਜਾਂਦੀ ਹੈ - ਗਾਹਕ ਦੀ ਆਵਾਜ਼ ਸੁਣਨ ਦੀ ਬਜਾਏ ਇੱਕ-ਅਯਾਮੀ ਪਹੁੰਚ।
ਗਾਹਕ ਦੀ ਆਵਾਜ਼ ਨੂੰ ਬੈਜ ਜਾਂ ਨੰਬਰ ਵਿੱਚ ਬਦਲਿਆ ਨਹੀਂ ਜਾ ਸਕਦਾ ਹੈ।
ਇਸ ਨੂੰ ਪੜ੍ਹਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ, ਸੰਘਣਾ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ, ਅਤੇ ਸਭ ਤੋਂ ਵੱਧ, ਸਮਝਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ.
ਤੱਥ ਇਹ ਹੈ ਕਿ ਕੰਪਨੀਆਂ ਨੂੰ ਸਰਗਰਮੀ ਨਾਲ ਸੁਣਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਉਹਨਾਂ ਦੇ ਖਪਤਕਾਰਾਂ ਨੂੰ ਹਰ ਚੈਨਲ 'ਤੇ ਕੀ ਕਹਿਣਾ ਹੈ ਜਿਸ ਰਾਹੀਂ ਉਹ ਉਹਨਾਂ ਨਾਲ ਗੱਲਬਾਤ ਕਰਦੇ ਹਨ, ਭਾਵੇਂ ਇਹ ਫ਼ੋਨ ਕਾਲਾਂ, ਈਮੇਲਾਂ ਜਾਂ ਲਾਈਵ ਚੈਟ ਰਾਹੀਂ ਹੋਵੇ।
ਹਰੇਕ ਕੰਪਨੀ ਨੂੰ ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ ਭਾਵਨਾ ਦੀ ਨਿਗਰਾਨੀ ਅਤੇ ਮੁਲਾਂਕਣ ਨੂੰ ਤਰਜੀਹ ਦੇਣੀ ਚਾਹੀਦੀ ਹੈ, ਪਰ ਕੰਪਨੀਆਂ ਨੇ ਰਵਾਇਤੀ ਤੌਰ 'ਤੇ ਇਸ ਡੇਟਾ ਨੂੰ ਸੰਭਾਲਣ ਅਤੇ ਇਸਨੂੰ ਅਰਥਪੂਰਨ ਖੁਫੀਆ ਜਾਣਕਾਰੀ ਵਿੱਚ ਬਦਲਣ ਲਈ ਸੰਘਰਸ਼ ਕੀਤਾ ਹੈ।
ਇਹ ਹੁਣ ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਨਾਲ ਕੇਸ ਨਹੀਂ ਹੈ.
ਇਸ ਟਿਊਟੋਰਿਅਲ ਵਿੱਚ, ਅਸੀਂ ਭਾਵਨਾ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ, ਇਸਦੇ ਫਾਇਦਿਆਂ ਅਤੇ ਇਸਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਤਰੀਕੇ 'ਤੇ ਡੂੰਘਾਈ ਨਾਲ ਵਿਚਾਰ ਕਰਾਂਗੇ। NLTK ਡਾਟਾ 'ਤੇ ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਲਾਇਬ੍ਰੇਰੀ.
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀ ਹੈ?
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ, ਅਕਸਰ ਗੱਲਬਾਤ ਮਾਈਨਿੰਗ ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ, ਲੋਕਾਂ ਦੀਆਂ ਭਾਵਨਾਵਾਂ, ਵਿਚਾਰਾਂ ਅਤੇ ਵਿਚਾਰਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦਾ ਇੱਕ ਤਰੀਕਾ ਹੈ।
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਾਰੋਬਾਰਾਂ ਨੂੰ ਆਪਣੇ ਖਪਤਕਾਰਾਂ ਦੀ ਬਿਹਤਰ ਸਮਝ ਪ੍ਰਾਪਤ ਕਰਨ, ਮਾਲੀਆ ਵਧਾਉਣ, ਅਤੇ ਕਲਾਇੰਟ ਇਨਪੁਟ ਦੇ ਅਧਾਰ 'ਤੇ ਆਪਣੇ ਉਤਪਾਦਾਂ ਅਤੇ ਸੇਵਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
ਗਾਹਕ ਭਾਵਨਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੇ ਸਮਰੱਥ ਇੱਕ ਸਾਫਟਵੇਅਰ ਸਿਸਟਮ ਅਤੇ ਇੱਕ ਸੇਲਜ਼ਪਰਸਨ/ਗਾਹਕ ਸੇਵਾ ਪ੍ਰਤੀਨਿਧੀ ਜੋ ਇਸਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹਨ, ਵਿੱਚ ਅੰਤਰ ਕੱਚੇ ਟੈਕਸਟ ਤੋਂ ਉਦੇਸ਼ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਸਾਬਕਾ ਦੀ ਪੂਰੀ ਸਮਰੱਥਾ ਹੈ - ਇਹ ਮੁੱਖ ਤੌਰ 'ਤੇ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ (ਐਨਐਲਪੀ) ਦੁਆਰਾ ਪੂਰਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਤਕਨੀਕ.
ਭਾਵਨਾ ਦੀ ਪਛਾਣ ਤੋਂ ਲੈ ਕੇ ਟੈਕਸਟ ਵਰਗੀਕਰਨ ਤੱਕ, ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਹੈ। ਅਸੀਂ ਉਤਪਾਦ ਦੇ ਮੁਲਾਂਕਣਾਂ ਜਾਂ ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ ਦੀ ਭਾਵਨਾ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਲਈ ਇੱਕ ਫਰਮ ਦੀ ਸਹਾਇਤਾ ਕਰਨ ਲਈ ਟੈਕਸਟੁਅਲ ਡੇਟਾ 'ਤੇ ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਨਿਯੁਕਤ ਕਰਦੇ ਹਾਂ।
ਵੱਖ-ਵੱਖ ਸੋਸ਼ਲ ਮੀਡੀਆ ਸਾਈਟਾਂ ਪੋਸਟਿੰਗ ਦੀ ਭਾਵਨਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇਸਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਜੇਕਰ ਭਾਵਨਾ ਬਹੁਤ ਮਜ਼ਬੂਤ ਜਾਂ ਹਿੰਸਕ ਹੈ, ਜਾਂ ਉਹਨਾਂ ਦੇ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਹੇਠਾਂ ਆਉਂਦੀ ਹੈ, ਤਾਂ ਪੋਸਟ ਨੂੰ ਜਾਂ ਤਾਂ ਮਿਟਾ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ ਜਾਂ ਲੁਕਾਇਆ ਜਾਂਦਾ ਹੈ।
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਵਰਤੋਂ ਭਾਵਨਾ ਦੀ ਪਛਾਣ ਤੋਂ ਲੈ ਕੇ ਟੈਕਸਟ ਵਰਗੀਕਰਨ ਤੱਕ ਹਰ ਚੀਜ਼ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਸਭ ਤੋਂ ਵੱਧ ਪ੍ਰਸਿੱਧ ਵਰਤੋਂ ਟੈਕਸਟੁਅਲ ਡੇਟਾ 'ਤੇ ਹੈ, ਜਿੱਥੇ ਇਸਦੀ ਵਰਤੋਂ ਉਤਪਾਦ ਮੁਲਾਂਕਣਾਂ ਜਾਂ ਉਪਭੋਗਤਾ ਟਿੱਪਣੀਆਂ ਦੀ ਭਾਵਨਾ ਨੂੰ ਟਰੈਕ ਕਰਨ ਵਿੱਚ ਇੱਕ ਕੰਪਨੀ ਦੀ ਮਦਦ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਵੱਖ-ਵੱਖ ਸੋਸ਼ਲ ਮੀਡੀਆ ਸਾਈਟਾਂ ਪੋਸਟਿੰਗ ਦੀ ਭਾਵਨਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਵੀ ਇਸਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਜੇਕਰ ਭਾਵਨਾ ਬਹੁਤ ਮਜ਼ਬੂਤ ਜਾਂ ਹਿੰਸਕ ਹੈ, ਜਾਂ ਉਹਨਾਂ ਦੇ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋਂ ਹੇਠਾਂ ਆਉਂਦੀ ਹੈ, ਤਾਂ ਉਹ ਪੋਸਟ ਨੂੰ ਮਿਟਾ ਦਿੰਦੇ ਹਨ ਜਾਂ ਛੁਪਾਉਂਦੇ ਹਨ।
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਲਾਭ
ਹੇਠ ਲਿਖੇ ਕੁਝ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਫਾਇਦੇ ਹਨ ਜੋ ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਨਹੀਂ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ।
- ਤੁਹਾਡੇ ਨਿਸ਼ਾਨੇ ਵਾਲੇ ਜਨਸੰਖਿਆ ਦੇ ਵਿਚਕਾਰ ਤੁਹਾਡੇ ਬ੍ਰਾਂਡ ਦੀ ਧਾਰਨਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੋ।
- ਤੁਹਾਡੇ ਉਤਪਾਦ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਵਿੱਚ ਤੁਹਾਡੀ ਮਦਦ ਲਈ ਸਿੱਧਾ ਗਾਹਕ ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
- ਵਿਕਰੀ ਮਾਲੀਆ ਅਤੇ ਸੰਭਾਵਨਾ ਵਧਾਉਂਦਾ ਹੈ।
- ਤੁਹਾਡੇ ਉਤਪਾਦ ਦੇ ਜੇਤੂਆਂ ਲਈ ਅੱਪਸੇਲ ਮੌਕੇ ਵਧੇ ਹਨ।
- ਕਿਰਿਆਸ਼ੀਲ ਗਾਹਕ ਸੇਵਾ ਇੱਕ ਵਿਹਾਰਕ ਵਿਕਲਪ ਹੈ।
ਨੰਬਰ ਤੁਹਾਨੂੰ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ ਜਿਵੇਂ ਕਿ ਮਾਰਕੀਟਿੰਗ ਮੁਹਿੰਮ ਦੀ ਕੱਚੀ ਕਾਰਗੁਜ਼ਾਰੀ, ਸੰਭਾਵੀ ਕਾਲ ਵਿੱਚ ਸ਼ਮੂਲੀਅਤ ਦੀ ਮਾਤਰਾ, ਅਤੇ ਗਾਹਕ ਸਹਾਇਤਾ ਵਿੱਚ ਲੰਬਿਤ ਟਿਕਟਾਂ ਦੀ ਸੰਖਿਆ।
ਹਾਲਾਂਕਿ, ਇਹ ਤੁਹਾਨੂੰ ਇਹ ਨਹੀਂ ਦੱਸੇਗਾ ਕਿ ਕੋਈ ਖਾਸ ਘਟਨਾ ਕਿਉਂ ਵਾਪਰੀ ਜਾਂ ਇਸਦਾ ਕਾਰਨ ਕੀ ਹੈ। ਗੂਗਲ ਅਤੇ ਫੇਸਬੁੱਕ ਵਰਗੇ ਵਿਸ਼ਲੇਸ਼ਣ ਟੂਲ, ਉਦਾਹਰਨ ਲਈ, ਤੁਹਾਡੀ ਮਾਰਕੀਟਿੰਗ ਕੋਸ਼ਿਸ਼ਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਵਿੱਚ ਤੁਹਾਡੀ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ।
ਪਰ ਉਹ ਤੁਹਾਨੂੰ ਇਸ ਗੱਲ ਦੀ ਡੂੰਘਾਈ ਨਾਲ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਨਹੀਂ ਕਰਦੇ ਕਿ ਉਹ ਖਾਸ ਮੁਹਿੰਮ ਸਫਲ ਕਿਉਂ ਹੋਈ।
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਇਸ ਸਬੰਧ ਵਿੱਚ ਖੇਡ-ਬਦਲਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ।
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ - ਸਮੱਸਿਆ ਬਿਆਨ
ਟੀਚਾ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨਾ ਹੈ ਕਿ ਕੀ ਟਵੀਟ ਦੇ ਅਧਾਰ 'ਤੇ ਛੇ ਯੂਐਸ ਏਅਰਲਾਈਨਾਂ ਬਾਰੇ ਇੱਕ ਟਵੀਟ ਵਿੱਚ ਅਨੁਕੂਲ, ਨਕਾਰਾਤਮਕ ਜਾਂ ਨਿਰਪੱਖ ਭਾਵਨਾ ਹੈ।
ਇਹ ਇੱਕ ਮਿਆਰੀ ਨਿਰੀਖਣ ਕੀਤਾ ਸਿਖਲਾਈ ਦਾ ਕੰਮ ਹੈ ਜਿਸ ਵਿੱਚ ਸਾਨੂੰ ਇੱਕ ਟੈਕਸਟ ਸਤਰ ਨੂੰ ਪੂਰਵ-ਨਿਰਧਾਰਤ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਸ਼੍ਰੇਣੀਬੱਧ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
ਦਾ ਹੱਲ
ਅਸੀਂ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਮਿਆਰੀ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ। ਅਸੀਂ ਲੋੜੀਂਦੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਅਤੇ ਡੇਟਾਸੈਟਾਂ ਨੂੰ ਆਯਾਤ ਕਰਕੇ ਸ਼ੁਰੂ ਕਰਾਂਗੇ।
ਫਿਰ ਅਸੀਂ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਕੁਝ ਖੋਜੀ ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਾਂਗੇ ਕਿ ਕੀ ਡੇਟਾ ਵਿੱਚ ਕੋਈ ਪੈਟਰਨ ਹਨ। ਇਸ ਤੋਂ ਬਾਅਦ, ਅਸੀਂ ਟੈਕਸਟੁਅਲ ਇਨਪੁਟ ਸੰਖਿਆਤਮਕ ਡੇਟਾ ਨੂੰ ਚਾਲੂ ਕਰਨ ਲਈ ਟੈਕਸਟ ਪ੍ਰੀਪ੍ਰੋਸੈਸਿੰਗ ਦਾ ਕੰਮ ਕਰਾਂਗੇ ਜੋ ਕਿ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਸਿਸਟਮ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਨ।
ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਦੇ ਤਰੀਕਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਸਾਡੇ ਭਾਵਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਾਂਗੇ।
1. ਲਾਇਬ੍ਰੇਰੀਆਂ ਨੂੰ ਆਯਾਤ ਕਰਨਾ
ਲੋੜੀਂਦੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਨੂੰ ਲੋਡ ਕਰੋ।
2. ਡਾਟਾਸੈਟ ਆਯਾਤ ਕਰੋ
ਇਹ ਲੇਖ ਉਸ ਡੇਟਾਸੈੱਟ 'ਤੇ ਆਧਾਰਿਤ ਹੋਵੇਗਾ ਜਿਸ 'ਤੇ ਪਾਇਆ ਜਾ ਸਕਦਾ ਹੈ GitHub. ਡੇਟਾਸੇਟ ਨੂੰ ਪਾਂਡਾਸ ਦੇ ਰੀਡ CSV ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਯਾਤ ਕੀਤਾ ਜਾਵੇਗਾ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦੇਖਿਆ ਗਿਆ ਹੈ:
head() ਫੰਕਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਡੇਟਾਸੈਟ ਦੀਆਂ ਪਹਿਲੀਆਂ ਪੰਜ ਕਤਾਰਾਂ ਦੀ ਜਾਂਚ ਕਰੋ:
ਆਉਟਪੁੱਟ:
3. ਡੇਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ
ਆਉ ਅਸੀਂ ਇਹ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਡੇਟਾ ਦੀ ਜਾਂਚ ਕਰੀਏ ਕਿ ਕੀ ਕੋਈ ਰੁਝਾਨ ਹਨ। ਪਰ ਪਹਿਲਾਂ, ਅਸੀਂ ਚਾਰਟ ਨੂੰ ਹੋਰ ਦ੍ਰਿਸ਼ਮਾਨ ਬਣਾਉਣ ਲਈ ਡਿਫੌਲਟ ਪਲਾਟ ਦਾ ਆਕਾਰ ਬਦਲਾਂਗੇ।
ਆਓ ਅਸੀਂ ਹਰੇਕ ਏਅਰਲਾਈਨ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੇ ਟਵੀਟਸ ਦੀ ਸੰਖਿਆ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰੀਏ। ਅਸੀਂ ਇਸਦੇ ਲਈ ਇੱਕ ਪਾਈ ਚਾਰਟ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ:
ਹਰੇਕ ਏਅਰਲਾਈਨ ਲਈ ਜਨਤਕ ਟਵੀਟਸ ਦੀ ਪ੍ਰਤੀਸ਼ਤਤਾ ਆਉਟਪੁੱਟ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਿਤ ਹੁੰਦੀ ਹੈ।
ਆਓ ਦੇਖੀਏ ਕਿ ਸਾਰੇ ਟਵੀਟਸ 'ਤੇ ਭਾਵਨਾਵਾਂ ਕਿਵੇਂ ਵੰਡੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।
ਆਉਟਪੁੱਟ:
ਆਓ ਹੁਣ ਹਰੇਕ ਖਾਸ ਏਅਰਲਾਈਨ ਲਈ ਭਾਵਨਾ ਦੀ ਵੰਡ ਦੀ ਜਾਂਚ ਕਰੀਏ।
ਨਤੀਜਿਆਂ ਦੇ ਅਨੁਸਾਰ, ਲਗਭਗ ਸਾਰੀਆਂ ਏਅਰਲਾਈਨਾਂ ਲਈ ਬਹੁਤ ਸਾਰੇ ਟਵੀਟਸ ਪ੍ਰਤੀਕੂਲ ਹਨ, ਨਿਰਪੱਖ ਅਤੇ ਚੰਗੇ ਟਵੀਟਸ ਦੇ ਨਾਲ. ਵਰਜਿਨ ਅਮਰੀਕਾ ਸ਼ਾਇਦ ਇੱਕੋ ਇੱਕ ਏਅਰਲਾਈਨ ਹੈ ਜਿੱਥੇ ਤਿੰਨ ਭਾਵਨਾਵਾਂ ਦਾ ਅਨੁਪਾਤ ਤੁਲਨਾਤਮਕ ਹੈ।
ਆਉਟਪੁੱਟ:
ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਤਿੰਨ ਭਾਵਨਾ ਸ਼੍ਰੇਣੀਆਂ ਤੋਂ ਟਵੀਟਸ ਲਈ ਔਸਤ ਭਰੋਸੇ ਦਾ ਪੱਧਰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ Seaborn ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਾਂਗੇ।
ਆਉਟਪੁੱਟ:
ਨਤੀਜਾ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਨਕਾਰਾਤਮਕ ਟਵੀਟਸ ਲਈ ਵਿਸ਼ਵਾਸ ਪੱਧਰ ਸਕਾਰਾਤਮਕ ਜਾਂ ਨਿਰਪੱਖ ਟਵੀਟਸ ਨਾਲੋਂ ਵੱਧ ਹੈ।
4. ਡੇਟਾ ਨੂੰ ਸਾਫ਼ ਕਰਨਾ
ਟਵੀਟਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਅਸ਼ਲੀਲ ਸ਼ਬਦ ਅਤੇ ਵਿਰਾਮ ਚਿੰਨ੍ਹ ਲੱਭੇ ਜਾ ਸਕਦੇ ਹਨ। ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਅਸੀਂ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇ ਸਕੀਏ, ਸਾਨੂੰ ਆਪਣੇ ਟਵੀਟ ਸਾਫ਼ ਕਰਨ ਦੀ ਲੋੜ ਹੈ।
ਹਾਲਾਂਕਿ, ਇਸ ਤੋਂ ਪਹਿਲਾਂ ਕਿ ਅਸੀਂ ਟਵੀਟਸ ਨੂੰ ਸਾਫ਼ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰੀਏ, ਸਾਨੂੰ ਆਪਣੇ ਡੇਟਾਸੈਟ ਨੂੰ ਵਿਸ਼ੇਸ਼ਤਾ ਅਤੇ ਲੇਬਲ ਸੈੱਟਾਂ ਵਿੱਚ ਵੱਖ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
ਜਦੋਂ ਅਸੀਂ ਇਸਨੂੰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਅਤੇ ਸਿਖਲਾਈ ਸੈੱਟਾਂ ਵਿੱਚ ਵੱਖ ਕਰ ਲੈਂਦੇ ਹਾਂ ਤਾਂ ਅਸੀਂ ਡੇਟਾ ਨੂੰ ਸਾਫ਼ ਕਰ ਸਕਦੇ ਹਾਂ। ਅਜਿਹਾ ਕਰਨ ਲਈ ਨਿਯਮਤ ਸਮੀਕਰਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਵੇਗੀ।
5. ਪਾਠ ਦੀ ਸੰਖਿਆਤਮਕ ਪ੍ਰਤੀਨਿਧਤਾ
ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ, ਅੰਕੜਾ ਐਲਗੋਰਿਦਮ ਗਣਿਤ ਨੂੰ ਨਿਯੁਕਤ ਕਰਦੇ ਹਨ। ਦੂਜੇ ਪਾਸੇ, ਗਣਿਤ ਸਿਰਫ਼ ਸੰਖਿਆਵਾਂ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ।
ਸਾਨੂੰ ਇਸ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਅੰਕੜਾ ਐਲਗੋਰਿਦਮ ਲਈ ਪਹਿਲਾਂ ਟੈਕਸਟ ਨੂੰ ਸੰਖਿਆਵਾਂ ਵਿੱਚ ਬਦਲਣਾ ਚਾਹੀਦਾ ਹੈ। ਅਜਿਹਾ ਕਰਨ ਦੇ ਤਿੰਨ ਬੁਨਿਆਦੀ ਤਰੀਕੇ ਹਨ: ਸ਼ਬਦਾਂ ਦਾ ਬੈਗ, TF-IDF, ਅਤੇ Word2Vec।
ਖੁਸ਼ਕਿਸਮਤੀ ਨਾਲ, Python ਦੇ Scikit-Learn ਮੋਡੀਊਲ ਵਿੱਚ TfidfVectorizer ਕਲਾਸ ਨੂੰ ਟੈਕਸਟ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ TF-IDF ਵਿਸ਼ੇਸ਼ਤਾ ਵੈਕਟਰਾਂ ਵਿੱਚ ਬਦਲਣ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।
6. ਡਾਟਾ-ਸੰਚਾਲਿਤ ਸਿਖਲਾਈ ਅਤੇ ਟੈਸਟ ਸੈੱਟ ਬਣਾਉਣਾ
ਅੰਤ ਵਿੱਚ, ਸਾਨੂੰ ਆਪਣੇ ਐਲਗੋਰਿਦਮ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਆਪਣੇ ਡੇਟਾ ਨੂੰ ਸਿਖਲਾਈ ਅਤੇ ਟੈਸਟਿੰਗ ਸੈੱਟਾਂ ਵਿੱਚ ਵੰਡਣਾ ਚਾਹੀਦਾ ਹੈ।
ਸਿਖਲਾਈ ਸੈੱਟ ਦੀ ਵਰਤੋਂ ਐਲਗੋਰਿਦਮ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀਤੀ ਜਾਵੇਗੀ, ਅਤੇ ਟੈਸਟ ਸੈੱਟ ਦੀ ਵਰਤੋਂ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾਵੇਗੀ।
7. ਮਾਡਲ ਵਿਕਾਸ
ਸਿਖਲਾਈ ਅਤੇ ਟੈਸਟ ਸੈੱਟਾਂ ਵਿੱਚ ਡੇਟਾ ਨੂੰ ਵੱਖ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਸਿਖਲਾਈ ਡੇਟਾ ਤੋਂ ਸਿੱਖਣ ਲਈ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਤੁਸੀਂ ਕਿਸੇ ਵੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ। ਬੇਤਰਤੀਬ ਜੰਗਲ ਪਹੁੰਚ, ਹਾਲਾਂਕਿ, ਗੈਰ-ਸਧਾਰਨ ਡੇਟਾ ਨਾਲ ਸਿੱਝਣ ਦੀ ਸਮਰੱਥਾ ਦੇ ਕਾਰਨ ਵਰਤੀ ਜਾਵੇਗੀ।
8. ਭਵਿੱਖਬਾਣੀਆਂ ਅਤੇ ਮਾਡਲ ਮੁਲਾਂਕਣ
ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਤੋਂ ਬਾਅਦ, ਅੰਤਿਮ ਪੜਾਅ ਭਵਿੱਖਬਾਣੀ ਕਰਨਾ ਹੈ. ਅਜਿਹਾ ਕਰਨ ਲਈ, ਸਾਨੂੰ ਰੈਂਡਮਫੋਰੈਸਟ ਕਲਾਸੀਫਾਇਰ ਕਲਾਸ ਆਬਜੈਕਟ ਲਈ ਪੂਰਵ ਅਨੁਮਾਨ ਵਿਧੀ ਨੂੰ ਲਾਗੂ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਜਿਸਨੂੰ ਅਸੀਂ ਸਿਖਲਾਈ ਦਿੱਤੀ ਹੈ।
ਅੰਤ ਵਿੱਚ, ਵਰਗੀਕਰਣ ਮਾਪਾਂ ਜਿਵੇਂ ਕਿ ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ, F1 ਮਾਪ, ਸ਼ੁੱਧਤਾ, ਅਤੇ ਹੋਰਾਂ ਦੀ ਵਰਤੋਂ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
ਆਉਟਪੁੱਟ:
ਸਾਡੇ ਐਲਗੋਰਿਦਮ ਨੇ 75.30 ਦੀ ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਜਿਵੇਂ ਕਿ ਨਤੀਜਿਆਂ ਦੁਆਰਾ ਦੇਖਿਆ ਗਿਆ ਹੈ।
ਸਿੱਟਾ
ਭਾਵਨਾ ਵਿਸ਼ਲੇਸ਼ਣ ਸਭ ਤੋਂ ਵੱਧ ਆਮ NLP ਨੌਕਰੀਆਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਕਿਉਂਕਿ ਇਹ ਇੱਕ ਖਾਸ ਮੁੱਦੇ 'ਤੇ ਸਮੁੱਚੀ ਜਨਤਕ ਰਾਏ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
ਅਸੀਂ ਦੇਖਿਆ ਕਿ ਕਿਵੇਂ ਕਈ ਪਾਈਥਨ ਲਾਇਬ੍ਰੇਰੀਆਂ ਭਾਵਨਾ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੀਆਂ ਹਨ।
ਅਸੀਂ ਛੇ US ਏਅਰਲਾਈਨਾਂ ਬਾਰੇ ਜਨਤਕ ਟਵੀਟਸ ਦਾ ਅਧਿਐਨ ਕੀਤਾ ਅਤੇ ਲਗਭਗ 75% ਦੀ ਸ਼ੁੱਧਤਾ 'ਤੇ ਪਹੁੰਚ ਗਏ।
ਮੈਂ ਸੁਝਾਅ ਦੇਵਾਂਗਾ ਕਿ ਤੁਸੀਂ ਇੱਕ ਹੋਰ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ, ਜਿਵੇਂ ਕਿ ਲੌਜਿਸਟਿਕ ਰਿਗਰੈਸ਼ਨ, SVM, ਜਾਂ KNN, ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਕੀ ਤੁਸੀਂ ਬਿਹਤਰ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ।
ਕੋਈ ਜਵਾਬ ਛੱਡਣਾ