Python - HashDork ಅನ್ನು ಬಳಸಿಕೊಂಡು NLP ಸೆಂಟಿಮೆಂಟ್ ಅನಾಲಿಸಿಸ್

ಪರಿವಿಡಿ[ಮರೆಮಾಡಿ][ತೋರಿಸಿ]

ಭಾವನಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆ ಎಂದರೇನು?
ಸೆಂಟಿಮೆಂಟ್ ವಿಶ್ಲೇಷಣೆಯ ಪ್ರಯೋಜನಗಳು
ಸೆಂಟಿಮೆಂಟ್ ಅನಾಲಿಸಿಸ್ - ಸಮಸ್ಯೆ ಹೇಳಿಕೆ+-
ತೀರ್ಮಾನ

ವ್ಯಾಪಾರಗಳು 2021 ರ ವೇಳೆಗೆ ಗ್ರಾಹಕರ ಸಂವಹನ ಡೇಟಾವನ್ನು ಸ್ವಾಧೀನಪಡಿಸಿಕೊಳ್ಳುವುದನ್ನು ಕರಗತ ಮಾಡಿಕೊಳ್ಳುತ್ತವೆ.

ಮತ್ತೊಂದೆಡೆ, ಈ ಡೇಟಾ ಪಾಯಿಂಟ್‌ಗಳ ಮೇಲೆ ಅತಿಯಾದ ಅವಲಂಬನೆಯು ಗ್ರಾಹಕರ ಇನ್‌ಪುಟ್ ಅನ್ನು ಅಂಕಿಅಂಶವಾಗಿ ಪರಿಗಣಿಸುವ ಸಂಸ್ಥೆಗಳಿಗೆ ಆಗಾಗ್ಗೆ ಕಾರಣವಾಗುತ್ತದೆ - ಗ್ರಾಹಕರ ಧ್ವನಿಯನ್ನು ಆಲಿಸಲು ಒಂದು ಆಯಾಮದ ವಿಧಾನ.

ಗ್ರಾಹಕರ ಧ್ವನಿಯನ್ನು ಬ್ಯಾಡ್ಜ್ ಮಾಡಲು ಅಥವಾ ಸಂಖ್ಯೆಗೆ ಪರಿವರ್ತಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ.

ಅದನ್ನು ಓದಬೇಕು, ಸಾಂದ್ರೀಕರಿಸಬೇಕು ಮತ್ತು ಎಲ್ಲಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ಗ್ರಹಿಸಬೇಕು.

ವಾಸ್ತವವೆಂದರೆ ಕಂಪನಿಗಳು ತಮ್ಮ ಗ್ರಾಹಕರು ಫೋನ್ ಕರೆಗಳು, ಇಮೇಲ್‌ಗಳು ಅಥವಾ ಲೈವ್ ಚಾಟ್ ಮೂಲಕ ಸಂವಹನ ನಡೆಸುವ ಪ್ರತಿಯೊಂದು ಚಾನಲ್‌ನಲ್ಲಿ ಏನು ಹೇಳುತ್ತಾರೆಂದು ಸಕ್ರಿಯವಾಗಿ ಕೇಳಬೇಕು.

ಪ್ರತಿ ಕಂಪನಿಯು ಗ್ರಾಹಕರ ಪ್ರತಿಕ್ರಿಯೆಯ ಭಾವನೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಆದ್ಯತೆ ನೀಡಬೇಕು, ಆದರೆ ಕಂಪನಿಗಳು ಸಾಂಪ್ರದಾಯಿಕವಾಗಿ ಈ ಡೇಟಾವನ್ನು ನಿರ್ವಹಿಸಲು ಮತ್ತು ಅದನ್ನು ಅರ್ಥಪೂರ್ಣ ಬುದ್ಧಿವಂತಿಕೆಯಾಗಿ ಪರಿವರ್ತಿಸಲು ಹೆಣಗಾಡುತ್ತಿವೆ.

ಇದು ಇನ್ನು ಮುಂದೆ ಸೆಂಟಿಮೆಂಟ್ ಅನಾಲಿಸಿಸ್‌ನಲ್ಲಿ ಇರುವುದಿಲ್ಲ.

ಈ ಟ್ಯುಟೋರಿಯಲ್ ನಲ್ಲಿ, ನಾವು ಭಾವನೆಗಳ ವಿಶ್ಲೇಷಣೆ, ಅದರ ಪ್ರಯೋಜನಗಳು ಮತ್ತು ಹೇಗೆ ಬಳಸುವುದು ಎಂಬುದರ ಕುರಿತು ಒಂದು ಹತ್ತಿರದ ನೋಟವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತೇವೆ ಎನ್‌ಎಲ್‌ಟಿಕೆ ಡೇಟಾದ ಮೇಲೆ ಭಾವನೆ ವಿಶ್ಲೇಷಣೆ ಮಾಡಲು ಗ್ರಂಥಾಲಯ.

ಭಾವನಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆ ಎಂದರೇನು?

ಸಂವಾದದ ಗಣಿಗಾರಿಕೆ ಎಂದು ಕರೆಯಲ್ಪಡುವ ಭಾವನೆ ವಿಶ್ಲೇಷಣೆಯು ಜನರ ಭಾವನೆಗಳು, ಆಲೋಚನೆಗಳು ಮತ್ತು ವೀಕ್ಷಣೆಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಒಂದು ವಿಧಾನವಾಗಿದೆ.

ಸೆಂಟಿಮೆಂಟ್ ವಿಶ್ಲೇಷಣೆಯು ವ್ಯವಹಾರಗಳಿಗೆ ತಮ್ಮ ಗ್ರಾಹಕರ ಬಗ್ಗೆ ಉತ್ತಮ ತಿಳುವಳಿಕೆಯನ್ನು ಪಡೆಯಲು, ಆದಾಯವನ್ನು ಹೆಚ್ಚಿಸಲು ಮತ್ತು ಕ್ಲೈಂಟ್ ಇನ್‌ಪುಟ್ ಆಧರಿಸಿ ತಮ್ಮ ಉತ್ಪನ್ನಗಳು ಮತ್ತು ಸೇವೆಗಳನ್ನು ಹೆಚ್ಚಿಸಲು ಅನುಮತಿಸುತ್ತದೆ.

ಗ್ರಾಹಕರ ಭಾವನೆಯನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಸಾಮರ್ಥ್ಯವಿರುವ ಸಾಫ್ಟ್‌ವೇರ್ ಸಿಸ್ಟಮ್ ಮತ್ತು ಮಾರಾಟಗಾರ/ಗ್ರಾಹಕ ಸೇವಾ ಪ್ರತಿನಿಧಿಯ ನಡುವಿನ ವ್ಯತ್ಯಾಸವು ಕಚ್ಚಾ ಪಠ್ಯದಿಂದ ವಸ್ತುನಿಷ್ಠ ಫಲಿತಾಂಶಗಳನ್ನು ಪಡೆಯುವ ಹಿಂದಿನ ಸಂಪೂರ್ಣ ಸಾಮರ್ಥ್ಯವಾಗಿದೆ - ಇದನ್ನು ಪ್ರಾಥಮಿಕವಾಗಿ ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆ (NLP) ಮೂಲಕ ಸಾಧಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆ ತಂತ್ರಗಳು.

ಭಾವನೆಯ ಗುರುತಿಸುವಿಕೆಯಿಂದ ಪಠ್ಯ ವರ್ಗೀಕರಣದವರೆಗೆ, ಭಾವನೆ ವಿಶ್ಲೇಷಣೆಯು ವ್ಯಾಪಕ ಶ್ರೇಣಿಯ ಅನ್ವಯಿಕೆಗಳನ್ನು ಹೊಂದಿದೆ. ಉತ್ಪನ್ನ ಮೌಲ್ಯಮಾಪನಗಳು ಅಥವಾ ಗ್ರಾಹಕರ ಪ್ರತಿಕ್ರಿಯೆಯ ಭಾವನೆಯನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಲು ಸಂಸ್ಥೆಗೆ ಸಹಾಯ ಮಾಡಲು ನಾವು ಪಠ್ಯದ ಡೇಟಾದ ಮೇಲೆ ಭಾವನೆ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಬಳಸುತ್ತೇವೆ.

ಪೋಸ್ಟಿಂಗ್‌ಗಳ ಭಾವನೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ವಿವಿಧ ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಸೈಟ್‌ಗಳು ಇದನ್ನು ಬಳಸುತ್ತವೆ ಮತ್ತು ಭಾವನೆಯು ತುಂಬಾ ಪ್ರಬಲವಾಗಿದ್ದರೆ ಅಥವಾ ಹಿಂಸಾತ್ಮಕವಾಗಿದ್ದರೆ ಅಥವಾ ಅವರ ಮಿತಿಗಿಂತ ಕಡಿಮೆಯಿದ್ದರೆ, ಪೋಸ್ಟ್ ಅನ್ನು ಅಳಿಸಲಾಗುತ್ತದೆ ಅಥವಾ ಮರೆಮಾಡಲಾಗುತ್ತದೆ.

ಭಾವನೆಯ ಗುರುತಿಸುವಿಕೆಯಿಂದ ಪಠ್ಯ ವರ್ಗೀಕರಣದವರೆಗೆ ಎಲ್ಲದಕ್ಕೂ ಸೆಂಟಿಮೆಂಟ್ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಬಳಸಬಹುದು.

ಭಾವನಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆಯ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಬಳಕೆಯು ಪಠ್ಯದ ಡೇಟಾದಲ್ಲಿದೆ, ಅಲ್ಲಿ ಉತ್ಪನ್ನ ಮೌಲ್ಯಮಾಪನಗಳು ಅಥವಾ ಗ್ರಾಹಕರ ಕಾಮೆಂಟ್‌ಗಳ ಭಾವನೆಯನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಲು ಕಂಪನಿಗೆ ಸಹಾಯ ಮಾಡಲು ಇದನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.

ಪೋಸ್ಟಿಂಗ್‌ಗಳ ಭಾವನೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ವಿವಿಧ ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಸೈಟ್‌ಗಳು ಸಹ ಇದನ್ನು ಬಳಸುತ್ತವೆ ಮತ್ತು ಭಾವನೆಯು ತುಂಬಾ ಪ್ರಬಲವಾಗಿದ್ದರೆ ಅಥವಾ ಹಿಂಸಾತ್ಮಕವಾಗಿದ್ದರೆ ಅಥವಾ ಅವರ ಮಿತಿಗಿಂತ ಕಡಿಮೆಯಿದ್ದರೆ, ಅವರು ಪೋಸ್ಟ್ ಅನ್ನು ಅಳಿಸುತ್ತಾರೆ ಅಥವಾ ಮರೆಮಾಡುತ್ತಾರೆ.

ಸೆಂಟಿಮೆಂಟ್ ವಿಶ್ಲೇಷಣೆಯ ಪ್ರಯೋಜನಗಳು

ಕೆಳಗಿನವುಗಳು ನಿರ್ಲಕ್ಷಿಸದ ಭಾವನೆ ವಿಶ್ಲೇಷಣೆಯ ಕೆಲವು ಪ್ರಮುಖ ಪ್ರಯೋಜನಗಳಾಗಿವೆ.

ನಿಮ್ಮ ಗುರಿ ಜನಸಂಖ್ಯಾಶಾಸ್ತ್ರದಲ್ಲಿ ನಿಮ್ಮ ಬ್ರ್ಯಾಂಡ್‌ನ ಗ್ರಹಿಕೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ಸಹಾಯ ಮಾಡಿ.
ನಿಮ್ಮ ಉತ್ಪನ್ನವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವಲ್ಲಿ ನಿಮಗೆ ಸಹಾಯ ಮಾಡಲು ನೇರ ಕ್ಲೈಂಟ್ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಒದಗಿಸಲಾಗಿದೆ.
ಮಾರಾಟದ ಆದಾಯ ಮತ್ತು ನಿರೀಕ್ಷೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
ನಿಮ್ಮ ಉತ್ಪನ್ನದ ಚಾಂಪಿಯನ್‌ಗಳಿಗೆ ಅಪ್‌ಸೆಲ್ ಅವಕಾಶಗಳು ಹೆಚ್ಚಿವೆ.
ಪೂರ್ವಭಾವಿ ಗ್ರಾಹಕ ಸೇವೆಯು ಪ್ರಾಯೋಗಿಕ ಆಯ್ಕೆಯಾಗಿದೆ.

ಮಾರ್ಕೆಟಿಂಗ್ ಅಭಿಯಾನದ ಕಚ್ಚಾ ಕಾರ್ಯಕ್ಷಮತೆ, ನಿರೀಕ್ಷಿತ ಕರೆಯಲ್ಲಿ ತೊಡಗಿರುವ ಮೊತ್ತ ಮತ್ತು ಗ್ರಾಹಕರ ಬೆಂಬಲದಲ್ಲಿ ಬಾಕಿ ಉಳಿದಿರುವ ಟಿಕೆಟ್‌ಗಳ ಸಂಖ್ಯೆಯಂತಹ ಮಾಹಿತಿಯನ್ನು ಸಂಖ್ಯೆಗಳು ನಿಮಗೆ ಒದಗಿಸಬಹುದು.

ಆದಾಗ್ಯೂ, ಒಂದು ನಿರ್ದಿಷ್ಟ ಘಟನೆ ಏಕೆ ಸಂಭವಿಸಿದೆ ಅಥವಾ ಅದಕ್ಕೆ ಕಾರಣವೇನು ಎಂದು ಅದು ನಿಮಗೆ ಹೇಳುವುದಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, Google ಮತ್ತು Facebook ನಂತಹ Analytics ಪರಿಕರಗಳು, ನಿಮ್ಮ ಮಾರ್ಕೆಟಿಂಗ್ ಪ್ರಯತ್ನಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ನಿಮಗೆ ಸಹಾಯ ಮಾಡಬಹುದು.

ಆದರೆ ಆ ನಿರ್ದಿಷ್ಟ ಅಭಿಯಾನ ಏಕೆ ಯಶಸ್ವಿಯಾಗಿದೆ ಎಂಬುದರ ಆಳವಾದ ಜ್ಞಾನವನ್ನು ಅವರು ನಿಮಗೆ ಒದಗಿಸುವುದಿಲ್ಲ.

ಸೆಂಟಿಮೆಂಟ್ ಅನಾಲಿಸಿಸ್ ಈ ನಿಟ್ಟಿನಲ್ಲಿ ಆಟವನ್ನು ಬದಲಾಯಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದೆ.

ಸೆಂಟಿಮೆಂಟ್ ಅನಾಲಿಸಿಸ್ - ಸಮಸ್ಯೆ ಹೇಳಿಕೆ

ಟ್ವೀಟ್‌ಗಳ ಆಧಾರದ ಮೇಲೆ ಆರು US ಏರ್‌ಲೈನ್‌ಗಳಿಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ಒಂದು ಟ್ವೀಟ್ ಅನುಕೂಲಕರ, ಋಣಾತ್ಮಕ ಅಥವಾ ತಟಸ್ಥ ಭಾವನೆಯನ್ನು ಹೊಂದಿದೆಯೇ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸುವುದು ಗುರಿಯಾಗಿದೆ.

ಇದು ಪ್ರಮಾಣಿತ ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆಯ ಕೆಲಸವಾಗಿದ್ದು, ಇದರಲ್ಲಿ ನಾವು ಪಠ್ಯ ಸ್ಟ್ರಿಂಗ್ ಅನ್ನು ಪೂರ್ವನಿರ್ಧರಿತ ವರ್ಗಗಳಾಗಿ ವರ್ಗೀಕರಿಸಬೇಕು.

ಪರಿಹಾರ

ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ನಾವು ಪ್ರಮಾಣಿತ ಯಂತ್ರ ಕಲಿಕೆ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಬಳಸುತ್ತೇವೆ. ಅಗತ್ಯ ಲೈಬ್ರರಿಗಳು ಮತ್ತು ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳುವ ಮೂಲಕ ನಾವು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ.

ನಂತರ ಡೇಟಾದಲ್ಲಿ ಯಾವುದೇ ಮಾದರಿಗಳಿವೆಯೇ ಎಂದು ನಿರ್ಧರಿಸಲು ನಾವು ಕೆಲವು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಮಾಡುತ್ತೇವೆ. ಅದನ್ನು ಅನುಸರಿಸಿ, ಪಠ್ಯದ ಇನ್‌ಪುಟ್ ಸಂಖ್ಯಾ ಡೇಟಾವನ್ನು ತಿರುಗಿಸಲು ನಾವು ಪಠ್ಯ ಪೂರ್ವ ಸಂಸ್ಕರಣೆಯನ್ನು ಕೈಗೊಳ್ಳುತ್ತೇವೆ a ಯಂತ್ರ ಕಲಿಕೆ ವ್ಯವಸ್ಥೆಯನ್ನು ಬಳಸಬಹುದು.

ಅಂತಿಮವಾಗಿ, ನಾವು ಯಂತ್ರ ಕಲಿಕೆಯ ವಿಧಾನಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನಮ್ಮ ಭಾವನೆ ವಿಶ್ಲೇಷಣೆ ಮಾದರಿಗಳಿಗೆ ತರಬೇತಿ ನೀಡುತ್ತೇವೆ ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತೇವೆ.

1. ಗ್ರಂಥಾಲಯಗಳನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳುವುದು

ಅಗತ್ಯ ಗ್ರಂಥಾಲಯಗಳನ್ನು ಲೋಡ್ ಮಾಡಿ.

ಗ್ರಂಥಾಲಯಗಳನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳಲಾಗುತ್ತಿದೆ

2. ಆಮದು ಡೇಟಾಸೆಟ್

ಈ ಲೇಖನವು ಕಂಡುಬರುವ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಆಧರಿಸಿದೆ github. ಕೆಳಗೆ ನೋಡಿದಂತೆ ಪಾಂಡಾಗಳ ರೀಡ್ CSV ಕಾರ್ಯವನ್ನು ಬಳಸಿಕೊಂಡು ಡೇಟಾಸೆಟ್ ಅನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳಲಾಗುತ್ತದೆ:

ಡೇಟಾಸೆಟ್ ಅನ್ನು ಆಮದು ಮಾಡಲಾಗುತ್ತಿದೆ

ಹೆಡ್() ಕಾರ್ಯವನ್ನು ಬಳಸಿಕೊಂಡು, ಡೇಟಾಸೆಟ್‌ನ ಮೊದಲ ಐದು ಸಾಲುಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ:

ಹೆಡ್ ಡೇಟಾಸೆಟ್

ಔಟ್ಪುಟ್:

ಹೆಡ್ ಡೇಟಾಸೆಟ್‌ನ ಔಟ್‌ಪುಟ್

3. ಡೇಟಾದ ವಿಶ್ಲೇಷಣೆ

ಯಾವುದೇ ಪ್ರವೃತ್ತಿಗಳಿವೆಯೇ ಎಂದು ನಿರ್ಧರಿಸಲು ನಾವು ಡೇಟಾವನ್ನು ಪರಿಶೀಲಿಸೋಣ. ಆದರೆ ಮೊದಲು, ಚಾರ್ಟ್‌ಗಳನ್ನು ಹೆಚ್ಚು ಗೋಚರಿಸುವಂತೆ ಮಾಡಲು ನಾವು ಡೀಫಾಲ್ಟ್ ಪ್ಲಾಟ್ ಗಾತ್ರವನ್ನು ಬದಲಾಯಿಸುತ್ತೇವೆ.

ಪ್ಲಾಟ್ ಗಾತ್ರವನ್ನು ಸರಿಹೊಂದಿಸುವುದು

ಪ್ರತಿ ವಿಮಾನಯಾನ ಸಂಸ್ಥೆಯು ಸ್ವೀಕರಿಸಿದ ಟ್ವೀಟ್‌ಗಳ ಸಂಖ್ಯೆಯೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸೋಣ. ಇದಕ್ಕಾಗಿ ನಾವು ಪೈ ಚಾರ್ಟ್ ಅನ್ನು ಬಳಸುತ್ತೇವೆ:

ಪೈ ಚಾರ್ಟ್

ಪ್ರತಿ ಏರ್‌ಲೈನ್‌ಗೆ ಸಾರ್ವಜನಿಕ ಟ್ವೀಟ್‌ಗಳ ಶೇಕಡಾವಾರು ಪ್ರಮಾಣವನ್ನು ಔಟ್‌ಪುಟ್‌ನಲ್ಲಿ ಪ್ರದರ್ಶಿಸಲಾಗುತ್ತದೆ.

ಪೈ ಚಾರ್ಟ್ ಔಟ್ಪುಟ್

ಎಲ್ಲಾ ಟ್ವೀಟ್‌ಗಳಲ್ಲಿ ಭಾವನೆಗಳನ್ನು ಹೇಗೆ ವಿತರಿಸಲಾಗಿದೆ ಎಂಬುದನ್ನು ನೋಡೋಣ.

ಲಾಕ್ಷಣಿಕ ಪೈ ಚಾರ್ಟ್

ಔಟ್ಪುಟ್:

ಲಾಕ್ಷಣಿಕ ಪೈ ಚಾರ್ಟ್ ಔಟ್‌ಪುಟ್

ಪ್ರತಿ ನಿರ್ದಿಷ್ಟ ವಿಮಾನಯಾನ ಸಂಸ್ಥೆಗೆ ಭಾವನೆಯ ವಿತರಣೆಯನ್ನು ನಾವು ಈಗ ಪರಿಶೀಲಿಸೋಣ.

ಫಲಿತಾಂಶಗಳ ಪ್ರಕಾರ, ಬಹುತೇಕ ಎಲ್ಲಾ ಏರ್‌ಲೈನ್‌ಗಳಿಗೆ ಟ್ವೀಟ್‌ಗಳ ಬಹುಪಾಲು ಪ್ರತಿಕೂಲವಾಗಿದೆ, ತಟಸ್ಥ ಮತ್ತು ಉತ್ತಮ ಟ್ವೀಟ್‌ಗಳು ಅನುಸರಿಸುತ್ತಿವೆ. ವರ್ಜಿನ್ ಅಮೇರಿಕಾ ಬಹುಶಃ ಮೂರು ಭಾವನೆಗಳ ಅನುಪಾತವನ್ನು ಹೋಲಿಸಬಹುದಾದ ಏಕೈಕ ವಿಮಾನಯಾನ ಸಂಸ್ಥೆಯಾಗಿದೆ.

ಪ್ರತಿ ಏರ್ಲೈನ್ನ ವಿತರಣೆ

ಔಟ್ಪುಟ್:

ಪ್ರತಿ ಏರ್ಲೈನ್ ಔಟ್ಪುಟ್ನ ವಿತರಣೆ

ಅಂತಿಮವಾಗಿ, ಮೂರು ಸೆಂಟಿಮೆಂಟ್ ವಿಭಾಗಗಳಿಂದ ಟ್ವೀಟ್‌ಗಳಿಗೆ ಸರಾಸರಿ ವಿಶ್ವಾಸಾರ್ಹ ಮಟ್ಟವನ್ನು ಪಡೆಯಲು ನಾವು ಸೀಬಾರ್ನ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸುತ್ತೇವೆ.

ಬಾರ್ ಪ್ಲಾಟ್

ಔಟ್ಪುಟ್:

ಬಾರ್ ಪ್ಲಾಟ್ ಔಟ್ಪುಟ್

ಧನಾತ್ಮಕ ಅಥವಾ ತಟಸ್ಥ ಟ್ವೀಟ್‌ಗಳಿಗಿಂತ ಋಣಾತ್ಮಕ ಟ್ವೀಟ್‌ಗಳ ವಿಶ್ವಾಸಾರ್ಹ ಮಟ್ಟವು ಹೆಚ್ಚಾಗಿರುತ್ತದೆ ಎಂದು ಫಲಿತಾಂಶವು ತೋರಿಸುತ್ತದೆ.

4. ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವುದು

ಅನೇಕ ಗ್ರಾಮ್ಯ ಪದಗಳು ಮತ್ತು ವಿರಾಮ ಚಿಹ್ನೆಗಳನ್ನು ಟ್ವೀಟ್‌ಗಳಲ್ಲಿ ಕಾಣಬಹುದು. ನಾವು ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡುವ ಮೊದಲು, ನಾವು ನಮ್ಮ ಟ್ವೀಟ್‌ಗಳನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಬೇಕಾಗಿದೆ.

ಆದಾಗ್ಯೂ, ನಾವು ಟ್ವೀಟ್‌ಗಳನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಲು ಪ್ರಾರಂಭಿಸುವ ಮೊದಲು, ನಾವು ನಮ್ಮ ಡೇಟಾಸೆಟ್ ಅನ್ನು ವೈಶಿಷ್ಟ್ಯ ಮತ್ತು ಲೇಬಲ್ ಸೆಟ್‌ಗಳಾಗಿ ಬೇರ್ಪಡಿಸಬೇಕು.

ವೈಶಿಷ್ಟ್ಯಗಳು ಮತ್ತು ಲೇಬಲ್‌ಗಳು

ನಾವು ಡೇಟಾವನ್ನು ವೈಶಿಷ್ಟ್ಯಗಳು ಮತ್ತು ತರಬೇತಿ ಸೆಟ್‌ಗಳಾಗಿ ಬೇರ್ಪಡಿಸಿದ ನಂತರ ನಾವು ಅದನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಬಹುದು. ಇದನ್ನು ಮಾಡಲು ನಿಯಮಿತ ಅಭಿವ್ಯಕ್ತಿಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.

ನಿಯಮಿತ ಅಭಿವ್ಯಕ್ತಿ

5. ಪಠ್ಯದ ಸಂಖ್ಯಾ ಪ್ರಾತಿನಿಧ್ಯ

ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳನ್ನು ತರಬೇತಿ ಮಾಡಲು, ಸಂಖ್ಯಾಶಾಸ್ತ್ರೀಯ ಕ್ರಮಾವಳಿಗಳು ಗಣಿತವನ್ನು ಬಳಸಿಕೊಳ್ಳುತ್ತವೆ. ಮತ್ತೊಂದೆಡೆ, ಗಣಿತವು ಕೇವಲ ಸಂಖ್ಯೆಗಳೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

ಸಂಖ್ಯಾಶಾಸ್ತ್ರದ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಎದುರಿಸಲು ನಾವು ಮೊದಲು ಪಠ್ಯವನ್ನು ಸಂಖ್ಯೆಗಳಾಗಿ ಪರಿವರ್ತಿಸಬೇಕು. ಹಾಗೆ ಮಾಡಲು ಮೂರು ಮೂಲ ಮಾರ್ಗಗಳಿವೆ: ಬ್ಯಾಗ್ ಆಫ್ ವರ್ಡ್ಸ್, TF-IDF ಮತ್ತು Word2Vec.

ಅದೃಷ್ಟವಶಾತ್, Python ನ Scikit-Learn ಮಾಡ್ಯೂಲ್‌ನಲ್ಲಿರುವ TfidfVectorizer ವರ್ಗವನ್ನು ಪಠ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು TF-IDF ವೈಶಿಷ್ಟ್ಯ ವೆಕ್ಟರ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸಲು ಬಳಸಬಹುದು.

TF IDF

6. ಡೇಟಾ-ಚಾಲಿತ ತರಬೇತಿ ಮತ್ತು ಪರೀಕ್ಷಾ ಸೆಟ್‌ಗಳನ್ನು ರಚಿಸುವುದು

ಅಂತಿಮವಾಗಿ, ನಮ್ಮ ಅಲ್ಗಾರಿದಮ್‌ಗಳಿಗೆ ತರಬೇತಿ ನೀಡುವ ಮೊದಲು ನಾವು ನಮ್ಮ ಡೇಟಾವನ್ನು ತರಬೇತಿ ಮತ್ತು ಪರೀಕ್ಷಾ ಸೆಟ್‌ಗಳಾಗಿ ವಿಂಗಡಿಸಬೇಕು.

ತರಬೇತಿ ಸೆಟ್ ಅನ್ನು ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ತರಬೇತಿ ಮಾಡಲು ಬಳಸಲಾಗುತ್ತದೆ ಮತ್ತು ಪರೀಕ್ಷಾ ಸೆಟ್ ಅನ್ನು ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಯ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನಿರ್ಣಯಿಸಲು ಬಳಸಲಾಗುತ್ತದೆ.

ರೈಲು ಪರೀಕ್ಷೆ

7. ಮಾದರಿ ಅಭಿವೃದ್ಧಿ

ಡೇಟಾವನ್ನು ತರಬೇತಿ ಮತ್ತು ಪರೀಕ್ಷಾ ಸೆಟ್‌ಗಳಾಗಿ ವಿಂಗಡಿಸಿದ ನಂತರ, ತರಬೇತಿ ಡೇಟಾದಿಂದ ಕಲಿಯಲು ಯಂತ್ರ ಕಲಿಕೆಯ ತಂತ್ರಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ.

ನೀವು ಯಾವುದೇ ಯಂತ್ರ ಕಲಿಕೆ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಬಳಸಬಹುದು. ಆದಾಗ್ಯೂ, ರಾಂಡಮ್ ಫಾರೆಸ್ಟ್ ವಿಧಾನವನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸದ ಡೇಟಾವನ್ನು ನಿಭಾಯಿಸುವ ಸಾಮರ್ಥ್ಯದ ಕಾರಣದಿಂದ ಬಳಸಲಾಗುತ್ತದೆ.

ಮಾದರಿ ತರಬೇತಿ

8. ಮುನ್ಸೂಚನೆಗಳು ಮತ್ತು ಮಾದರಿ ಮೌಲ್ಯಮಾಪನ

ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡಿದ ನಂತರ, ಅಂತಿಮ ಹಂತವು ಭವಿಷ್ಯ ನುಡಿಯುವುದು. ಇದನ್ನು ಮಾಡಲು, ನಾವು ತರಬೇತಿ ನೀಡಿದ ರ್ಯಾಂಡಮ್‌ಫಾರೆಸ್ಟ್‌ಕ್ಲಾಸಿಫೈಯರ್ ವರ್ಗದ ವಸ್ತುವಿಗೆ ಮುನ್ಸೂಚಕ ವಿಧಾನವನ್ನು ಅನ್ವಯಿಸಬೇಕು.

ಮಾದರಿ ಭವಿಷ್ಯ

ಅಂತಿಮವಾಗಿ, ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಗೊಂದಲದ ಮೆಟ್ರಿಕ್‌ಗಳು, F1 ಅಳತೆಗಳು, ನಿಖರತೆ ಮತ್ತು ಮುಂತಾದ ವರ್ಗೀಕರಣ ಕ್ರಮಗಳನ್ನು ಬಳಸಬಹುದು.

ವರ್ಗೀಕರಣ ಮೆಟ್ರಿಕ್ಸ್

ಔಟ್ಪುಟ್:

ವರ್ಗೀಕರಣ ಮೆಟ್ರಿಕ್ಸ್ ಔಟ್ಪುಟ್

ಫಲಿತಾಂಶಗಳು ನೋಡಿದಂತೆ ನಮ್ಮ ಅಲ್ಗಾರಿದಮ್ 75.30 ನಿಖರತೆಯನ್ನು ಸಾಧಿಸಿದೆ.

ತೀರ್ಮಾನ

ಸೆಂಟಿಮೆಂಟ್ ವಿಶ್ಲೇಷಣೆಯು ಸಾಮಾನ್ಯವಾದ NLP ಉದ್ಯೋಗಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ ಏಕೆಂದರೆ ಇದು ನಿರ್ದಿಷ್ಟ ವಿಷಯದ ಬಗ್ಗೆ ಒಟ್ಟಾರೆ ಸಾರ್ವಜನಿಕ ಅಭಿಪ್ರಾಯವನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಹಲವಾರು ಪೈಥಾನ್ ಲೈಬ್ರರಿಗಳು ಭಾವನೆ ವಿಶ್ಲೇಷಣೆಗೆ ಹೇಗೆ ಸಹಾಯ ಮಾಡುತ್ತವೆ ಎಂಬುದನ್ನು ನಾವು ನೋಡಿದ್ದೇವೆ.

ನಾವು ಆರು US ಏರ್‌ಲೈನ್‌ಗಳ ಕುರಿತು ಸಾರ್ವಜನಿಕ ಟ್ವೀಟ್‌ಗಳ ಅಧ್ಯಯನವನ್ನು ನಡೆಸಿದ್ದೇವೆ ಮತ್ತು ಸರಿಸುಮಾರು 75% ನಿಖರತೆಯನ್ನು ತಲುಪಿದ್ದೇವೆ.

ನೀವು ಉತ್ತಮ ಫಲಿತಾಂಶಗಳನ್ನು ಸಾಧಿಸಬಹುದೇ ಎಂದು ನೋಡಲು ಲಾಜಿಸ್ಟಿಕ್ ರಿಗ್ರೆಷನ್, SVM, ಅಥವಾ KNN ನಂತಹ ಇನ್ನೊಂದು ಯಂತ್ರ ಕಲಿಕೆಯ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಪ್ರಯತ್ನಿಸಲು ನಾನು ನಿಮಗೆ ಸಲಹೆ ನೀಡುತ್ತೇನೆ.

ಪೈಥಾನ್ ಬಳಸಿಕೊಂಡು NLP ಸೆಂಟಿಮೆಂಟ್ ವಿಶ್ಲೇಷಣೆ

ಭಾವನಾತ್ಮಕ ವಿಶ್ಲೇಷಣೆ ಎಂದರೇನು?

ಸೆಂಟಿಮೆಂಟ್ ವಿಶ್ಲೇಷಣೆಯ ಪ್ರಯೋಜನಗಳು