పైథాన్ ఉపయోగించి NLP సెంటిమెంట్ విశ్లేషణ

విషయ సూచిక[దాచు][చూపండి]

సెంటిమెంట్ విశ్లేషణ అంటే ఏమిటి?
సెంటిమెంట్ విశ్లేషణ యొక్క ప్రయోజనాలు
సెంటిమెంట్ విశ్లేషణ - సమస్య ప్రకటన+-
ముగింపు

వ్యాపారాలు 2021 నాటికి వినియోగదారుల పరస్పర డేటాను పొందడంలో ప్రావీణ్యం పొందుతాయి.

మరోవైపు, ఈ డేటా పాయింట్‌లపై ఎక్కువగా ఆధారపడడం, కస్టమర్ ఇన్‌పుట్‌ను స్టాటిస్టిక్‌గా పరిగణించే సంస్థలకు తరచుగా దారి తీస్తుంది - కస్టమర్ వాయిస్‌ని వినడానికి ఒక డైమెన్షనల్ విధానం.

కస్టమర్ వాయిస్ బ్యాడ్జ్ చేయబడదు లేదా నంబర్‌గా మార్చబడదు.

ఇది తప్పక చదవాలి, కుదించబడాలి మరియు అన్నింటికంటే, అర్థం చేసుకోవాలి.

వాస్తవం ఏమిటంటే, కంపెనీలు తమ వినియోగదారులు వారితో పరస్పర చర్య చేసే ప్రతి ఛానెల్‌లో చెప్పే వాటిని తప్పనిసరిగా వినాలి, అది ఫోన్ కాల్‌లు, ఇమెయిల్‌లు లేదా లైవ్ చాట్ ద్వారా అయినా.

ప్రతి కంపెనీ వినియోగదారుల ఫీడ్‌బ్యాక్ సెంటిమెంట్‌ను పర్యవేక్షించడం మరియు మూల్యాంకనం చేయడం ప్రాధాన్యతనివ్వాలి, అయితే కంపెనీలు సాంప్రదాయకంగా ఈ డేటాను నిర్వహించడానికి మరియు అర్థవంతమైన మేధస్సుగా మార్చడానికి చాలా కష్టపడుతున్నాయి.

ఇక సెంటిమెంట్ అనాలిసిస్ విషయంలో ఇది లేదు.

ఈ ట్యుటోరియల్‌లో, మేము సెంటిమెంట్ విశ్లేషణ, దాని ప్రయోజనాలు మరియు ఎలా ఉపయోగించాలో నిశితంగా పరిశీలిస్తాము NLTK డేటాపై సెంటిమెంట్ విశ్లేషణ చేయడానికి లైబ్రరీ.

సెంటిమెంట్ విశ్లేషణ అంటే ఏమిటి?

సెంటిమెంట్ విశ్లేషణ, తరచుగా సంభాషణ మైనింగ్ అని పిలుస్తారు, ఇది వ్యక్తుల భావాలు, ఆలోచనలు మరియు అభిప్రాయాలను విశ్లేషించడానికి ఒక పద్ధతి.

సెంటిమెంట్ విశ్లేషణ వ్యాపారాలు తమ వినియోగదారుల గురించి బాగా అర్థం చేసుకోవడానికి, ఆదాయాన్ని పెంచుకోవడానికి మరియు క్లయింట్ ఇన్‌పుట్ ఆధారంగా తమ ఉత్పత్తులు మరియు సేవలను మెరుగుపరచుకోవడానికి అనుమతిస్తుంది.

కస్టమర్ సెంటిమెంట్‌ను విశ్లేషించగల సాఫ్ట్‌వేర్ సిస్టమ్ మరియు దానిని తగ్గించడానికి ప్రయత్నించే సేల్స్‌పర్సన్/కస్టమర్ సర్వీస్ రిప్రజెంటేటివ్ మధ్య వ్యత్యాసం ముడి టెక్స్ట్ నుండి ఆబ్జెక్టివ్ ఫలితాలను పొందే మాజీ యొక్క సంపూర్ణ సామర్థ్యం - ఇది ప్రాథమికంగా సహజ భాషా ప్రాసెసింగ్ (NLP) ద్వారా సాధించబడుతుంది మరియు యంత్ర అభ్యాసం పద్ధతులు.

ఎమోషన్ ఐడెంటిఫికేషన్ నుండి టెక్స్ట్ వర్గీకరణ వరకు, సెంటిమెంట్ విశ్లేషణ విస్తృత శ్రేణి అనువర్తనాలను కలిగి ఉంది. ఉత్పత్తి మూల్యాంకనాలు లేదా వినియోగదారు అభిప్రాయాల సెంటిమెంట్‌ను పర్యవేక్షించడంలో సంస్థకు సహాయపడటానికి మేము పాఠ్య డేటాపై సెంటిమెంట్ విశ్లేషణను ఉపయోగిస్తాము.

పోస్టింగ్‌ల సెంటిమెంట్‌ను అంచనా వేయడానికి వివిధ సోషల్ మీడియా సైట్‌లు దీనిని ఉపయోగిస్తాయి మరియు భావోద్వేగం చాలా బలంగా లేదా హింసాత్మకంగా ఉంటే లేదా వారి థ్రెషోల్డ్ కంటే తక్కువగా ఉంటే, పోస్ట్ తొలగించబడుతుంది లేదా దాచబడుతుంది.

భావోద్వేగ గుర్తింపు నుండి వచన వర్గీకరణ వరకు ప్రతిదానికీ సెంటిమెంట్ విశ్లేషణను ఉపయోగించవచ్చు.

సెంటిమెంట్ విశ్లేషణ యొక్క అత్యంత ప్రజాదరణ పొందిన ఉపయోగం టెక్స్ట్యువల్ డేటాపై ఉంది, ఇక్కడ ఉత్పత్తి మూల్యాంకనాలు లేదా వినియోగదారు వ్యాఖ్యల సెంటిమెంట్‌ను ట్రాక్ చేయడంలో కంపెనీకి సహాయం చేయడానికి ఇది ఉపయోగించబడుతుంది.

పోస్టింగ్‌ల సెంటిమెంట్‌ను అంచనా వేయడానికి వివిధ సోషల్ మీడియా సైట్‌లు కూడా దీనిని ఉపయోగిస్తాయి మరియు భావోద్వేగం చాలా బలంగా లేదా హింసాత్మకంగా ఉంటే లేదా వారి థ్రెషోల్డ్ కంటే తక్కువగా ఉంటే, వారు పోస్ట్‌ను తొలగిస్తారు లేదా దాచిపెడతారు.

సెంటిమెంట్ విశ్లేషణ యొక్క ప్రయోజనాలు

విస్మరించకూడని సెంటిమెంట్ విశ్లేషణ యొక్క కొన్ని ముఖ్యమైన ప్రయోజనాలు క్రిందివి.

మీ లక్ష్య జనాభాలో మీ బ్రాండ్ యొక్క అవగాహనను అంచనా వేయడంలో సహాయం చేయండి.
మీ ఉత్పత్తిని అభివృద్ధి చేయడంలో మీకు సహాయం చేయడానికి ప్రత్యక్ష క్లయింట్ ఫీడ్‌బ్యాక్ అందించబడుతుంది.
అమ్మకాల ఆదాయాన్ని మరియు అంచనాలను పెంచుతుంది.
మీ ఉత్పత్తి యొక్క ఛాంపియన్‌లకు అప్‌సెల్ అవకాశాలు పెరిగాయి.
ప్రోయాక్టివ్ కస్టమర్ సేవ అనేది ఒక ఆచరణాత్మక ఎంపిక.

నంబర్‌లు మీకు మార్కెటింగ్ ప్రచారం యొక్క అసలైన పనితీరు, ప్రాస్పెక్టింగ్ కాల్‌లో ఎంగేజ్‌మెంట్ మొత్తం మరియు కస్టమర్ సపోర్ట్‌లో పెండింగ్‌లో ఉన్న టిక్కెట్‌ల సంఖ్య వంటి సమాచారాన్ని అందించగలవు.

అయితే, ఒక నిర్దిష్ట సంఘటన ఎందుకు జరిగింది లేదా దానికి కారణమేమిటో ఇది మీకు చెప్పదు. ఉదాహరణకు, Google మరియు Facebook వంటి Analytics సాధనాలు, మీ మార్కెటింగ్ ప్రయత్నాల పనితీరును అంచనా వేయడంలో మీకు సహాయపడతాయి.

కానీ ఆ నిర్దిష్ట ప్రచారం ఎందుకు విజయవంతమైంది అనే దాని గురించి వారు మీకు లోతైన జ్ఞానాన్ని అందించరు.

సెంటిమెంట్ విశ్లేషణ ఈ విషయంలో గేమ్-ఛేంజ్ అయ్యే అవకాశం ఉంది.

సెంటిమెంట్ విశ్లేషణ - సమస్య ప్రకటన

ట్వీట్‌ల ఆధారంగా ఆరు US ఎయిర్‌లైన్స్‌కు సంబంధించి ఒక ట్వీట్‌కు అనుకూలమైన, ప్రతికూలమైన లేదా తటస్థ భావోద్వేగం ఉందో లేదో నిర్ధారించడం లక్ష్యం.

ఇది ఒక ప్రామాణిక పర్యవేక్షించబడే అభ్యాస జాబ్, దీనిలో మేము తప్పనిసరిగా టెక్స్ట్ స్ట్రింగ్‌ను ముందుగా నిర్ణయించిన వర్గాలుగా వర్గీకరించాలి.

సొల్యూషన్

ఈ సమస్యను పరిష్కరించడానికి మేము ప్రామాణిక యంత్ర అభ్యాస ప్రక్రియను ఉపయోగిస్తాము. మేము అవసరమైన లైబ్రరీలు మరియు డేటాసెట్‌లను దిగుమతి చేయడం ద్వారా ప్రారంభిస్తాము.

ఆపై డేటాలో ఏవైనా నమూనాలు ఉన్నాయో లేదో తెలుసుకోవడానికి మేము కొన్ని అన్వేషణాత్మక డేటా విశ్లేషణను చేస్తాము. దానిని అనుసరించి, మేము టెక్స్ట్ ఇన్‌పుట్ సంఖ్యా డేటాను మార్చడానికి టెక్స్ట్ ప్రీప్రాసెసింగ్ చేస్తాము a యంత్ర అభ్యాసం వ్యవస్థ ఉపయోగించవచ్చు.

చివరగా, మేము మెషీన్ లెర్నింగ్ పద్ధతులను ఉపయోగించి మా సెంటిమెంట్ విశ్లేషణ నమూనాలకు శిక్షణ ఇస్తాము మరియు మూల్యాంకనం చేస్తాము.

1. లైబ్రరీలను దిగుమతి చేసుకోవడం

అవసరమైన లైబ్రరీలను లోడ్ చేయండి.

లైబ్రరీలను దిగుమతి చేస్తోంది

2. డేటాసెట్‌ను దిగుమతి చేయండి

ఈ కథనం కనుగొనబడే డేటాసెట్ ఆధారంగా ఉంటుంది Github. దిగువ చూసినట్లుగా, పాండాస్ రీడ్ CSV ఫంక్షన్‌ని ఉపయోగించి డేటాసెట్ దిగుమతి చేయబడుతుంది:

డేటాసెట్‌ను దిగుమతి చేస్తోంది

హెడ్() ఫంక్షన్‌ని ఉపయోగించి, డేటాసెట్ యొక్క మొదటి ఐదు వరుసలను పరిశీలించండి:

హెడ్ డేటాసెట్

అవుట్పుట్:

హెడ్ డేటాసెట్ అవుట్‌పుట్

3. డేటా యొక్క విశ్లేషణ

ఏవైనా ట్రెండ్‌లు ఉన్నాయో లేదో తెలుసుకోవడానికి డేటాను పరిశీలిద్దాం. అయితే ముందుగా, చార్ట్‌లను మరింత కనిపించేలా చేయడానికి మేము డిఫాల్ట్ ప్లాట్ పరిమాణాన్ని మారుస్తాము.

ప్లాట్ పరిమాణాన్ని సర్దుబాటు చేస్తోంది

ప్రతి విమానయాన సంస్థకు ఎన్ని ట్వీట్లు వచ్చాయి అనేదానితో ప్రారంభిద్దాం. మేము దీని కోసం పై చార్ట్‌ని ఉపయోగిస్తాము:

పై చార్ట్

ప్రతి ఎయిర్‌లైన్ కోసం పబ్లిక్ ట్వీట్‌ల శాతం అవుట్‌పుట్‌లో ప్రదర్శించబడుతుంది.

పై చార్ట్ అవుట్‌పుట్

అన్ని ట్వీట్‌లలో భావాలు ఎలా పంపిణీ చేయబడతాయో చూద్దాం.

సెమాంటిక్ పై చార్ట్

అవుట్పుట్:

సెమాంటిక్ పై చార్ట్ అవుట్‌పుట్

ప్రతి నిర్దిష్ట విమానయాన సంస్థకు సంబంధించిన సెంటిమెంట్ పంపిణీని ఇప్పుడు పరిశీలిద్దాం.

ఫలితాల ప్రకారం, తటస్థ మరియు మంచి ట్వీట్‌లు అనుసరించడంతో దాదాపు అన్ని ఎయిర్‌లైన్‌లకు ఎక్కువ సంఖ్యలో ట్వీట్‌లు ప్రతికూలంగా ఉన్నాయి. మూడు భావాల నిష్పత్తిని పోల్చదగిన ఏకైక విమానయాన సంస్థ వర్జిన్ అమెరికా.

ప్రతి ఎయిర్‌లైన్ పంపిణీ

అవుట్పుట్:

ప్రతి ఎయిర్‌లైన్ అవుట్‌పుట్ పంపిణీ

చివరగా, మేము మూడు సెంటిమెంట్ వర్గాల నుండి ట్వీట్‌ల కోసం సగటు విశ్వాస స్థాయిని పొందడానికి సీబోర్న్ లైబ్రరీని ఉపయోగిస్తాము.

బార్ ప్లాట్

అవుట్పుట్:

బార్ ప్లాట్ అవుట్‌పుట్

సానుకూల లేదా తటస్థ ట్వీట్ల కంటే ప్రతికూల ట్వీట్ల విశ్వాస స్థాయి ఎక్కువగా ఉందని ఫలితం చూపిస్తుంది.

4. డేటాను శుభ్రపరచడం

ట్వీట్లలో అనేక యాస పదాలు మరియు విరామ చిహ్నాలను కనుగొనవచ్చు. మేము మెషిన్ లెర్నింగ్ మోడల్‌కు శిక్షణ ఇవ్వడానికి ముందు, మన ట్వీట్‌లను శుభ్రం చేయాలి.

అయితే, మేము ట్వీట్‌లను శుభ్రపరచడం ప్రారంభించే ముందు, మేము మా డేటాసెట్‌ను ఫీచర్ మరియు లేబుల్ సెట్‌లుగా విభజించాలి.

ఫీచర్లు మరియు లేబుల్స్

మేము డేటాను ఫీచర్‌లు మరియు శిక్షణా సెట్‌లుగా విభజించిన తర్వాత దాన్ని క్లీన్ చేయవచ్చు. దీన్ని చేయడానికి సాధారణ వ్యక్తీకరణలు ఉపయోగించబడతాయి.

రెగ్యులర్ వ్యక్తీకరణ

5. టెక్స్ట్ యొక్క సంఖ్యా ప్రాతినిధ్యం

మెషీన్ లెర్నింగ్ మోడల్‌లకు శిక్షణ ఇవ్వడానికి, గణాంక అల్గారిథమ్‌లు గణితాన్ని ఉపయోగిస్తాయి. గణితం, మరోవైపు, సంఖ్యలతో మాత్రమే పనిచేస్తుంది.

గణాంక అల్గారిథమ్‌లను ఎదుర్కోవడానికి మనం మొదట వచనాన్ని సంఖ్యలుగా మార్చాలి. అలా చేయడానికి మూడు ప్రాథమిక మార్గాలు ఉన్నాయి: బ్యాగ్ ఆఫ్ వర్డ్స్, TF-IDF మరియు Word2Vec.

అదృష్టవశాత్తూ, టెక్స్ట్ ఫీచర్‌లను TF-IDF ఫీచర్ వెక్టర్‌లుగా మార్చడానికి పైథాన్ యొక్క స్కికిట్-లెర్న్ మాడ్యూల్‌లోని TfidfVectorizer తరగతిని ఉపయోగించవచ్చు.

TF IDF

6. డేటా ఆధారిత శిక్షణ మరియు టెస్ట్ సెట్‌లను సృష్టించడం

చివరగా, మా అల్గారిథమ్‌లకు శిక్షణ ఇచ్చే ముందు మన డేటాను తప్పనిసరిగా శిక్షణ మరియు పరీక్ష సెట్‌లుగా విభజించాలి.

అల్గారిథమ్‌కు శిక్షణ ఇవ్వడానికి శిక్షణా సెట్ ఉపయోగించబడుతుంది మరియు మెషీన్ లెర్నింగ్ మోడల్ పనితీరును అంచనా వేయడానికి టెస్ట్ సెట్ ఉపయోగించబడుతుంది.

రైలు పరీక్ష

7. మోడల్ అభివృద్ధి

డేటాను శిక్షణ మరియు పరీక్షా సెట్‌లుగా విభజించిన తర్వాత, శిక్షణ డేటా నుండి తెలుసుకోవడానికి మెషిన్ లెర్నింగ్ పద్ధతులు ఉపయోగించబడతాయి.

మీరు ఏదైనా మెషిన్ లెర్నింగ్ అల్గారిథమ్‌ని ఉపయోగించవచ్చు. రాండమ్ ఫారెస్ట్ విధానం, అయితే, సాధారణీకరించని డేటాను ఎదుర్కోగల సామర్థ్యం కారణంగా ఉపయోగించబడుతుంది.

మోడల్ శిక్షణ

8. అంచనాలు మరియు మోడల్ మూల్యాంకనం

మోడల్ శిక్షణ పొందిన తరువాత, చివరి దశ అంచనాలను రూపొందించడం. దీన్ని చేయడానికి, మేము శిక్షణ పొందిన రాండమ్‌ఫారెస్ట్‌క్లాసిఫైయర్ క్లాస్ ఆబ్జెక్ట్‌కు ప్రిడిక్ట్ పద్ధతిని తప్పనిసరిగా వర్తింపజేయాలి.

మోడల్ ప్రిడిక్షన్

చివరగా, మెషిన్ లెర్నింగ్ మోడల్‌ల పనితీరును అంచనా వేయడానికి గందరగోళ కొలమానాలు, F1 కొలతలు, ఖచ్చితత్వం వంటి వర్గీకరణ చర్యలు ఉపయోగించబడతాయి.

వర్గీకరణ కొలమానాలు

అవుట్పుట్:

వర్గీకరణ మెట్రిక్స్ అవుట్‌పుట్

ఫలితాల ద్వారా చూసినట్లుగా, మా అల్గారిథమ్ 75.30 ఖచ్చితత్వాన్ని సాధించింది.

ముగింపు

సెంటిమెంట్ విశ్లేషణ అనేది చాలా తరచుగా జరిగే NLP ఉద్యోగాలలో ఒకటి, ఎందుకంటే ఇది నిర్దిష్ట సమస్యపై మొత్తం ప్రజాభిప్రాయాన్ని గుర్తించడంలో సహాయపడుతుంది.

సెంటిమెంట్ విశ్లేషణకు అనేక పైథాన్ లైబ్రరీలు ఎలా సహాయపడతాయో మేము చూశాము.

మేము ఆరు US ఎయిర్‌లైన్స్ గురించి పబ్లిక్ ట్వీట్‌లను అధ్యయనం చేసాము మరియు దాదాపు 75% ఖచ్చితత్వాన్ని చేరుకున్నాము.

మీరు మెరుగైన ఫలితాలను సాధించగలరో లేదో చూడడానికి లాజిస్టిక్ రిగ్రెషన్, SVM లేదా KNN వంటి మరొక మెషీన్ లెర్నింగ్ అల్గారిథమ్‌ని ప్రయత్నించమని నేను మీకు సూచిస్తున్నాను.

పైథాన్ ఉపయోగించి NLP సెంటిమెంట్ విశ్లేషణ

సెంటిమెంట్ విశ్లేషణ అంటే ఏమిటి?

సెంటిమెంట్ విశ్లేషణ యొక్క ప్రయోజనాలు