Analisis Sentimen NLP nggunakake Python

Bab lan Paragraf[Singidaken][Tampilake]

Apa analisis sentimen?
Paedah Analisis Sentimen
Analisis Sentimen - Pernyataan Masalah+-
kesimpulan

Bisnis bakal nguwasani akuisisi data interaksi konsumen ing taun 2021.

Kaluwihan gumantung ing titik data kasebut, ing sisih liya, asring nyebabake organisasi nganggep input pelanggan minangka statistik - pendekatan sing rada siji dimensi kanggo ngrungokake swara pelanggan.

Swara pelanggan ora bisa diwenehi tandha utawa diowahi dadi nomer.

Iku kudu diwaca, dipadhetke, lan, sing paling penting, dipahami.

Kasunyatane manawa perusahaan kudu aktif ngrungokake apa sing dikandhakake para konsumen ing saben saluran sing sesambungan karo dheweke, apa liwat telpon, email, utawa obrolan langsung.

Saben perusahaan kudu menehi prioritas kanggo ngawasi lan ngevaluasi sentimen umpan balik konsumen, nanging perusahaan tradisional berjuang kanggo nangani data kasebut lan ngowahi dadi intelijen sing migunani.

Iki ora ana maneh karo Analisis Sentimen.

Ing tutorial iki, kita bakal nliti analisis sentimen, kaluwihan, lan cara nggunakake NLTK perpustakaan kanggo nindakake analisis sentimen ing data.

Apa analisis sentimen?

Analisis sentimen, asring dikenal minangka pertambangan obrolan, minangka cara kanggo nganalisa perasaan, pikiran, lan pandangane wong.

Analisis sentimen ngidini bisnis entuk pangerten sing luwih apik babagan konsumen, nambah penghasilan, lan nambah produk lan layanan adhedhasar input klien.

Bentenipun ing antarane sistem piranti lunak sing bisa nganalisa sentimen pelanggan lan wakil salesperson / layanan pelanggan sing nyoba nyimpulake yaiku kemampuan mantan kanggo ngasilake asil objektif saka teks mentah - iki utamane ditindakake liwat pangolahan basa alami (NLP) lan learning machine teknik.

Saka identifikasi emosi nganti kategorisasi teks, analisis sentimen nduweni macem-macem aplikasi. Kita nggunakake analisis sentimen babagan data teks kanggo mbantu perusahaan ngawasi sentimen evaluasi produk utawa umpan balik konsumen.

Situs media sosial sing beda-beda digunakake kanggo netepake sentimen postingan, lan yen emosi kasebut kuwat banget utawa kasar, utawa mudhun ing ambang, kiriman kasebut bakal dibusak utawa didhelikake.

Analisis sentimen bisa digunakake kanggo kabeh saka identifikasi emosi nganti kategorisasi teks.

Panggunaan analisis sentimen sing paling populer yaiku ing data tekstual, sing digunakake kanggo mbantu perusahaan nglacak sentimen evaluasi produk utawa komentar konsumen.

Situs media sosial sing beda-beda uga digunakake kanggo netepake sentimen postingan, lan yen emosi kasebut kuwat banget utawa kasar, utawa mudhun ing ambang, dheweke mbusak utawa ndhelikake kiriman kasebut.

Paedah Analisis Sentimen

Ing ngisor iki sawetara keuntungan paling penting saka analisis sentimen sing ora kudu digatekake.

Bantuan kanggo netepake persepsi merek sampeyan ing antarane target demografi.
Umpan balik klien langsung diwenehake kanggo mbantu ngembangake produk sampeyan.
Nambah revenue dodolan lan prospek.
Kesempatan upsell kanggo juara produk sampeyan wis tambah.
Layanan pelanggan proaktif minangka pilihan praktis.

Nomer bisa menehi informasi kayata kinerja mentah kampanye pemasaran, jumlah keterlibatan ing telpon prospektif, lan jumlah tiket sing ditundha ing dhukungan pelanggan.

Nanging, ora bakal ngandhani apa sebabe kedadeyan tartamtu utawa apa sing nyebabake. Piranti analytics kaya Google lan Facebook, umpamane, bisa mbantu sampeyan netepake kinerja upaya pemasaran sampeyan.

Nanging dheweke ora menehi kawruh sing jero babagan kenapa kampanye spesifik kasebut sukses.

Analisis Sentimen duweni potensi kanggo ngganti game ing babagan iki.

Analisis Sentimen - Pernyataan Masalah

Tujuane kanggo nemtokake manawa tweet nduweni emosi sing apik, negatif, utawa netral babagan enem maskapai AS adhedhasar tweets.

Iki minangka tugas sinau sing diawasi standar sing kudu digolongake string teks menyang kategori sing wis ditemtokake diwenehi string teks.

solusi

Kita bakal nggunakake proses machine learning standar kanggo ngatasi masalah iki. Kita bakal miwiti kanthi ngimpor perpustakaan lan set data sing dibutuhake.

Banjur kita bakal nindakake sawetara analisis data eksplorasi kanggo nemtokake manawa ana pola ing data kasebut. Sawise iku, kita bakal nindakake preprocessing teks kanggo ngowahi data numerik input teks sing a learning machine sistem bisa digunakake.

Pungkasan, kita bakal nglatih lan ngevaluasi model analisis sentimen nggunakake metode pembelajaran mesin.

1. Ngimpor Pustaka

Muat perpustakaan sing dibutuhake.

Ngimpor Pustaka

2. Impor Dataset

Artikel iki bakal adhedhasar dataset sing bisa ditemokake ing GitHub. Dataset bakal diimpor nggunakake fungsi maca CSV Pandas, kaya sing katon ing ngisor iki:

Ngimpor Dataset

Nggunakake fungsi head(), priksa limang baris pisanan dataset:

Kepala Dataset

Output:

Output saka Dataset Kepala

3. Analisis Dhata

Ayo kita nliti data kanggo nemtokake manawa ana tren. Nanging pisanan, kita bakal ngganti ukuran plot standar kanggo nggawe grafik luwih katon.

Nyetel Ukuran Plot

Ayo diwiwiti kanthi jumlah tweet sing ditampa saben maskapai. Kita bakal nggunakake bagan pai kanggo iki:

Pie Chart

Persentase tweets umum kanggo saben maskapai ditampilake ing output.

Output Bagan Pie

Ayo goleki kepiye perasaan disebarake ing kabeh tweet.

Bagan Pie Semantik

Output:

Output Bagan Pie Semantik

Ayo saiki nliti distribusi sentimen kanggo saben maskapai tartamtu.

Miturut asil, akeh tweets kanggo meh kabeh maskapai ora nguntungake, kanthi tweets netral lan apik. Virgin America mbok menawa mung maskapai ngendi proporsi saka telung raos iso dibandhingke.

Distribusi Saben Maskapai

Output:

Distribusi Saben Output Maskapai

Pungkasan, kita bakal nggunakake perpustakaan Seaborn kanggo entuk tingkat kapercayan rata-rata kanggo tweet saka telung kategori sentimen.

Plot Bar

Output:

Bar Plot Output

Asil kasebut nuduhake yen tingkat kapercayan kanggo tweet negatif luwih gedhe tinimbang tweets positif utawa netral.

4. Ngresiki data

Akeh istilah slang lan tandha wacan bisa ditemokake ing tweets. Sadurunge bisa nglatih model pembelajaran mesin, kita kudu ngresiki tweets kita.

Nanging, sadurunge miwiti ngresiki tweets, kita kudu misahake set data dadi set fitur lan label.

Fitur lan Label

Kita bisa ngresiki data yen wis dipisahake dadi fitur lan set latihan. Ekspresi reguler bakal digunakake kanggo nindakake iki.

Expression biasa

5. Representasi Numerik Teks

Kanggo nglatih model pembelajaran mesin, algoritma statistik nggunakake matematika. Matematika, ing tangan liyane, mung dianggo karo nomer.

Kita kudu ngowahi teks dadi angka kanggo algoritma statistik kanggo ngatasi. Ana telung cara dhasar kanggo nindakake: Bag of Words, TF-IDF, lan Word2Vec.

Untunge, kelas TfidfVectorizer ing modul Scikit-Learn Python bisa digunakake kanggo ngowahi fitur teks dadi vektor fitur TF-IDF.

TF IDF

6. Nggawe Data-Driven Training lan Test Sets

Pungkasan, kita kudu mbagi data dadi set latihan lan uji coba sadurunge nglatih algoritma.

Set latihan bakal digunakake kanggo nglatih algoritma, lan set tes bakal digunakake kanggo netepake kinerja model pembelajaran mesin.

Test Sepur

7. Pangembangan Model

Sawise data dipisahake dadi set latihan lan tes, teknik pembelajaran mesin digunakake kanggo sinau saka data latihan.

Sampeyan bisa nggunakake algoritma learning machine apa wae. Pendekatan Random Forest, Nanging, bakal digunakake amarga kemampuan kanggo ngatasi data sing ora dinormalisasi.

Latihan Model

8. Prediksi lan Evaluasi Model

Sawise model wis dilatih, tahap pungkasan yaiku nggawe prediksi. Kanggo nindakake iki, kita kudu ngetrapake metode prediksi menyang obyek kelas RandomForestClassifier sing dilatih.

Model Prediksi

Pungkasan, ukuran klasifikasi kaya metrik kebingungan, ukuran F1, akurasi, lan liya-liyane bisa digunakake kanggo ngevaluasi kinerja model pembelajaran mesin.

Metrik Klasifikasi

Output:

Output Metrik Klasifikasi

Algoritma kita entuk akurasi 75.30, kaya sing dideleng saka asil.

kesimpulan

Analisis sentimen minangka salah sawijining pakaryan NLP sing paling umum amarga mbantu ngenali pendapat umum babagan masalah tartamtu.

Kita weruh carane sawetara perpustakaan Python bisa mbantu analisis sentimen.

Kita nganakake panaliten babagan tweet umum babagan enem maskapai AS lan tekan akurasi kira-kira 75%.

Aku saranake sampeyan nyoba algoritma machine learning liyane, kayata regresi logistik, SVM, utawa KNN, kanggo ndeleng apa sampeyan bisa entuk asil sing luwih apik.

Analisis Sentimen NLP nggunakake Python

Apa analisis sentimen?

Paedah Analisis Sentimen