Analisis Sentimen NLP menggunakan Python

Daftar Isi[Bersembunyi][Menunjukkan]

Apa itu analisis sentimen?
Manfaat Analisis Sentimen
Analisis Sentimen – Pernyataan Masalah+-
Kesimpulan

Bisnis akan menguasai akuisisi data interaksi konsumen pada tahun 2021.

Ketergantungan yang berlebihan pada titik data ini, di sisi lain, sering menyebabkan organisasi memperlakukan masukan pelanggan sebagai statistik – pendekatan satu dimensi untuk mendengarkan suara pelanggan.

Suara pelanggan tidak dapat diberi badge atau diubah menjadi nomor.

Itu harus dibaca, diringkas, dan, di atas segalanya, dipahami.

Faktanya adalah bahwa perusahaan harus secara aktif mendengarkan apa yang dikatakan konsumen mereka di setiap saluran di mana mereka berinteraksi dengan mereka, apakah itu melalui panggilan telepon, email, atau obrolan langsung.

Setiap perusahaan harus memprioritaskan pemantauan dan evaluasi sentimen umpan balik konsumen, tetapi perusahaan secara tradisional berjuang untuk menangani data ini dan mengubahnya menjadi intelijen yang berarti.

Ini tidak lagi terjadi dengan Analisis Sentimen.

Dalam tutorial ini, kita akan melihat lebih dekat pada analisis sentimen, kelebihannya, dan cara menggunakan NLTK perpustakaan untuk melakukan analisis sentimen pada data.

Apa itu analisis sentimen?

Analisis sentimen, sering dikenal sebagai penambangan percakapan, adalah metode untuk menganalisis perasaan, pikiran, dan pandangan orang.

Analisis sentimen memungkinkan bisnis untuk mendapatkan pemahaman yang lebih baik tentang konsumen mereka, meningkatkan pendapatan, dan meningkatkan produk dan layanan mereka berdasarkan masukan klien.

Perbedaan antara sistem perangkat lunak yang mampu menganalisis sentimen pelanggan dan staf penjualan/perwakilan layanan pelanggan yang mencoba menyimpulkannya adalah kemampuan yang pertama untuk memperoleh hasil objektif dari teks mentah — ini terutama dicapai melalui pemrosesan bahasa alami (NLP) dan Mesin belajar teknik.

Dari identifikasi emosi hingga kategorisasi teks, analisis sentimen memiliki berbagai aplikasi. Kami menggunakan analisis sentimen pada data tekstual untuk membantu perusahaan memantau sentimen evaluasi produk atau umpan balik konsumen.

Situs media sosial yang berbeda menggunakannya untuk menilai sentimen postingan, dan jika emosinya terlalu kuat atau keras, atau berada di bawah ambang batas, postingan tersebut akan dihapus atau disembunyikan.

Analisis sentimen dapat digunakan untuk segala hal mulai dari identifikasi emosi hingga kategorisasi teks.

Penggunaan analisis sentimen yang paling populer adalah pada data tekstual, di mana digunakan untuk membantu perusahaan dalam melacak sentimen evaluasi produk atau komentar konsumen.

Situs media sosial yang berbeda juga menggunakannya untuk menilai sentimen postingan, dan jika emosinya terlalu kuat atau keras, atau berada di bawah ambang batas, mereka menghapus atau menyembunyikan postingan tersebut.

Manfaat Analisis Sentimen

Berikut ini adalah beberapa manfaat terpenting dari analisis sentimen yang tidak boleh diabaikan.

Membantu dalam menilai persepsi merek Anda di antara target demografis Anda.
Umpan balik klien langsung disediakan untuk membantu Anda dalam mengembangkan produk Anda.
Meningkatkan pendapatan penjualan dan prospek.
Peluang upsell untuk produk unggulan Anda telah meningkat.
Layanan pelanggan proaktif adalah pilihan praktis.

Numbers dapat memberi Anda informasi seperti kinerja mentah kampanye pemasaran, jumlah keterlibatan dalam panggilan calon pelanggan, dan jumlah tiket yang tertunda dalam dukungan pelanggan.

Namun, itu tidak akan memberi tahu Anda mengapa peristiwa tertentu terjadi atau apa yang menyebabkannya. Alat analisis seperti Google dan Facebook, misalnya, dapat membantu Anda menilai kinerja upaya pemasaran Anda.

Tetapi mereka tidak memberi Anda pengetahuan mendalam tentang mengapa kampanye tertentu itu berhasil.

Analisis Sentimen memiliki potensi untuk mengubah permainan dalam hal ini.

Analisis Sentimen – Pernyataan Masalah

Tujuannya adalah untuk menentukan apakah sebuah tweet memiliki emosi yang menguntungkan, negatif, atau netral mengenai enam maskapai penerbangan AS berdasarkan tweet.

Ini adalah pekerjaan pembelajaran terawasi standar di mana kita harus mengkategorikan string teks ke dalam kategori yang telah ditentukan yang diberikan string teks.

Solusi

Kami akan menggunakan proses pembelajaran mesin standar untuk mengatasi masalah ini. Kami akan mulai dengan mengimpor perpustakaan dan kumpulan data yang diperlukan.

Kemudian kami akan melakukan beberapa analisis data eksplorasi untuk menentukan apakah ada pola dalam data. Setelah itu, kami akan melakukan pra-pemrosesan teks untuk mengubah data numerik input tekstual yang a Mesin belajar sistem dapat menggunakan.

Terakhir, kami akan melatih dan mengevaluasi model analisis sentimen kami menggunakan metode pembelajaran mesin.

1. Mengimpor Perpustakaan

Muat pustaka yang diperlukan.

Mengimpor Perpustakaan

2. Impor Kumpulan Data

Artikel ini akan didasarkan pada kumpulan data yang dapat ditemukan di Github. Dataset akan diimpor menggunakan fungsi CSV baca Pandas, seperti yang terlihat di bawah ini:

Mengimpor Kumpulan Data

Dengan menggunakan fungsi head(), periksa lima baris pertama set data:

Set Data Kepala

Keluaran:

Output Dari Dataset Kepala

3. Analisis Data

Mari kita periksa data untuk menentukan apakah ada tren. Tapi pertama-tama, kita akan mengubah ukuran plot default untuk membuat grafik lebih terlihat.

Menyesuaikan Ukuran Plot

Mari kita mulai dengan jumlah tweet yang diterima oleh masing-masing maskapai. Kami akan menggunakan diagram lingkaran untuk ini:

Pie chart

Persentase tweet publik untuk setiap maskapai ditampilkan di output.

Keluaran Bagan Pai

Mari kita lihat bagaimana perasaan didistribusikan di semua tweet.

Bagan Pai Semantik

Keluaran:

Keluaran Bagan Pai Semantik

Sekarang mari kita periksa distribusi sentimen untuk setiap maskapai penerbangan tertentu.

Menurut hasil, sebagian besar tweet untuk hampir semua maskapai tidak menguntungkan, dengan tweet netral dan bagus mengikuti. Virgin America mungkin satu-satunya maskapai penerbangan di mana proporsi ketiga perasaan itu sebanding.

Distribusi Setiap Maskapai

Keluaran:

Distribusi Setiap Output Maskapai

Terakhir, kita akan menggunakan perpustakaan Seaborn untuk mendapatkan tingkat kepercayaan rata-rata untuk tweet dari tiga kategori sentimen.

Plot Bar

Keluaran:

Keluaran Plot Batang

Hasil penelitian menunjukkan bahwa tingkat kepercayaan untuk tweet negatif lebih besar daripada tweet positif atau netral.

4. Membersihkan data

Banyak istilah slang dan tanda baca dapat ditemukan di tweet. Sebelum kita dapat melatih model pembelajaran mesin, kita perlu membersihkan tweet kita.

Namun, sebelum kita mulai membersihkan tweet, kita harus memisahkan kumpulan data kita menjadi kumpulan fitur dan label.

Fitur dan Label

Kami dapat membersihkan data setelah kami memisahkannya menjadi fitur dan set pelatihan. Ekspresi reguler akan digunakan untuk melakukan ini.

Regular Expression

5. Representasi Numerik Teks

Untuk melatih model pembelajaran mesin, algoritma statistik menggunakan matematika. Matematika, di sisi lain, hanya bekerja dengan angka.

Pertama-tama kita harus mengubah teks menjadi angka untuk algoritma statistik untuk menanganinya. Ada tiga cara dasar untuk melakukannya: Bag of Words, TF-IDF, dan Word2Vec.

Untungnya, kelas TfidfVectorizer dalam modul Scikit-Learn Python dapat digunakan untuk mengubah fitur teks menjadi vektor fitur TF-IDF.

TF IDF

6. Membuat Pelatihan dan Set Pengujian Berbasis Data

Terakhir, kita harus membagi data kita ke dalam set pelatihan dan pengujian sebelum melatih algoritme kita.

Set pelatihan akan digunakan untuk melatih algoritme, dan set pengujian akan digunakan untuk menilai performa model pembelajaran mesin.

Tes Kereta

7. Pengembangan Model

Setelah data dipisahkan menjadi set pelatihan dan pengujian, teknik pembelajaran mesin digunakan untuk belajar dari data pelatihan.

Anda dapat menggunakan algoritme pembelajaran mesin apa pun. Pendekatan Hutan Acak, bagaimanapun, akan digunakan karena kemampuannya untuk mengatasi data yang tidak dinormalisasi.

Pelatihan Model

8. Prediksi dan Evaluasi Model

Setelah model dilatih, tahap terakhir adalah membuat prediksi. Untuk melakukan ini, kita harus menerapkan metode prediksi ke objek kelas RandomForestClassifier yang kita latih.

Prediksi Model

Akhirnya, ukuran klasifikasi seperti metrik kebingungan, ukuran F1, akurasi, dan sebagainya dapat digunakan untuk mengevaluasi kinerja model pembelajaran mesin.

Metrik Klasifikasi

Keluaran:

Output Metrik Klasifikasi

Algoritme kami mencapai akurasi 75.30, seperti yang terlihat pada hasil.

Kesimpulan

Analisis sentimen adalah salah satu pekerjaan NLP yang paling sering dilakukan karena membantu mengidentifikasi opini publik secara keseluruhan tentang masalah tertentu.

Kami melihat bagaimana beberapa pustaka Python dapat membantu dengan analisis sentimen.

Kami melakukan studi tweet publik tentang enam maskapai penerbangan AS dan mencapai akurasi sekitar 75%.

Saya menyarankan Anda mencoba algoritma pembelajaran mesin lain, seperti regresi logistik, SVM, atau KNN, untuk melihat apakah Anda dapat mencapai hasil yang lebih baik.

Analisis Sentimen NLP menggunakan Python

Apa itu analisis sentimen?

Manfaat Analisis Sentimen