Analisis Sentimen NLP menggunakan Python

Jadual Kandungan[Sembunyi][Tunjukkan]

Apakah analisis sentimen?
Faedah Analisis Sentimen
Analisis Sentimen – Pernyataan Masalah+-
Kesimpulan

Perniagaan akan menguasai pemerolehan data interaksi pengguna menjelang 2021.

Pergantungan yang berlebihan pada titik data ini, sebaliknya, sering membawa kepada organisasi yang menganggap input pelanggan sebagai statistik – pendekatan yang agak satu dimensi untuk mendengar suara pelanggan.

Suara pelanggan tidak boleh dilencana atau ditukar menjadi nombor.

Ia mesti dibaca, dipadatkan, dan, di atas semua, difahami.

Hakikatnya ialah syarikat mesti mendengar secara aktif apa yang pengguna mereka katakan pada setiap saluran yang mereka gunakan untuk berinteraksi dengan mereka, sama ada melalui panggilan telefon, e-mel atau sembang langsung.

Setiap syarikat harus mengutamakan pemantauan dan menilai sentimen maklum balas pengguna, tetapi syarikat secara tradisinya bergelut untuk mengendalikan data ini dan mengubahnya menjadi kecerdasan yang bermakna.

Ini tidak lagi berlaku dengan Analisis Sentimen.

Dalam tutorial ini, kita akan melihat dengan lebih dekat analisis sentimen, kelebihannya dan cara menggunakan NLTK perpustakaan untuk melakukan analisis sentimen terhadap data.

Apakah analisis sentimen?

Analisis sentimen, selalunya dikenali sebagai perlombongan perbualan, ialah kaedah untuk menganalisis perasaan, pemikiran dan pandangan orang.

Analisis sentimen membolehkan perniagaan memperoleh pemahaman yang lebih baik tentang pengguna mereka, meningkatkan hasil dan meningkatkan produk dan perkhidmatan mereka berdasarkan input pelanggan.

Perbezaan antara sistem perisian yang mampu menganalisis sentimen pelanggan dan jurujual/wakil khidmat pelanggan yang cuba menyimpulkannya ialah kebolehan sistem perisian tersebut untuk memperoleh hasil objektif daripada teks mentah — ini terutamanya dicapai melalui pemprosesan bahasa semula jadi (NLP) dan pembelajaran mesin teknik.

Daripada pengenalan emosi kepada pengkategorian teks, analisis sentimen mempunyai pelbagai aplikasi. Kami menggunakan analisis sentimen pada data teks untuk membantu firma memantau sentimen penilaian produk atau maklum balas pengguna.

Tapak media sosial yang berbeza menggunakannya untuk menilai sentimen penyiaran, dan jika emosi terlalu kuat atau ganas, atau jatuh di bawah ambangnya, siaran itu sama ada dipadamkan atau disembunyikan.

Analisis sentimen boleh digunakan untuk segala-galanya daripada pengenalan emosi kepada pengkategorian teks.

Penggunaan analisis sentimen yang paling popular adalah pada data teks, di mana ia digunakan untuk membantu syarikat dalam menjejaki sentimen penilaian produk atau ulasan pengguna.

Laman media sosial yang berbeza juga menggunakannya untuk menilai sentimen siaran, dan jika emosi terlalu kuat atau ganas, atau jatuh di bawah ambangnya, mereka memadam atau menyembunyikan siaran tersebut.

Faedah Analisis Sentimen

Berikut adalah beberapa faedah terpenting analisis sentimen yang tidak boleh diabaikan.

Bantu dalam menilai persepsi jenama anda dalam kalangan demografi sasaran anda.
Maklum balas pelanggan langsung disediakan untuk membantu anda dalam membangunkan produk anda.
Meningkatkan hasil jualan dan mencari gali.
Peluang upsell untuk juara produk anda telah meningkat.
Perkhidmatan pelanggan yang proaktif ialah pilihan yang praktikal.

Numbers boleh memberi anda maklumat seperti prestasi mentah kempen pemasaran, jumlah penglibatan dalam panggilan prospek dan bilangan tiket yang belum selesai dalam sokongan pelanggan.

Walau bagaimanapun, ia tidak akan memberitahu anda mengapa peristiwa tertentu berlaku atau apa yang menyebabkannya. Alat analitis seperti Google dan Facebook, sebagai contoh, boleh membantu anda menilai prestasi usaha pemasaran anda.

Tetapi mereka tidak memberi anda pengetahuan yang mendalam tentang sebab kempen khusus itu berjaya.

Analisis Sentimen berpotensi untuk mengubah permainan dalam hal ini.

Analisis Sentimen – Pernyataan Masalah

Matlamatnya adalah untuk menentukan sama ada tweet mempunyai emosi yang menggalakkan, negatif atau neutral mengenai enam syarikat penerbangan AS berdasarkan tweet.

Ini ialah tugas pembelajaran yang diselia standard di mana kita mesti mengkategorikan rentetan teks ke dalam kategori yang telah ditetapkan diberikan rentetan teks.

Penyelesaian

Kami akan menggunakan proses pembelajaran mesin standard untuk menangani masalah ini. Kami akan mulakan dengan mengimport perpustakaan dan set data yang diperlukan.

Kemudian kami akan melakukan beberapa analisis data penerokaan untuk menentukan sama ada terdapat sebarang corak dalam data. Selepas itu, kami akan menjalankan prapemprosesan teks untuk menukar data berangka input teks yang a pembelajaran mesin sistem boleh guna.

Akhir sekali, kami akan melatih dan menilai model analisis sentimen kami menggunakan kaedah pembelajaran mesin.

1. Mengimport Perpustakaan

Muatkan perpustakaan yang diperlukan.

Mengimport Perpustakaan

2. Import Set Data

Artikel ini akan berdasarkan set data yang boleh ditemui pada Github. Set data akan diimport menggunakan fungsi baca CSV Pandas, seperti yang dilihat di bawah:

Mengimport Set Data

Menggunakan fungsi head(), periksa lima baris pertama set data:

Set Data Kepala

Output:

Output Set Data Kepala

3. Analisis Data

Mari kita periksa data untuk menentukan sama ada terdapat sebarang trend. Tetapi pertama, kami akan menukar saiz plot lalai untuk menjadikan carta lebih kelihatan.

Melaraskan Saiz Plot

Mari kita mulakan dengan bilangan tweet yang diterima oleh setiap syarikat penerbangan. Kami akan menggunakan carta pai untuk ini:

Carta Pie

Peratusan tweet awam untuk setiap syarikat penerbangan dipaparkan dalam output.

Output Carta Pai

Mari kita lihat bagaimana perasaan diedarkan ke atas semua tweet.

Carta Pai Semantik

Output:

Output Carta Pai Semantik

Sekarang mari kita periksa taburan sentimen bagi setiap syarikat penerbangan tertentu.

Mengikut keputusan, sebahagian besar tweet untuk hampir semua syarikat penerbangan adalah tidak menguntungkan, dengan tweet neutral dan baik diikuti. Virgin America mungkin satu-satunya syarikat penerbangan di mana perkadaran tiga perasaan adalah setanding.

Pengagihan Setiap Syarikat Penerbangan

Output:

Pengagihan Setiap Keluaran Syarikat Penerbangan

Akhir sekali, kami akan menggunakan perpustakaan Seaborn untuk mendapatkan tahap keyakinan purata bagi tweet daripada tiga kategori sentimen.

Plot Bar

Output:

Output Plot Bar

Hasilnya menunjukkan bahawa tahap keyakinan untuk tweet negatif adalah lebih tinggi daripada tweet positif atau neutral.

4. Membersihkan data

Banyak istilah slanga dan tanda baca boleh didapati dalam tweet. Sebelum kami boleh melatih model pembelajaran mesin, kami perlu membersihkan tweet kami.

Walau bagaimanapun, sebelum kami mula membersihkan tweet, kami harus memisahkan set data kami kepada set ciri dan label.

Ciri Dan Label

Kami boleh membersihkan data setelah kami memisahkannya kepada ciri dan set latihan. Ungkapan biasa akan digunakan untuk melakukan ini.

Regular Expression

5. Perwakilan Numerik Teks

Untuk melatih model pembelajaran mesin, algoritma statistik menggunakan matematik. Matematik, sebaliknya, hanya berfungsi dengan nombor.

Kita mesti terlebih dahulu mengubah teks menjadi nombor untuk algoritma statistik menanganinya. Terdapat tiga cara asas untuk berbuat demikian: Bag of Words, TF-IDF dan Word2Vec.

Nasib baik, kelas TfidfVectorizer dalam modul Scikit-Learn Python boleh digunakan untuk mengubah ciri teks menjadi vektor ciri TF-IDF.

TF IDF

6. Mencipta Set Latihan dan Ujian Berdasarkan Data

Akhir sekali, kami mesti membahagikan data kami kepada set latihan dan ujian sebelum melatih algoritma kami.

Set latihan akan digunakan untuk melatih algoritma dan set ujian akan digunakan untuk menilai prestasi model pembelajaran mesin.

Ujian Kereta Api

7. Pembangunan Model

Selepas data telah diasingkan kepada set latihan dan ujian, teknik pembelajaran mesin digunakan untuk belajar daripada data latihan.

Anda boleh menggunakan sebarang algoritma pembelajaran mesin. Pendekatan Hutan Rawak, bagaimanapun, akan digunakan kerana keupayaannya untuk mengatasi data yang tidak dinormalkan.

Latihan Model

8. Ramalan dan Penilaian Model

Selepas model dilatih, peringkat terakhir ialah membuat ramalan. Untuk melakukan ini, kita mesti menggunakan kaedah ramalan pada objek kelas RandomForestClassifier yang kami latih.

Ramalan Model

Akhir sekali, ukuran klasifikasi seperti metrik kekeliruan, ukuran F1, ketepatan dan sebagainya boleh digunakan untuk menilai prestasi model pembelajaran mesin.

Metrik Pengelasan

Output:

Output Metrik Pengelasan

Algoritma kami mencapai ketepatan 75.30, seperti yang dilihat oleh keputusan.

Kesimpulan

Analisis sentimen ialah salah satu pekerjaan NLP yang paling kerap kerana ia membantu mengenal pasti keseluruhan pendapat umum tentang isu tertentu.

Kami melihat bagaimana beberapa perpustakaan Python boleh membantu dengan analisis sentimen.

Kami menjalankan kajian tweet awam mengenai enam syarikat penerbangan AS dan mencapai ketepatan kira-kira 75%.

Saya akan mencadangkan anda mencuba algoritma pembelajaran mesin yang lain, seperti regresi logistik, SVM atau KNN, untuk melihat sama ada anda boleh mencapai hasil yang lebih baik.

Analisis Sentimen NLP menggunakan Python

Apakah analisis sentimen?

Faedah Analisis Sentimen