Analisis Sentimén NLP nganggo Python

Daptar eusi[Sumputkeun][Témbongkeun]

Naon ari analisis sentimen?
Mangpaat Analisis Sentimen
Analisis Sentimen - Pernyataan Masalah+-
kacindekan

Usaha bakal ngawasa akuisisi data interaksi konsumen ku 2021.

Over-reliance on titik data ieu, di sisi séjén, mindeng ngabalukarkeun organisasi ngarawat input customer salaku statistik - pendekatan rada hiji diménsi pikeun ngadengekeun sora customer urang.

Sora palanggan teu tiasa badged atanapi dirobih janten nomer.

Ieu kudu dibaca, condensed, sarta, luhureun sakabeh, comprehended.

Nyatana yén perusahaan kedah aktip ngadangukeun naon anu dicarioskeun ku konsuménna dina unggal saluran anu aranjeunna berinteraksi sareng aranjeunna, naha éta ngalangkungan telepon, email, atanapi live chat.

Saban perusahaan kedah prioritas ngawaskeun sareng ngevaluasi sentimen tanggapan konsumen, tapi perusahaan sacara tradisional berjuang pikeun nanganan data ieu sareng ngarobih kana kecerdasan anu bermakna.

Ieu henteu deui kasus Analisis Sentimen.

Dina tutorial ieu, urang bakal ningal langkung caket kana analisis sentimen, kaunggulanana, sareng cara ngagunakeun éta NLTK perpustakaan pikeun ngalakukeun analisis sentimen kana data.

Naon ari analisis sentimen?

Analisis Sentimen, anu sering dikenal salaku pertambangan paguneman, mangrupikeun metode pikeun nganalisis parasaan, pikiran, sareng pandangan jalma.

Analisis sentimen ngamungkinkeun usaha pikeun meunangkeun pamahaman anu langkung saé ngeunaan konsuménna, ningkatkeun pendapatan, sareng ningkatkeun produk sareng jasa dumasar kana input klien.

Beda antara sistem parangkat lunak anu tiasa nganalisa sentimen pelanggan sareng perwakilan salesperson/layanan palanggan anu nyobian nyimpulkeun éta mangrupikeun kamampuan anu baheula pikeun ngahasilkeun hasil anu objektif tina téks atah - ieu utamina dilaksanakeun ngaliwatan pamrosésan basa alami (NLP) sareng learning mesin téhnik.

Ti idéntifikasi émosi ka categorization téks, analisis sentimen boga rupa-rupa aplikasi. Kami ngagunakeun analisis sentimen dina data téks pikeun ngabantosan perusahaan ngawaskeun sentimen evaluasi produk atanapi tanggapan konsumen.

Situs média sosial anu béda-béda ngagunakeun éta pikeun ngira-ngira sentimen postingan, sareng upami émosina kuat teuing atanapi telenges, atanapi turun di handap ambangna, postingan éta dihapus atanapi disumputkeun.

Analisis sentimen bisa dipaké pikeun sagalana ti idéntifikasi emosi ka categorization téks.

Panggunaan analisis sentimen anu paling populér nyaéta dina data tékstual, dimana éta dianggo pikeun ngabantosan perusahaan dina nyukcruk sentimen evaluasi produk atanapi koméntar konsumen.

Situs média sosial anu béda ogé ngagunakeun éta pikeun ngira-ngira sentimen postingan, sareng upami émosina kuat teuing atanapi telenges, atanapi turun di handap ambangna, aranjeunna ngahapus atanapi nyumputkeun postingan éta.

Mangpaat Analisis Sentimen

Di handap ieu mangrupakeun sababaraha mangpaat pangpentingna analisis sentimen nu teu matak disregarded.

Pitulung dina assessing persepsi brand Anjeun diantara udagan demografi Anjeun.
Eupan balik klien langsung disayogikeun pikeun ngabantosan anjeun dina ngembangkeun produk anjeun.
Ngaronjatkeun panghasilan jualan na prospecting.
Kasempetan upsell pikeun juara produk anjeun parantos ningkat.
layanan palanggan proaktif mangrupakeun pilihan praktis.

Nomer tiasa masihan anjeun inpormasi sapertos kinerja atah kampanye pamasaran, jumlah papacangan dina telepon prospecting, sareng jumlah tiket anu ditangguhkeun dina dukungan palanggan.

Nanging, éta moal nyarioskeun ka anjeun naha kajadian khusus kajantenan atanapi naon anu nyababkeunana. Alat Analytics sapertos Google sareng Facebook, contona, tiasa ngabantosan anjeun ngira-ngira kinerja usaha pamasaran anjeun.

Tapi aranjeunna henteu masihan anjeun pangaweruh anu jero ngeunaan naha kampanye khusus éta suksés.

Analisis Sentimen boga potensi pikeun jadi kaulinan-ngarobah dina hal ieu.

Analisis Sentimen - Pernyataan Masalah

Tujuanana nyaéta pikeun nangtukeun naha tweet gaduh émosi anu nguntungkeun, négatip, atanapi nétral ngeunaan genep maskapai AS dumasar kana tweets.

Ieu mangrupikeun padamelan diajar anu diawaskeun standar dimana urang kedah ngagolongkeun senar téks kana kategori anu tos ditangtukeun ku senar téks.

leyuran

Kami bakal ngagunakeun prosés pembelajaran mesin standar pikeun ngatasi masalah ieu. Urang mimitian ku ngimpor perpustakaan sareng set data anu diperyogikeun.

Teras urang bakal ngalakukeun sababaraha analisis data éksplorasi pikeun nangtukeun naha aya pola dina data. Saatos éta, urang bakal ngalaksanakeun preprocessing téks pikeun ngaktipkeun data numerik input tékstual anu a learning mesin sistem tiasa dianggo.

Tungtungna, urang bakal ngalatih sareng ngaevaluasi modél analisis sentimen urang nganggo metode pembelajaran mesin.

1. Impor Perpustakaan

Muat perpustakaan anu diperlukeun.

Ngimpor Perpustakaan

2. Impor Dataset

Tulisan ieu bakal dumasar kana set data anu tiasa dipendakan dina Github. Dataset bakal diimpor nganggo fungsi maca CSV Pandas, sapertos katingal di handap:

Impor Dataset

Ngagunakeun fungsi head(), pariksa lima jajar kahiji dataset:

Sirah Dataset

kaluaran:

Kaluaran Dataset Kepala

3. Analisis Data

Hayu urang nalungtik data pikeun nangtukeun lamun aya wae tren. Tapi ke heula, urang bakal ngarobih ukuran plot standar pikeun ngajantenkeun grafik langkung katingali.

Nyaluyukeun Ukuran Plot

Hayu urang mimitian ku jumlah tweet anu ditampi ku unggal maskapai. Urang bakal ngagunakeun bagan pai pikeun ieu:

pai Bagan

Persentase tweets umum pikeun tiap maskapai dipintonkeun dina kaluaran.

Kaluaran Bagan pai

Hayu urang tingali kumaha parasaan disebarkeun kana sadaya tweets.

Bagan pai semantik

kaluaran:

Kaluaran Bagan Pai Semantis

Hayu urang ayeuna nalungtik distribusi sentimen pikeun tiap maskapai husus.

Numutkeun hasil, sabagian ageung tweets pikeun ampir sadaya maskapai henteu nguntungkeun, kalayan tweets nétral sareng saé. Virgin America sugan hijina maskapai mana proporsi tina tilu parasaan comparable.

Distribusi Unggal Maskapai Penerbangan

kaluaran:

Distribusi Unggal Kaluaran Maskapai

Tungtungna, urang bakal nganggo perpustakaan Seaborn pikeun meunangkeun tingkat kapercayaan rata-rata pikeun tweets tina tilu kategori sentimen.

Plot Bar

kaluaran:

Bar Plot Kaluaran

Hasilna nunjukkeun yén tingkat kapercayaan pikeun tweet négatip langkung ageung tibatan tweets positip atanapi nétral.

4. Ngabersihan data

Seueur istilah slang sareng tanda baca tiasa dipendakan dina tweets. Sateuacan urang tiasa ngalatih modél pembelajaran mesin, urang kedah ngabersihan tweet urang.

Nanging, sateuacan urang ngabersihkeun tweets, urang kedah misahkeun set data urang kana set fitur sareng labél.

Fitur Jeung Label

Urang tiasa ngabersihan data saatos dipisahkeun kana fitur sareng set latihan. Babasan biasa bakal dianggo pikeun ngalakukeun ieu.

Biasa Biasa

5. Répréséntasi Numérik téks

Pikeun ngalatih modél pembelajaran mesin, algoritma statistik ngagunakeun matématika. Matematika, di sisi anu sanés, ngan ukur dianggo sareng angka.

Urang kudu mimiti transformasi téks kana angka pikeun algoritma statistik nungkulan eta. Aya tilu cara dasar pikeun ngalakukeunana: Bag of Words, TF-IDF, sareng Word2Vec.

Untungna, kelas TfidfVectorizer dina modul Scikit-Learn Python tiasa dianggo pikeun ngarobih fitur téks kana vektor fitur TF-IDF.

TF IDF

6. Nyieun Data-disetir Pelatihan jeung Test susunan

Tungtungna, urang kedah ngabagi data urang kana set latihan sareng uji sateuacan ngalatih algoritma urang.

Set latihan bakal dianggo pikeun ngalatih algoritma, sareng set tés bakal dianggo pikeun meunteun kinerja modél pembelajaran mesin.

Test karéta

7. Kamekaran Modél

Saatos data dipisahkeun kana set latihan sareng tés, téknik pembelajaran mesin dianggo pikeun diajar tina data pelatihan.

Anjeun tiasa nganggo algoritma pembelajaran mesin naon waé. Pendekatan Random Forest, kumaha oge, bakal dianggo kusabab kamampuanna pikeun ngatasi data anu henteu dinormalisasi.

Pelatihan Modél

8. Prediksi jeung Modél Evaluasi

Sanggeus modél dilatih, tahap ahir nyaéta nyieun prediksi. Jang ngalampahkeun ieu, urang kudu nerapkeun métode prediksi ka objék kelas RandomForestClassifier nu urang dilatih.

Prediksi modél

Tungtungna, ukuran klasifikasi sapertos métrik kabingungan, ukuran F1, akurasi, sareng saterasna tiasa dianggo pikeun ngévaluasi kinerja modél pembelajaran mesin.

Métrik Klasifikasi

kaluaran:

Klasifikasi métrik Kaluaran

Algoritma kami ngahontal akurasi 75.30, sakumaha anu katingali ku hasil.

kacindekan

Analisis sentimen mangrupikeun salah sahiji padamelan NLP anu paling sering sabab ngabantosan ngaidentipikasi pendapat umum umum ngeunaan masalah khusus.

Kami ningali kumaha sababaraha perpustakaan Python tiasa ngabantosan analisis sentimen.

Kami ngalaksanakeun kajian tweets umum ngeunaan genep maskapai AS sareng ngahontal akurasi kira-kira 75%.

Abdi nyarankeun yén anjeun nyobian algoritma pembelajaran mesin anu sanés, sapertos régrési logistik, SVM, atanapi KNN, pikeun ningali naha anjeun tiasa ngahontal hasil anu langkung saé.

Analisis Sentimén NLP ngagunakeun Python

Naon ari analisis sentimen?

Mangpaat Analisis Sentimen