Python Kullanarak NLP Duygu Analizi

İçindekiler[Saklamak][Göstermek]

Duygu analizi nedir?
Duygu Analizinin Faydaları
Duygu Analizi – Problem İfadesi+-
Sonuç

İşletmeler, 2021 yılına kadar tüketici etkileşim verilerinin edinilmesinde ustalaşmış olacak.

Öte yandan, bu veri noktalarına aşırı güven, kuruluşların müşteri girdilerini bir istatistik olarak ele almasına yol açar - müşterinin sesini dinlemeye yönelik oldukça tek boyutlu bir yaklaşım.

Müşterinin sesi yakalanamaz veya numaraya dönüştürülemez.

Okunmalı, yoğunlaştırılmalı ve her şeyden önce kavranmalıdır.

Gerçek şu ki, şirketler, telefon görüşmeleri, e-postalar veya canlı sohbet yoluyla olsun, onlarla etkileşime girdikleri her kanalda tüketicilerinin söylediklerini aktif olarak dinlemelidir.

Her şirket, tüketici geri bildirim duyarlılığını izlemeye ve değerlendirmeye öncelik vermelidir, ancak şirketler geleneksel olarak bu verileri işlemek ve anlamlı zekaya dönüştürmek için mücadele etti.

Duygu Analizi ile artık durum böyle değil.

Bu eğitimde, duyarlılık analizine, avantajlarına ve nasıl kullanılacağına daha yakından bakacağız. NLTK veriler üzerinde duygu analizi yapmak için kütüphane.

Duygu analizi nedir?

Genellikle konuşma madenciliği olarak bilinen duygu analizi, insanların duygularını, düşüncelerini ve görüşlerini analiz etmek için kullanılan bir yöntemdir.

Duyarlılık analizi, işletmelerin tüketicilerini daha iyi anlamalarına, gelirlerini artırmalarına ve müşteri girdilerine dayalı olarak ürün ve hizmetlerini geliştirmelerine olanak tanır.

Müşteri duyarlılığını analiz edebilen bir yazılım sistemi ile bunu çıkarmaya çalışan bir satış elemanı/müşteri hizmetleri temsilcisi arasındaki fark, birincisinin ham metinden nesnel sonuçlar elde etme yeteneğidir - bu öncelikle doğal dil işleme (NLP) ve makine öğrenme teknikleri.

Duygu tanımlamadan metin kategorizasyonuna kadar, duygu analizi geniş bir uygulama alanına sahiptir. Bir firmanın ürün değerlendirmelerinin veya tüketici geri bildirimlerinin duyarlılığını izlemesine yardımcı olmak için metin verileri üzerinde duyarlılık analizi kullanıyoruz.

Farklı sosyal medya siteleri, gönderilerin duyarlılığını değerlendirmek için bunu kullanır ve duygu çok güçlü veya şiddetliyse ya da eşiğinin altına düşerse, gönderi ya silinir ya da gizlenir.

Duygu analizi, duygu tanımlamadan metin sınıflandırmaya kadar her şey için kullanılabilir.

Duyarlılık analizinin en popüler kullanımı, bir şirketin ürün değerlendirmelerinin veya tüketici yorumlarının duyarlılığını izlemesine yardımcı olmak için kullanıldığı metinsel veriler üzerindedir.

Farklı sosyal medya siteleri de bunu gönderilerin duyarlılığını değerlendirmek için kullanır ve duygu çok güçlü veya şiddetliyse ya da eşiğinin altına düşerse gönderiyi siler veya gizler.

Duygu Analizinin Faydaları

Aşağıdakiler, göz ardı edilmemesi gereken duygu analizinin en önemli faydalarından bazılarıdır.

Hedef demografiniz arasında markanızın algısını değerlendirmede yardımcı olun.
Ürününüzü geliştirmenize yardımcı olmak için doğrudan müşteri geri bildirimi sağlanır.
Satış gelirini ve araştırmayı artırır.
Ürününüzün şampiyonları için yukarı satış fırsatları arttı.
Proaktif müşteri hizmetleri pratik bir seçenektir.

Rakamlar size bir pazarlama kampanyasının ham performansı, bir potansiyel aramadaki katılım miktarı ve müşteri desteğinde bekleyen bilet sayısı gibi bilgiler sağlayabilir.

Ancak, belirli bir olayın neden meydana geldiğini veya buna neyin neden olduğunu size söylemez. Örneğin Google ve Facebook gibi analiz araçları, pazarlama çabalarınızın performansını değerlendirmenize yardımcı olabilir.

Ancak bu kampanyanın neden başarılı olduğu konusunda size derinlemesine bilgi sağlamazlar.

Duyarlılık Analizi, bu konuda oyunun kurallarını değiştirme potansiyeline sahiptir.

Duygu Analizi – Problem İfadesi

Amaç, tweet'lere dayalı olarak altı ABD havayoluna ilişkin bir tweet'in olumlu, olumsuz veya tarafsız bir duyguya sahip olup olmadığını belirlemektir.

Bu, bir metin dizesini, bir metin dizesi verilen önceden belirlenmiş kategorilere ayırmamız gereken standart bir denetimli öğrenme işidir.

Çözüm

Bu sorunu çözmek için standart makine öğrenimi sürecini kullanacağız. Gerekli kitaplıkları ve veri kümelerini içe aktararak başlayacağız.

Ardından, verilerde herhangi bir kalıp olup olmadığını belirlemek için bazı keşifsel veri analizleri yapacağız. Bunu takiben, metinsel giriş sayısal verilerini dönüştürmek için metin ön işlemesini gerçekleştireceğiz. makine öğrenme sistemi kullanabilir.

Son olarak, makine öğrenimi yöntemlerini kullanarak duygu analizi modellerimizi eğitecek ve değerlendireceğiz.

1. Kitaplıkları İçe Aktarma

Gerekli kütüphaneleri yükleyin.

Kütüphaneleri İçe Aktarma

2. Veri Kümesini İçe Aktar

Bu makale, şu adreste bulunabilecek bir veri kümesine dayanacaktır: Github. Veri kümesi, aşağıda görüldüğü gibi Pandaların okuma CSV işlevi kullanılarak içe aktarılacaktır:

Veri Kümesini İçe Aktarma

head() işlevini kullanarak veri kümesinin ilk beş satırını inceleyin:

Baş Veri Kümesi

Çıktı:

Baş Veri Kümesinin Çıktısı

3. Verilerin Analizi

Herhangi bir eğilim olup olmadığını belirlemek için verileri inceleyelim. Ama önce, çizelgeleri daha görünür hale getirmek için varsayılan çizim boyutunu değiştireceğiz.

Parsel Boyutunu Ayarlama

Her havayolunun aldığı tweet sayısıyla başlayalım. Bunun için bir pasta grafiği kullanacağız:

Yuvarlak diyagram

Her havayolu için herkese açık tweet'lerin yüzdesi çıktıda görüntülenir.

Pasta Grafik Çıktısı

Duyguların tüm tweetlere nasıl dağıldığına bir göz atalım.

Semantik Pasta Grafiği

Çıktı:

Semantik Pasta Grafik Çıktısı

Şimdi her bir belirli havayolu için duygu dağılımını inceleyelim.

Sonuçlara göre, neredeyse tüm havayolları için tweetlerin büyük kısmı olumsuz, ardından tarafsız ve iyi tweetler geliyor. Virgin America, belki de üç duygunun oranının karşılaştırılabilir olduğu tek havayolu şirketidir.

Her Havayolunun Dağılımı

Çıktı:

Her Havayolu Çıkışının Dağılımı

Son olarak, üç duygu kategorisinden tweetler için ortalama güven seviyesini elde etmek için Seaborn kitaplığını kullanacağız.

çubuk arsa

Çıktı:

Çubuk Grafik Çıkışı

Sonuç, negatif tweet'lerin güven seviyesinin, pozitif veya nötr tweet'lerden daha yüksek olduğunu göstermektedir.

4. Verileri temizleme

Tweetlerde birçok argo terim ve noktalama işareti bulunabilir. Makine öğrenimi modelini eğitmeden önce tweetlerimizi temizlememiz gerekiyor.

Ancak tweetleri temizlemeye başlamadan önce veri setimizi özellik ve etiket setleri olarak ayırmalıyız.

Özellikler ve Etiketler

Verileri özelliklere ve eğitim setlerine ayırdıktan sonra temizleyebiliriz. Bunu yapmak için normal ifadeler kullanılacaktır.

Düzenli İfade

5. Metnin Sayısal Temsili

Makine öğrenimi modellerini eğitmek için istatistiksel algoritmalar matematiği kullanır. Matematik ise sadece sayılarla çalışır.

İstatistiksel algoritmaların onunla başa çıkması için önce metni sayılara dönüştürmeliyiz. Bunu yapmanın üç temel yolu vardır: Bag of Words, TF-IDF ve Word2Vec.

Neyse ki Python'un Scikit-Learn modülündeki TfidfVectorizer sınıfı, metin özelliklerini TF-IDF özellik vektörlerine dönüştürmek için kullanılabilir.

TF IDF'si

6. Veriye Dayalı Eğitim ve Test Setleri Oluşturma

Son olarak, algoritmalarımızı eğitmeden önce verilerimizi eğitim ve test kümelerine ayırmalıyız.

Eğitim seti, algoritmayı eğitmek için kullanılacak ve test seti, makine öğrenimi modelinin performansını değerlendirmek için kullanılacak.

Tren Testi

7. Model Geliştirme

Veriler eğitim ve test setlerine ayrıldıktan sonra eğitim verilerinden öğrenmek için makine öğrenmesi teknikleri kullanılır.

Herhangi bir makine öğrenme algoritmasını kullanabilirsiniz. Ancak Rastgele Orman yaklaşımı, normalleştirilmemiş verilerle başa çıkma yeteneği nedeniyle kullanılacaktır.

Model Eğitimi

8. Tahminler ve Model Değerlendirmesi

Model eğitildikten sonra son aşama tahminlerde bulunmaktır. Bunu yapmak için, eğittiğimiz RandomForestClassifier sınıf nesnesine tahmin yöntemini uygulamamız gerekir.

Model Tahmini

Son olarak, makine öğrenimi modellerinin performansını değerlendirmek için karışıklık ölçütleri, F1 ölçüleri, doğruluk vb. sınıflandırma ölçüleri kullanılabilir.

Sınıflandırma Metrikleri

Çıktı:

Sınıflandırma Metrikleri Çıktı

Algoritmamız, sonuçlarda görüldüğü gibi 75.30'luk bir doğruluk elde etti.

Sonuç

Duygu analizi, belirli bir konuda genel kamuoyunu belirlemeye yardımcı olduğu için en sık kullanılan NLP işlerinden biridir.

Birkaç Python kitaplığının duygu analizine nasıl yardımcı olabileceğini gördük.

Altı ABD hava yolu şirketi hakkında halka açık tweet'ler üzerinde bir araştırma yaptık ve yaklaşık %75'lik bir doğruluğa ulaştık.

Daha iyi sonuçlar elde edip edemeyeceğinizi görmek için lojistik regresyon, SVM veya KNN gibi başka bir makine öğrenimi algoritması denemenizi öneririm.

Python kullanarak NLP Duygu Analizi

Duygu analizi nedir?

Duygu Analizinin Faydaları