Phân tích cảm xúc NLP bằng Python

Mục lục[Ẩn giấu][Chỉ]

Phân tích tình cảm là gì?
Lợi ích của phân tích cảm xúc
Phân tích cảm xúc - Tuyên bố vấn đề+-
Kết luận

Các doanh nghiệp sẽ thành thạo việc thu thập dữ liệu tương tác của người tiêu dùng vào năm 2021.

Mặt khác, việc phụ thuộc quá nhiều vào các điểm dữ liệu này thường dẫn đến việc các tổ chức coi đầu vào của khách hàng như một thống kê - một cách tiếp cận khá một chiều để lắng nghe tiếng nói của khách hàng.

Giọng nói của khách hàng không thể được ký hiệu hoặc chuyển đổi thành một số.

Nó phải được đọc, cô đọng và trên hết là phải hiểu.

Thực tế là các công ty phải tích cực lắng nghe những gì người tiêu dùng nói trên mọi kênh mà họ tương tác với họ, cho dù đó là qua các cuộc gọi điện thoại, email hay trò chuyện trực tiếp.

Mọi công ty nên ưu tiên theo dõi và đánh giá tâm lý phản hồi của người tiêu dùng, nhưng các công ty theo truyền thống đã phải vật lộn để xử lý dữ liệu này và biến nó thành thông tin thông minh có ý nghĩa.

Điều này không còn xảy ra với Phân tích cảm xúc.

Trong hướng dẫn này, chúng ta sẽ xem xét kỹ hơn phân tích tình cảm, lợi thế của nó và cách sử dụng NLTK thư viện để phân tích tình cảm trên dữ liệu.

Phân tích tình cảm là gì?

Phân tích cảm xúc, thường được gọi là khai thác cuộc trò chuyện, là một phương pháp để phân tích cảm xúc, suy nghĩ và quan điểm của mọi người.

Phân tích tình cảm cho phép các doanh nghiệp hiểu rõ hơn về người tiêu dùng của họ, tăng doanh thu và nâng cao sản phẩm và dịch vụ của họ dựa trên ý kiến đóng góp của khách hàng.

Sự khác biệt giữa một hệ thống phần mềm có khả năng phân tích tâm lý khách hàng và một nhân viên bán hàng / đại diện dịch vụ khách hàng cố gắng suy luận đó là khả năng tuyệt đối của hệ thống phần mềm trước đây để thu được các kết quả khách quan từ văn bản thô - điều này chủ yếu được thực hiện thông qua xử lý ngôn ngữ tự nhiên (NLP) và học máy kỹ thuật.

Từ nhận dạng cảm xúc đến phân loại văn bản, phân tích cảm xúc có rất nhiều ứng dụng. Chúng tôi sử dụng phân tích cảm xúc trên dữ liệu văn bản để hỗ trợ một công ty theo dõi cảm xúc của các đánh giá sản phẩm hoặc phản hồi của người tiêu dùng.

Các trang web truyền thông xã hội khác nhau sử dụng nó để đánh giá cảm xúc của các bài đăng và nếu cảm xúc quá mạnh hoặc bạo lực hoặc giảm xuống dưới ngưỡng của chúng, bài đăng sẽ bị xóa hoặc bị ẩn.

Phân tích cảm xúc có thể được sử dụng cho mọi thứ, từ xác định cảm xúc đến phân loại văn bản.

Việc sử dụng phổ biến nhất của phân tích cảm xúc là trên dữ liệu văn bản, nơi nó được sử dụng để giúp một công ty theo dõi cảm xúc của các đánh giá sản phẩm hoặc nhận xét của người tiêu dùng.

Các trang web truyền thông xã hội khác nhau cũng sử dụng nó để đánh giá cảm xúc của các bài đăng và nếu cảm xúc quá mạnh hoặc bạo lực hoặc xuống dưới ngưỡng của họ, họ sẽ xóa hoặc che giấu bài đăng.

Lợi ích của phân tích cảm xúc

Sau đây là một số lợi ích quan trọng nhất của phân tích tình cảm mà bạn không nên bỏ qua.

Giúp đánh giá nhận thức về thương hiệu của bạn trong nhóm nhân khẩu học mục tiêu của bạn.
Phản hồi trực tiếp của khách hàng được cung cấp để giúp bạn phát triển sản phẩm của mình.
Tăng doanh thu bán hàng và tìm kiếm khách hàng tiềm năng.
Cơ hội bán thêm cho các nhà vô địch sản phẩm của bạn đã tăng lên.
Dịch vụ khách hàng chủ động là một lựa chọn thiết thực.

Các con số có thể cung cấp cho bạn thông tin như hiệu suất thô của chiến dịch tiếp thị, mức độ tương tác trong một cuộc gọi tìm kiếm khách hàng tiềm năng và số lượng vé đang chờ hỗ trợ khách hàng.

Tuy nhiên, nó sẽ không cho bạn biết tại sao một sự kiện cụ thể lại xảy ra hoặc điều gì đã gây ra nó. Ví dụ: các công cụ phân tích như Google và Facebook có thể giúp bạn đánh giá hiệu suất của các nỗ lực tiếp thị của mình.

Nhưng họ không cung cấp cho bạn kiến thức chuyên sâu về lý do tại sao chiến dịch cụ thể đó lại thành công.

Phân tích cảm xúc có khả năng thay đổi cuộc chơi về mặt này.

Phân tích cảm xúc - Tuyên bố vấn đề

Mục đích là để xác định xem một tweet có cảm xúc thuận lợi, tiêu cực hoặc trung tính liên quan đến sáu hãng hàng không Hoa Kỳ dựa trên tweet.

Đây là một công việc học tập có giám sát tiêu chuẩn, trong đó chúng ta phải phân loại một chuỗi văn bản thành các danh mục được xác định trước cho một chuỗi văn bản.

Dung dịch

Chúng tôi sẽ sử dụng quy trình máy học tiêu chuẩn để giải quyết vấn đề này. Chúng tôi sẽ bắt đầu bằng cách nhập các thư viện và bộ dữ liệu cần thiết.

Sau đó, chúng tôi sẽ thực hiện một số phân tích dữ liệu khám phá để xác định xem có bất kỳ mẫu nào trong dữ liệu hay không. Sau đó, chúng tôi sẽ thực hiện tiền xử lý văn bản để chuyển dữ liệu số đầu vào thành văn bản mà học máy hệ thống có thể sử dụng.

Cuối cùng, chúng tôi sẽ đào tạo và đánh giá các mô hình phân tích cảm xúc của mình bằng phương pháp học máy.

1. Nhập thư viện

Tải các thư viện cần thiết.

Nhập thư viện

2. Nhập tập dữ liệu

Bài viết này sẽ dựa trên một tập dữ liệu có thể được tìm thấy trên Github. Tập dữ liệu sẽ được nhập bằng chức năng đọc CSV của Pandas, như hình dưới đây:

Nhập tập dữ liệu

Sử dụng hàm head (), kiểm tra năm hàng đầu tiên của tập dữ liệu:

Tập dữ liệu Head

Đầu ra:

Đầu ra của tập dữ liệu đầu

3. Phân tích dữ liệu

Hãy để chúng tôi kiểm tra dữ liệu để xác định xem có bất kỳ xu hướng nào không. Nhưng trước tiên, chúng tôi sẽ thay đổi kích thước ô mặc định để làm cho các biểu đồ hiển thị rõ ràng hơn.

Điều chỉnh kích thước lô đất

Chúng ta hãy bắt đầu với số lượng tweet mà mỗi hãng hàng không nhận được. Chúng tôi sẽ sử dụng biểu đồ hình tròn cho việc này:

Biểu đồ tròn

Phần trăm tweet công khai cho mỗi hãng hàng không được hiển thị trong đầu ra.

Đầu ra biểu đồ hình tròn

Hãy xem cách cảm xúc được phân phối trên tất cả các tweet.

Biểu đồ hình tròn ngữ nghĩa

Đầu ra:

Đầu ra biểu đồ hình tròn ngữ nghĩa

Bây giờ chúng ta hãy xem xét sự phân bố tình cảm đối với từng hãng hàng không cụ thể.

Theo kết quả, phần lớn các tweet của gần như tất cả các hãng hàng không đều không thuận lợi, với các tweet trung lập và tốt theo sau. Virgin America có lẽ là hãng hàng không duy nhất mà tỷ lệ của ba cảm giác là tương đương nhau.

Sự phân bổ của từng hãng hàng không

Đầu ra:

Phân phối sản lượng của mỗi hãng hàng không

Cuối cùng, chúng tôi sẽ sử dụng thư viện Seaborn để lấy mức độ tin cậy trung bình cho các tweet từ ba danh mục tình cảm.

Thanh lô

Đầu ra:

Đầu ra lô thanh

Kết quả cho thấy mức độ tin cậy cho các tweet tiêu cực lớn hơn cho các tweet tích cực hoặc trung lập.

4. Làm sạch dữ liệu

Nhiều thuật ngữ tiếng lóng và dấu chấm câu có thể được tìm thấy trong các tweet. Trước khi có thể đào tạo mô hình học máy, chúng ta cần làm sạch các tweet của mình.

Tuy nhiên, trước khi bắt đầu làm sạch các tweet, chúng ta nên tách tập dữ liệu của mình thành các tập hợp tính năng và nhãn.

Tính năng và Nhãn

Chúng tôi có thể làm sạch dữ liệu khi chúng tôi đã tách nó thành các tính năng và bộ đào tạo. Biểu thức chính quy sẽ được sử dụng để làm điều này.

Regular Expression

5. Biểu diễn dạng số của văn bản

Để đào tạo các mô hình học máy, các thuật toán thống kê sử dụng toán học. Mặt khác, toán học chỉ hoạt động với các con số.

Đầu tiên chúng ta phải biến đổi văn bản thành số để các thuật toán thống kê xử lý nó. Có ba cách cơ bản để làm như vậy: Bag of Words, TF-IDF và Word2Vec.

May mắn thay, lớp TfidfVectorizer trong mô-đun Scikit-Learn của Python có thể được sử dụng để chuyển đổi các đặc trưng văn bản thành vectơ đặc trưng TF-IDF.

lực lượng đặc nhiệm

6. Tạo Bộ thử nghiệm và đào tạo theo hướng dữ liệu

Cuối cùng, chúng ta phải chia dữ liệu của mình thành các tập huấn luyện và thử nghiệm trước khi huấn luyện các thuật toán của mình.

Tập huấn luyện sẽ được sử dụng để huấn luyện thuật toán và tập kiểm tra sẽ được sử dụng để đánh giá hiệu suất của mô hình học máy.

Kiểm tra tàu hỏa

7. Phát triển mô hình

Sau khi dữ liệu đã được tách thành các tập huấn luyện và kiểm tra, các kỹ thuật học máy được sử dụng để học từ dữ liệu huấn luyện.

Bạn có thể sử dụng bất kỳ thuật toán học máy nào. Tuy nhiên, phương pháp Rừng ngẫu nhiên sẽ được sử dụng vì khả năng đối phó với dữ liệu không chuẩn hóa.

Đào tạo người mẫu

8. Dự đoán và đánh giá mô hình

Sau khi mô hình đã được đào tạo, công đoạn cuối cùng là đưa ra dự đoán. Để làm điều này, chúng ta phải áp dụng phương thức dự đoán cho đối tượng lớp RandomForestClassifier mà chúng ta đã đào tạo.

Dự đoán mô hình

Cuối cùng, các thước đo phân loại như chỉ số nhầm lẫn, đo F1, độ chính xác, v.v. có thể được sử dụng để đánh giá hiệu suất của các mô hình học máy.

Số liệu phân loại

Đầu ra:

Đầu ra số liệu phân loại

Thuật toán của chúng tôi đã đạt được độ chính xác là 75.30, như đã thấy trong kết quả.

Kết luận

Phân tích cảm xúc là một trong những công việc NLP thường xuyên nhất vì nó giúp xác định ý kiến tổng thể của công chúng về một vấn đề cụ thể.

Chúng tôi đã thấy một số thư viện Python có thể giúp phân tích tình cảm như thế nào.

Chúng tôi đã tiến hành một nghiên cứu về các tweet công khai về sáu hãng hàng không Hoa Kỳ và đạt độ chính xác khoảng 75%.

Tôi khuyên bạn nên thử một thuật toán học máy khác, chẳng hạn như hồi quy logistic, SVM hoặc KNN, để xem liệu bạn có thể đạt được kết quả tốt hơn hay không.

Phân tích cảm xúc NLP bằng Python

Phân tích tình cảm là gì?

Lợi ích của phân tích cảm xúc