Mục lục[Ẩn giấu][Chỉ]
Tôi chắc rằng bạn đã nghe nói về trí tuệ nhân tạo, cũng như các từ như học máy và xử lý ngôn ngữ tự nhiên (NLP).
Đặc biệt nếu bạn làm việc cho một công ty xử lý hàng trăm, nếu không phải hàng nghìn, liên hệ với khách hàng mỗi ngày.
Phân tích dữ liệu về các bài đăng trên mạng xã hội, email, cuộc trò chuyện, câu trả lời khảo sát mở và các nguồn khác không phải là một quá trình đơn giản và càng khó hơn khi chỉ giao phó cho con người.
Đó là lý do tại sao nhiều người nhiệt tình về tiềm năng của trí tuệ nhân tạo cho công việc hàng ngày của họ và cho các doanh nghiệp.
Phân tích văn bản được hỗ trợ bởi AI sử dụng nhiều phương pháp hoặc thuật toán để giải thích ngôn ngữ một cách hữu cơ, một trong số đó là phân tích chủ đề, được sử dụng để tự động khám phá các chủ đề từ văn bản.
Các doanh nghiệp có thể sử dụng các mô hình phân tích chủ đề để chuyển các công việc dễ dàng vào máy móc hơn là dồn công nhân vào với quá nhiều dữ liệu.
Cân nhắc xem nhóm của bạn có thể tiết kiệm và dành bao nhiêu thời gian cho những công việc cần thiết hơn nếu máy tính có thể lọc qua danh sách vô tận các khảo sát khách hàng hoặc các vấn đề hỗ trợ vào mỗi buổi sáng.
Trong hướng dẫn này, chúng tôi sẽ xem xét mô hình chủ đề, các phương pháp khác nhau của mô hình chủ đề và có được một số kinh nghiệm thực tế về nó.
Mô hình chủ đề là gì?
Mô hình hóa chủ đề là một loại khai thác văn bản trong đó thống kê không được giám sát và giám sát học máy các kỹ thuật được sử dụng để phát hiện các xu hướng trong một kho ngữ liệu hoặc một khối lượng đáng kể văn bản phi cấu trúc.
Nó có thể lấy bộ sưu tập tài liệu khổng lồ của bạn và sử dụng một phương pháp tương tự để sắp xếp các từ thành các cụm thuật ngữ và khám phá các chủ đề.
Điều đó có vẻ hơi phức tạp và khó, vì vậy hãy đơn giản hóa quy trình mô hình hóa đối tượng!
Giả sử bạn đang đọc một tờ báo với bộ bút tô màu trên tay.
Đó không phải là lỗi thời?
Tôi nhận ra rằng những ngày này, ít người đọc báo in; mọi thứ đều là kỹ thuật số, và bút đánh dấu đã là dĩ vãng! Hãy đóng giả làm cha hoặc mẹ của bạn!
Vì vậy, khi bạn đọc báo, bạn làm nổi bật những điều khoản quan trọng.
Thêm một giả thiết nữa!
Bạn sử dụng một màu sắc khác để nhấn mạnh các từ khóa của các chủ đề khác nhau. Bạn phân loại các từ khóa tùy thuộc vào màu sắc và chủ đề được cung cấp.
Mỗi tập hợp các từ được đánh dấu bằng một màu nhất định là một danh sách các từ khóa cho một chủ đề nhất định. Số lượng màu sắc khác nhau bạn chọn cho biết số lượng chủ đề.
Đây là mô hình chủ đề cơ bản nhất. Nó hỗ trợ trong việc hiểu, tổ chức và tóm tắt các bộ sưu tập văn bản lớn.
Tuy nhiên, hãy nhớ rằng để có hiệu quả, các mô hình chủ đề tự động đòi hỏi nhiều nội dung. Nếu bạn có một bài báo ngắn, bạn có thể muốn đi học cũ và sử dụng bút đánh dấu!
Việc dành thời gian tìm hiểu dữ liệu cũng có lợi. Điều này sẽ cung cấp cho bạn cảm giác cơ bản về những gì mô hình chủ đề cần tìm.
Ví dụ, nhật ký đó có thể là về các mối quan hệ hiện tại và trước đây của bạn. Vì vậy, tôi dự đoán người bạn rô bốt khai thác văn bản của mình sẽ đưa ra những ý tưởng tương tự.
Điều này có thể giúp bạn phân tích tốt hơn chất lượng của các chủ đề bạn đã xác định và nếu cần, hãy điều chỉnh các bộ từ khóa.
Các thành phần của mô hình chủ đề
Mô hình xác suất
Các biến ngẫu nhiên và phân bố xác suất được kết hợp để biểu diễn một sự kiện hoặc hiện tượng trong các mô hình xác suất.
Mô hình xác định cung cấp một kết luận tiềm năng duy nhất cho một sự kiện, trong khi mô hình xác suất cung cấp phân phối xác suất như một giải pháp.
Những mô hình này xem xét một thực tế rằng chúng ta hiếm khi có kiến thức đầy đủ về một tình huống. Hầu như luôn luôn có một yếu tố ngẫu nhiên để xem xét.
Ví dụ, bảo hiểm nhân thọ được dự đoán dựa trên thực tế rằng chúng ta biết mình sẽ chết, nhưng chúng ta không biết khi nào. Các mô hình này có thể xác định một phần, ngẫu nhiên một phần hoặc hoàn toàn ngẫu nhiên.
Truy xuất thông tin
Truy xuất thông tin (IR) là một chương trình phần mềm tổ chức, lưu trữ, truy xuất và đánh giá thông tin từ các kho tài liệu, đặc biệt là thông tin dạng văn bản.
Công nghệ giúp người dùng khám phá thông tin họ cần, nhưng nó không đưa ra câu trả lời rõ ràng cho các thắc mắc của họ. Nó thông báo về sự hiện diện và vị trí của các giấy tờ có thể cung cấp thông tin cần thiết.
Các tài liệu liên quan là những tài liệu đáp ứng nhu cầu của người sử dụng. Hệ thống IR không lỗi sẽ chỉ trả về các tài liệu đã chọn.
Chủ đề mạch lạc
Tính mạch lạc của chủ đề cho điểm một chủ đề bằng cách tính mức độ tương đồng về ngữ nghĩa giữa các thuật ngữ đạt điểm cao của chủ đề. Các chỉ số này giúp phân biệt giữa các chủ đề có thể diễn giải được về mặt ngữ nghĩa và các chủ đề là tạo tác suy luận thống kê.
Nếu một nhóm các tuyên bố hoặc dữ kiện hỗ trợ lẫn nhau, chúng được cho là nhất quán.
Kết quả là, một tập hợp dữ kiện gắn kết có thể được hiểu trong bối cảnh bao gồm tất cả hoặc phần lớn các dữ kiện. “Trò chơi là một môn thể thao đồng đội”, “trò chơi được chơi với một quả bóng” và “trò chơi đòi hỏi nỗ lực thể chất to lớn” đều là những ví dụ về tập hợp dữ kiện gắn kết.
Các phương pháp lập mô hình chủ đề khác nhau
Quy trình quan trọng này có thể được thực hiện bằng nhiều thuật toán hoặc phương pháp luận. Trong số đó có:
- Phân bổ Dirichlet tiềm ẩn (LDA)
- Cơ sở dữ liệu ma trận không âm (NMF)
- Phân tích ngữ nghĩa tiềm ẩn (LSA)
- Phân tích ngữ nghĩa tiềm ẩn xác suất (pLSA)
Phân bổ Dirichlet tiềm ẩn (LDA)
Để phát hiện mối quan hệ giữa nhiều văn bản trong một kho ngữ liệu, khái niệm thống kê và đồ họa của Phân bổ Dirichlet tiềm ẩn được sử dụng.
Sử dụng phương pháp Tối đa hóa ngoại lệ biến (VEM), ước tính khả năng lớn nhất từ toàn bộ văn bản sẽ đạt được.
Theo truyền thống, một số từ hàng đầu trong một túi từ được chọn.
Tuy nhiên, câu nói hoàn toàn vô nghĩa.
Theo kỹ thuật này, mỗi văn bản sẽ được thể hiện bằng cách phân bố các chủ đề theo xác suất và mỗi chủ đề bằng một phân bố theo xác suất của các từ.
Cơ sở dữ liệu ma trận không âm (NMF)
Ma trận với các giá trị không phủ định Cơ sở hóa là một cách tiếp cận chiết xuất tính năng tiên tiến.
Khi có nhiều phẩm chất và các thuộc tính mơ hồ hoặc có khả năng dự đoán kém, NMF có lợi. NMF có thể tạo ra các mẫu, chủ đề hoặc chủ đề quan trọng bằng cách kết hợp các đặc điểm.
NMF tạo ra mỗi tính năng dưới dạng kết hợp tuyến tính của tập thuộc tính ban đầu.
Mỗi đối tượng chứa một tập hợp các hệ số thể hiện tầm quan trọng của từng thuộc tính trên đối tượng địa lý. Mỗi thuộc tính số và mỗi giá trị của mỗi thuộc tính danh mục đều có hệ số riêng.
Tất cả các hệ số đều dương.
Phân tích ngữ nghĩa tiềm ẩn
Một phương pháp học tập không giám sát khác được sử dụng để trích xuất liên kết giữa các từ trong một bộ tài liệu là phân tích ngữ nghĩa tiềm ẩn.
Điều này giúp chúng tôi chọn các tài liệu thích hợp. Chức năng chính của nó là giảm kích thước của kho dữ liệu văn bản khổng lồ.
Những dữ liệu không cần thiết này đóng vai trò là tiếng ồn nền trong việc thu thập những hiểu biết cần thiết từ dữ liệu.
Phân tích ngữ nghĩa tiềm ẩn xác suất (pLSA)
Phân tích ngữ nghĩa tiềm ẩn xác suất (PLSA), đôi khi được gọi là lập chỉ mục ngữ nghĩa tiềm ẩn theo xác suất (PLSI, đặc biệt là trong các vòng kết nối truy xuất thông tin), là một phương pháp thống kê để phân tích dữ liệu hai chế độ và cùng xảy ra.
Trên thực tế, tương tự như phân tích ngữ nghĩa tiềm ẩn, từ đó PLSA xuất hiện, một biểu diễn chiều thấp của các biến quan sát có thể được rút ra về mối quan hệ của chúng với các biến ẩn cụ thể.
Thực hành với lập mô hình chủ đề bằng Python
Bây giờ, tôi sẽ hướng dẫn bạn làm bài tập mô hình chủ đề với Python ngôn ngữ lập trình bằng cách sử dụng một ví dụ trong thế giới thực.
Tôi sẽ mô hình hóa các bài báo nghiên cứu. Tập dữ liệu tôi sẽ sử dụng ở đây đến từ kaggle.com. Bạn có thể dễ dàng lấy tất cả các tệp mà tôi đang sử dụng trong công việc này từ trang.
Hãy bắt đầu với Lập mô hình chủ đề bằng Python bằng cách nhập tất cả các thư viện cần thiết:
Bước sau đây là đọc tất cả các tập dữ liệu mà tôi sẽ sử dụng trong tác vụ này:
Phân tích dữ liệu thăm dò
EDA (Phân tích dữ liệu khám phá) là một phương pháp thống kê sử dụng các yếu tố trực quan. Nó sử dụng tóm tắt thống kê và biểu diễn đồ họa để khám phá các xu hướng, mẫu và kiểm tra các giả định.
Tôi sẽ thực hiện một số phân tích dữ liệu khám phá trước khi bắt đầu lập mô hình chủ đề để xem liệu có bất kỳ mẫu hoặc mối quan hệ nào trong dữ liệu hay không:
Bây giờ chúng ta sẽ tìm các giá trị null của tập dữ liệu thử nghiệm:
Bây giờ tôi sẽ vẽ biểu đồ và biểu đồ hình hộp để kiểm tra mối quan hệ giữa các biến.
Số lượng ký tự trong bộ Tóm tắt của Bộ tàu thay đổi rất nhiều.
Trên tàu, chúng tôi có tối thiểu 54 và tối đa 4551 ký tự. 1065 là số lượng ký tự trung bình.
Bộ kiểm tra có vẻ thú vị hơn bộ đào tạo vì bộ kiểm tra có 46 ký tự trong khi bộ đào tạo có 2841.
Kết quả là tập thử nghiệm có trung bình là 1058 ký tự, tương tự như tập huấn luyện.
Số lượng từ trong bộ học tập tuân theo một mô hình tương tự như số lượng chữ cái.
Cho phép tối thiểu 8 từ và tối đa 665 từ. Kết quả là số từ trung bình là 153.
Yêu cầu tối thiểu bảy từ trong phần tóm tắt và tối đa 452 từ trong bộ kiểm tra.
Trung vị, trong trường hợp này, là 153, giống với trung vị trong tập huấn luyện.
Sử dụng thẻ để tạo mô hình chủ đề
Có một số chiến lược mô hình hóa chủ đề. Tôi sẽ sử dụng các thẻ trong bài tập này; hãy xem cách làm như vậy bằng cách kiểm tra các thẻ:
Các ứng dụng của mô hình hóa chủ đề
- Bản tóm tắt văn bản có thể được sử dụng để phân biệt chủ đề của tài liệu hoặc cuốn sách.
- Nó có thể được sử dụng để loại bỏ sự thiên vị của thí sinh khỏi việc chấm điểm kỳ thi.
- Mô hình chủ đề có thể được sử dụng để xây dựng mối quan hệ ngữ nghĩa giữa các từ trong mô hình dựa trên đồ thị.
- Nó có thể nâng cao dịch vụ khách hàng bằng cách phát hiện và phản hồi các từ khóa trong yêu cầu của khách hàng. Khách hàng sẽ tin tưởng bạn hơn vì bạn đã cung cấp cho họ sự hỗ trợ mà họ yêu cầu vào thời điểm thích hợp và không gây rắc rối cho họ. Kết quả là, lòng trung thành của khách hàng tăng lên đáng kể và giá trị của công ty tăng lên.
Kết luận
Mô hình chủ đề là một loại mô hình thống kê được sử dụng để khám phá các “chủ thể” trừu tượng tồn tại trong một bộ sưu tập văn bản.
Nó là một dạng của mô hình thống kê được sử dụng trong học máy và xử lý ngôn ngữ tự nhiên để khám phá các khái niệm trừu tượng tồn tại trong một tập hợp các văn bản.
Đây là một phương pháp khai thác văn bản được sử dụng rộng rãi để tìm các mẫu ngữ nghĩa tiềm ẩn trong nội dung văn bản.
Bình luận