初學者主題建模介紹

目錄[隱藏][顯示]

什麼是主題建模？
主題建模的組成部分+ -
- 概率模型
- 信息檢索
不同的主題建模方法+ -
Python 中的主題建模實踐+ -
- 探索性數據分析
- 使用標籤進行主題建模
主題建模的應用
結論

我相信你聽說過人工智能，以及機器學習和自然語言處理 (NLP) 之類的詞。

特別是如果您為一家每天處理數百甚至數千客戶聯繫的公司工作。

社交媒體帖子、電子郵件、聊天、開放式調查回復和其他來源的數據分析不是一個簡單的過程，如果只委託給人們，則變得更加困難。

這就是為什麼很多人對它的潛力充滿熱情人工智能為他們的日常工作和企業。

人工智能驅動的文本分析採用廣泛的方法或算法來有機地解釋語言，其中之一是主題分析，用於從文本中自動發現主題。

企業可以使用主題分析模型將簡單的工作轉移到機器上，而不是讓工人負擔過多的數據。

考慮一下如果計算機可以每天早上過濾無數的客戶調查或支持問題列表，您的團隊可能會節省多少時間並投入到更重要的工作上。

在本指南中，我們將研究主題建模、主題建模的不同方法，並獲得一些實踐經驗。

什麼是主題建模？

主題建模是一種文本挖掘，其中無監督和有監督統計機器學習技術用於檢測語料庫或大量非結構化文本中的趨勢。

它可以收集您的大量文檔並使用相似性方法將單詞排列成術語簇並發現主題。

這似乎有點複雜和困難，所以讓我們簡化主題建模過程！

假設您正在閱讀一份手裡拿著一組彩色熒光筆的報紙。

這不是很老套嗎？

我意識到這些天來，很少有人閱讀印刷報紙。一切都是數字化的，熒光筆已成為過去！假裝是你的父親或母親！

因此，當您閱讀報紙時，您會突出顯示重要的術語。

又一個假設！

您使用不同的色調來強調各種主題的關鍵字。您可以根據提供的顏色和主題對關鍵字進行分類。

用某種顏色標記的每個單詞集合都是給定主題的關鍵字列表。您選擇的各種顏色的數量顯示了主題的數量。

這是最基本的主題建模。它有助於理解、組織和總結大型文本集合。

但是，請記住，要有效，自動化主題模型需要大量內容。如果你的論文很短，你可能想去老學校用熒光筆！

花一些時間了解數據也是有益的。這將使您對主題模型應該找到什麼有一個基本的了解。

例如，那本日記可能是關於你現在和以前的關係的。因此，我預計我的文本挖掘機器人夥伴會提出類似的想法。

這可以幫助您更好地分析已確定主題的質量，並在必要時調整關鍵字集。

主題建模的組成部分

概率模型

隨機變量和概率分佈被納入概率模型中事件或現象的表示。

確定性模型為事件提供單一的潛在結論，而概率模型提供概率分佈作為解決方案。

這些模型考慮了我們很少完全了解情況的現實。幾乎總是有一個隨機因素需要考慮。

例如，人壽保險的前提是我們知道自己會死，但我們不知道什麼時候會死。這些模型可能是部分確定的、部分隨機的或完全隨機的。

信息檢索

信息檢索 (IR) 是一種軟件程序，用於組織、存儲、檢索和評估來自文檔存儲庫的信息，尤其是文本信息。

該技術可以幫助用戶發現他們需要的信息，但它並不能清楚地為他們的查詢提供答案。它會通知可能提供必要信息的文件的存在和位置。

相關文件是滿足用戶需求的文件。完美的 IR 系統將只返回選定的文件。

主題連貫

Topic Coherence 通過計算主題的高分詞之間的語義相似度來對單個主題進行評分。這些指標有助於區分語義上可解釋的主題和統計推理工件的主題。

如果一組主張或事實相互支持，則稱它們是連貫的。

因此，可以在包含所有或大部分事實的上下文中理解有凝聚力的事實集。 “比賽是一項團隊運動”、“比賽是用球來進行的”和“比賽需要巨大的體力”都是有凝聚力的事實集的例子。

不同的主題建模方法

這個關鍵過程可以通過各種算法或方法來執行。其中有：

潛在狄利克雷分配 (LDA)
非負矩陣分解 (NMF)
潛在語義分析 (LSA)
概率潛在語義分析（pLSA）

潛在狄利克雷分配（LDA）

為了檢測語料庫中多個文本之間的關係，使用了潛在狄利克雷分配的統計和圖形概念。

使用變分異常最大化 (VEM) 方法，可以從完整的文本語料庫中獲得最大似然估計。

低密度脂蛋白

傳統上，從一袋單詞中選擇前幾個單詞。

然而，這句話完全沒有意義。

根據這種技術，每個文本將由主題的概率分佈表示，每個主題將由單詞的概率分佈表示。

非負矩陣分解（NMF）

具有非負值分解的矩陣是一種尖端的特徵提取方法。

當有許多品質且屬性模糊或可預測性差時，NMF 是有益的。 NMF 可以通過組合特徵來生成重要的模式、主題或主題。

非負矩陣分解

NMF 將每個特徵生成為原始屬性集的線性組合。

每個特徵都包含一組係數，表示每個屬性對特徵的重要性。每個數值屬性和每個類別屬性的每個值都有自己的係數。

所有的係數都是正的。

潛在語義分析

用於提取一組文檔中單詞之間關聯的另一種無監督學習方法是潛在語義分析。

這有助於我們選擇合適的文件。它的主要功能是減少龐大的文本數據語料庫的維數。

這些不必要的數據在從數據中獲取必要的洞察力時充當背景噪音。

潛在語義分析

概率潛在語義分析（pLSA）

概率潛在語義分析 (PLSA)，有時稱為概率潛在語義索引 (PLSI，特別是在信息檢索領域)，是一種用於分析雙模式和共現數據的統計方法。

事實上，類似於 PLSA 出現的潛在語義分析，觀察變量的低維表示可以根據它們與特定隱藏變量的親和力來推導出來。

概率潛在語義分析

Python 中的主題建模實踐

現在，我將帶您完成一個使用 Python 的主題建模任務編程語言使用一個真實的例子。

我將建模研究文章。我將在這裡使用的數據集來自 kaggle.com。您可以從這裡輕鬆獲取我在這項工作中使用的所有文件頁面.

讓我們通過導入所有基本庫開始使用 Python 進行主題建模：

導入庫

以下步驟是讀取我將在此任務中使用的所有數據集：

讀取數據集

探索性數據分析

EDA（探索性數據分析）是一種採用視覺元素的統計方法。它使用統計摘要和圖形表示來發現趨勢、模式和測試假設。

在開始主題建模之前，我將進行一些探索性數據分析，以查看數據中是否存在任何模式或關係：

查找火車數據集的空值

火車空值的輸出

現在我們將找到測試數據集的空值：

查找測試數據集的空值

測試空值的輸出

現在我將繪製直方圖和箱線圖來檢查變量之間的關係。

繪圖 1 的輸出

火車摘要中的字符數量變化很大。

在火車上，我們有最少 54 個字符，最多 4551 個字符。 1065 是平均字符數。

繪圖 2

繪圖 2 的輸出

測試集看起來比訓練集更有趣，因為測試集有 46 個字符，而訓練集有 2841 個字符。

結果，測試集的中位數為 1058 個字符，與訓練集相似。

繪圖 3

繪圖輸出 3

學習集中的單詞數遵循與字母數類似的模式。

最少 8 個字，最多 665 個字。結果，中位字數為 153。

繪圖 4

繪圖 4 的輸出

摘要中至少需要 452 個單詞，測試集中最多需要 XNUMX 個單詞。

在這種情況下，中位數為 153，與訓練集中的中位數相同。

使用標籤進行主題建模

有幾種主題建模策略。我將在本練習中使用標籤；讓我們通過檢查標籤來看看如何做到這一點：

使用標籤進行主題建模

主題建模的輸出

主題建模的應用

文本摘要可用於識別文檔或書籍的主題。
它可用於消除考試評分中的候選人偏見。
主題建模可用於在基於圖形的模型中建立單詞之間的語義關係。
它可以通過檢測和響應客戶查詢中的關鍵字來增強客戶服務。客戶將更加信任您，因為您在適當的時候為他們提供了他們需要的幫助，並且沒有給他們帶來任何麻煩。結果，客戶忠誠度急劇上升，公司的價值也隨之增加。

結論

主題建模是一種統計建模，用於發現存在於文本集合中的抽象“主題”。

它是一種用於統計模型的形式機器學習和自然語言處理，以揭示一組文本中存在的抽象概念。

它是一種文本挖掘方法，廣泛用於發現正文中的潛在語義模式。

主題建模初學者介紹

什麼是主題建模？

主題建模的組成部分

概率模型

信息檢索