初学者主题建模介绍

目录[隐藏][展示]

什么是主题建模？
主题建模的组成部分+ -
- 概率模型
- 信息检索
不同的主题建模方法+ -
Python 中的主题建模实践+ -
- 探索性数据分析
- 使用标签进行主题建模
主题建模的应用
结论

我相信你听说过人工智能，以及机器学习和自然语言处理 (NLP) 之类的词。

特别是如果您为一家每天处理数百甚至数千客户联系的公司工作。

社交媒体帖子、电子邮件、聊天、开放式调查回复和其他来源的数据分析不是一个简单的过程，如果只委托给人们，则变得更加困难。

这就是为什么很多人对它的潜力充满热情人工智能为他们的日常工作和企业。

人工智能驱动的文本分析采用广泛的方法或算法来有机地解释语言，其中之一是主题分析，用于从文本中自动发现主题。

企业可以使用主题分析模型将简单的工作转移到机器上，而不是让工人负担过多的数据。

考虑一下如果计算机可以每天早上过滤无数的客户调查或支持问题列表，您的团队可能会节省多少时间并投入到更重要的工作上。

在本指南中，我们将研究主题建模、主题建模的不同方法，并获得一些实践经验。

什么是主题建模？

主题建模是一种文本挖掘，其中无监督和有监督统计机器学习技术用于检测语料库或大量非结构化文本中的趋势。

它可以收集您的大量文档并使用相似性方法将单词排列成术语簇并发现主题。

这似乎有点复杂和困难，所以让我们简化主题建模过程！

假设您正在阅读一份手里拿着一组彩色荧光笔的报纸。

这不是很老套吗？

我意识到这些天来，很少有人阅读印刷报纸。一切都是数字化的，荧光笔已成为过去！假装是你的父亲或母亲！

因此，当您阅读报纸时，您会突出显示重要的术语。

又一个假设！

您使用不同的色调来强调各种主题的关键字。您可以根据提供的颜色和主题对关键字进行分类。

用某种颜色标记的每个单词集合都是给定主题的关键字列表。您选择的各种颜色的数量显示了主题的数量。

这是最基本的主题建模。它有助于理解、组织和总结大型文本集合。

但是，请记住，要有效，自动化主题模型需要大量内容。如果你的论文很短，你可能想去老学校用荧光笔！

花一些时间了解数据也是有益的。这将使您对主题模型应该找到什么有一个基本的了解。

例如，那本日记可能是关于你现在和以前的关系的。因此，我预计我的文本挖掘机器人伙伴会提出类似的想法。

这可以帮助您更好地分析已确定主题的质量，并在必要时调整关键字集。

主题建模的组成部分

概率模型

随机变量和概率分布被纳入概率模型中事件或现象的表示。

确定性模型为事件提供单一的潜在结论，而概率模型提供概率分布作为解决方案。

这些模型考虑了我们很少完全了解情况的现实。几乎总是有一个随机因素需要考虑。

例如，人寿保险的前提是我们知道自己会死，但我们不知道什么时候会死。这些模型可能是部分确定的、部分随机的或完全随机的。

信息检索

信息检索 (IR) 是一种软件程序，用于组织、存储、检索和评估来自文档存储库的信息，尤其是文本信息。

该技术可以帮助用户发现他们需要的信息，但它并不能清楚地为他们的查询提供答案。它会通知可能提供必要信息的文件的存在和位置。

相关文件是满足用户需求的文件。完美的 IR 系统将只返回选定的文件。

主题连贯

Topic Coherence 通过计算主题的高分词之间的语义相似度来对单个主题进行评分。这些指标有助于区分语义上可解释的主题和统计推理工件的主题。

如果一组主张或事实相互支持，则称它们是连贯的。

因此，可以在包含所有或大部分事实的上下文中理解有凝聚力的事实集。 “比赛是一项团队运动”、“比赛是用一个球来进行的”和“比赛需要巨大的体力”都是有凝聚力的事实集的例子。

不同的主题建模方法

这个关键过程可以通过各种算法或方法来执行。其中有：

潜在狄利克雷分配（LDA）
非负矩阵分解 (NMF)
潜在语义分析 (LSA)
概率潜在语义分析（pLSA）

潜在狄利克雷分配（LDA）

为了检测语料库中多个文本之间的关系，使用了潜在狄利克雷分配的统计和图形概念。

使用变分异常最大化 (VEM) 方法，可以从完整的文本语料库中获得最大似然估计。

LDA

传统上，从一袋单词中选择前几个单词。

然而，这句话完全没有意义。

根据这种技术，每个文本将由主题的概率分布表示，每个主题由单词的概率分布表示。

非负矩阵分解（NMF）

具有非负值分解的矩阵是一种尖端的特征提取方法。

当有许多品质且属性模糊或可预测性差时，NMF 是有益的。 NMF 可以通过组合特征来生成重要的模式、主题或主题。

非负矩阵分解

NMF 将每个特征生成为原始属性集的线性组合。

每个特征都包含一组系数，表示每个属性对特征的重要性。每个数值属性和每个类别属性的每个值都有自己的系数。

所有的系数都是正的。

潜在语义分析

用于提取一组文档中单词之间关联的另一种无监督学习方法是潜在语义分析。

这有助于我们选择合适的文件。它的主要功能是减少庞大的文本数据语料库的维数。

这些不必要的数据在从数据中获取必要的洞察力时充当背景噪音。

潜在语义分析

概率潜在语义分析（pLSA）

概率潜在语义分析 (PLSA)，有时称为概率潜在语义索引 (PLSI，特别是在信息检索领域)，是一种用于分析双模式和共现数据的统计方法。

事实上，类似于 PLSA 出现的潜在语义分析，观察变量的低维表示可以根据它们与特定隐藏变量的亲和力来推导出来。

概率潜在语义分析

Python 中的主题建模实践

现在，我将带您完成一个使用 Python 的主题建模任务编程语言使用一个真实的例子。

我将建模研究文章。我将在这里使用的数据集来自 kaggle.com。您可以从这里轻松获取我在这项工作中使用的所有文件页.

让我们通过导入所有基本库开始使用 Python 进行主题建模：

导入库

以下步骤是读取我将在此任务中使用的所有数据集：

读取数据集

探索性数据分析

EDA（探索性数据分析）是一种采用视觉元素的统计方法。它使用统计摘要和图形表示来发现趋势、模式和测试假设。

在开始主题建模之前，我将进行一些探索性数据分析，以查看数据中是否存在任何模式或关系：

查找火车数据集的空值

火车空值的输出

现在我们将找到测试数据集的空值：

查找测试数据集的空值

测试空值的输出

现在我将绘制直方图和箱线图来检查变量之间的关系。

绘图 1 的输出

火车摘要中的字符数量变化很大。

在火车上，我们有最少 54 个字符，最多 4551 个字符。 1065 是平均字符数。

绘图 2

绘图 2 的输出

测试集看起来比训练集更有趣，因为测试集有 46 个字符，而训练集有 2841 个字符。

结果，测试集的中位数为 1058 个字符，与训练集相似。

绘图 3

绘图输出 3

学习集中的单词数遵循与字母数类似的模式。

最少 8 个字，最多 665 个字。结果，中位字数为 153。

绘图 4

绘图 4 的输出

摘要中至少需要 452 个单词，测试集中最多需要 XNUMX 个单词。

在这种情况下，中位数为 153，与训练集中的中位数相同。

使用标签进行主题建模

有几种主题建模策略。我将在本练习中使用标签；让我们通过检查标签来看看如何做到这一点：

使用标签进行主题建模

主题建模的输出

主题建模的应用

文本摘要可用于识别文档或书籍的主题。
它可用于消除考试评分中的候选人偏见。
主题建模可用于在基于图形的模型中建立单词之间的语义关系。
它可以通过检测和响应客户查询中的关键字来增强客户服务。客户将更加信任您，因为您在适当的时候为他们提供了他们需要的帮助，并且没有给他们带来任何麻烦。结果，客户忠诚度急剧上升，公司的价值也随之增加。

结论

主题建模是一种统计建模，用于发现存在于文本集合中的抽象“主题”。

它是一种用于统计模型的形式机器学习和自然语言处理，以揭示一组文本中存在的抽象概念。

它是一种文本挖掘方法，广泛用于发现正文中的潜在语义模式。

初学者主题建模介绍

什么是主题建模？

主题建模的组成部分

概率模型

信息检索