初心者のためのトピックモデリング入門-HashDork

目次[隠す][見せる]

トピックモデリングとは何ですか？
トピックモデリングの構成要素+ -
- 確率モデル
- 情報検索
トピックモデリングのさまざまな方法+ -
Pythonでのトピックモデリングの実践+ -
- 探索的データ分析
- トピックモデリングのためのタグの使用
トピックモデリングの応用
まとめ

人工知能だけでなく、機械学習や自然言語処理（NLP）などの単語について聞いたことがあると思います。

特に、毎日数千とは言わないまでも数百のクライアントの連絡先を処理する会社で働いている場合。

ソーシャルメディアの投稿、電子メール、チャット、自由形式の調査の回答、およびその他のソースのデータ分析は単純なプロセスではなく、人だけに委託するとさらに困難になります。

そのため、多くの人が人工知能彼らの日常業務と企業のために。

AIを活用したテキスト分析では、幅広いアプローチやアルゴリズムを使用して言語を有機的に解釈します。そのXNUMXつがトピック分析で、テキストから主題を自動的に検出するために使用されます。

企業はトピック分析モデルを使用して、データが多すぎる労働者に負担をかけるのではなく、簡単なジョブをマシンに転送できます。

コンピューターが顧客調査やサポートの問題の無限のリストを毎朝フィルタリングできる場合、チームがどれだけの時間を節約し、より重要な作業に費やすことができるかを検討してください。

このガイドでは、トピックモデリング、トピックモデリングのさまざまな方法を調べ、それを実際に体験します。

トピックモデリングとは何ですか？

トピックモデリングは、教師なしおよび教師あり統計を使用するテキストマイニングの一種です。機械学習手法は、コーパスまたは大量の非構造化テキストの傾向を検出するために使用されます。

それはあなたの膨大なドキュメントのコレクションを取り、類似性の方法を使用して単語を用語のクラスターに配置し、主題を発見することができます。

それは少し複雑で難しいように思われるので、主題のモデリング手順を単純化しましょう！

手に色付きの蛍光ペンのセットを持った新聞を読んでいると仮定します。

昔ながらじゃないですか。

最近、新聞を活字で読む人はほとんどいないことに気づきました。すべてがデジタルであり、蛍光ペンは過去のものです！あなたのお父さんやお母さんのふりをしてください！

したがって、新聞を読むときは、重要な用語を強調します。

もうXNUMXつの仮定！

さまざまなテーマのキーワードを強調するために、異なる色相を使用します。提供された色とトピックに応じてキーワードを分類します。

特定の色でマークされた単語の各コレクションは、特定のトピックのキーワードのリストです。選択したさまざまな色の量は、テーマの数を示しています。

これは最も基本的なトピックモデリングです。これは、大規模なテキストコレクションの理解、整理、および要約に役立ちます。

ただし、効果的であるためには、自動化されたトピックモデルは多くのコンテンツを必要とすることに留意してください。短い紙をお持ちの場合は、古い学校に行って蛍光ペンを使用することをお勧めします。

データを理解するために時間を費やすことも有益です。これはあなたにトピックモデルが何を見つけるべきかについての基本的な感覚を与えるでしょう。

たとえば、その日記はあなたの現在と以前の関係についてのものかもしれません。したがって、テキストマイニングロボットの仲間が同様のアイデアを思いつくことを期待しています。

これは、特定した主題の品質をより適切に分析し、必要に応じてキーワードセットを微調整するのに役立ちます。

トピックモデリングの構成要素

確率モデル

確率変数と確率分布は、確率モデルのイベントまたは現象の表現に組み込まれます。

決定論的モデルは、イベントの単一の潜在的な結論を提供しますが、確率モデルは、ソリューションとして確率分布を提供します。

これらのモデルは、状況について完全な知識を持っていることはめったにないという現実を考慮しています。ほとんどの場合、考慮すべきランダム性の要素があります。

たとえば、生命保険は、私たちが死ぬことはわかっているが、いつ死ぬかはわからないという現実に基づいています。これらのモデルは、部分的に決定論的、部分的にランダム、または完全にランダムである可能性があります。

情報検索

情報検索（IR）は、ドキュメントリポジトリからの情報、特にテキスト情報を整理、保存、取得、および評価するソフトウェアプログラムです。

このテクノロジーは、ユーザーが必要な情報を見つけるのに役立ちますが、問い合わせに対する回答を明確に提供するものではありません。必要な情報を提供する可能性のある書類の存在と場所を通知します。

関連するドキュメントは、ユーザーのニーズを満たすドキュメントです。障害のないIRシステムは、選択されたドキュメントのみを返します。

トピックの一貫性

トピックコヒーレンスは、トピックの高スコアの用語間の意味的類似度を計算することにより、単一のトピックをスコアリングします。これらのメトリックは、意味的に解釈可能な主題と統計的推論アーティファクトであるトピックを区別するのに役立ちます。

主張または事実のグループが互いに支持し合う場合、それらは首尾一貫していると言われます。

結果として、まとまりのあるファクトセットは、ファクトのすべてまたは大部分を含むコンテキストで理解できます。「ゲームはチームスポーツです」、「ゲームはボールでプレイされます」、「ゲームは多大な肉体的努力を必要とします」はすべて、まとまりのある事実セットの例です。

トピックモデリングのさまざまな方法

この重要な手順は、さまざまなアルゴリズムまたは方法論によって実行できます。それらの中には：

潜在ディリクレ配分（LDA）
非負行列因子分解（NMF）
潜在意味解析（LSA）
確率的潜在意味解析（pLSA）

潜在的ディリクレ配分（LDA）

コーパス内の複数のテキスト間の関係を検出するために、潜在的ディリクレ割り当ての統計的およびグラフィカルな概念が使用されます。

変分例外最大化（VEM）アプローチを使用すると、テキストの完全なコーパスから最尤推定が達成されます。

LDA

伝統的に、単語の袋から上位のいくつかの単語が選択されます。

しかし、その文は完全に無意味です。

この手法によれば、各テキストは主題の確率分布で表され、各トピックは単語の確率分布で表されます。

非負行列因子分解（NMF）

非負の値の行列因数分解は、最先端の特徴抽出アプローチです。

多くの品質があり、属性があいまいであるか、予測可能性が低い場合、NMFは有益です。 NMFは、特性を組み合わせることにより、重要なパターン、主題、またはテーマを生成できます。

非負行列因数分解

NMFは、元の属性セットの線形結合として各機能を生成します。

各機能には、機能の各属性の重要性を表す一連の係数が含まれています。各数値属性と各カテゴリ属性の各値には、独自の係数があります。

すべての係数は正です。

潜在意味解析

これは、一連のドキュメント内の単語間の関連を抽出するために使用されるもうXNUMXつの教師なし学習方法であり、潜在意味解析です。

これは、適切なドキュメントを選択するのに役立ちます。その主な機能は、テキストデータの膨大なコーパスの次元を減らすことです。

これらの不要なデータは、データから必要な洞察を取得する際のバックグラウンドノイズとして機能します。

潜在意味解析

確率的潜在意味解析（pLSA）

確率的潜在意味解析（PLSA）は、確率的潜在意味索引付け（PLSI、特に情報検索サークル）としても知られ、XNUMXモードおよび共起データを分析するための統計的アプローチです。

実際、PLSAが出現した潜在意味解析と同様に、観測された変数の低次元表現は、特定の隠れた変数への親和性の観点から導き出すことができます。

確率的潜在セナンティック分析

Pythonでのトピックモデリングの実践

次に、Pythonを使用したサブジェクトモデリングの割り当てについて説明します。プログラミング言語実際の例を使用します。

研究論文をモデル化します。ここで使用するデータセットはkaggle.comからのものです。この作品で使用しているすべてのファイルは、こちらから簡単に入手できます。ページ.

重要なライブラリをすべてインポートして、Pythonを使用したトピックモデリングを始めましょう。

ライブラリのインポート

次の手順は、このタスクで使用するすべてのデータセットを読み取ることです。

データセットを読む

探索的データ分析

EDA（Exploratory Data Analysis）は、視覚的要素を使用する統計手法です。統計的要約とグラフィック表現を使用して、傾向、パターン、およびテストの仮定を発見します。

トピックモデリングを開始する前に、探索的データ分析を行って、データにパターンや関係があるかどうかを確認します。

学習データセットの null 値を見つける

トレイン Null 値の出力

ここで、テストデータセットのnull値を見つけます。

テストデータセットの null 値を見つける

テスト Null 値の出力

次に、変数間の関係を確認するために、ヒストグラムと箱ひげ図をプロットします。

プロット

プロット 1 の出力

列車の要約セットの文字数は大きく異なります。

電車の中で、私たちは最小54文字と最大4551文字を持っています。 1065は平均文字数です。

プロット 2

プロット 2 の出力

テストセットには46文字が含まれ、トレーニングセットには2841文字があるため、テストセットはトレーニングセットよりも興味深いように見えます。

その結果、テストセットの中央値は1058文字で、トレーニングセットと同様です。

プロット 3

プロットの出力 3

学習セットの単語数は、文字数と同様のパターンに従います。

最小8ワード、最大665ワードが許可されます。その結果、単語数の中央値は153になります。

プロット 4

プロット 4 の出力

要約では最低452語、テストセットでは最大XNUMX語が必要です。

この場合の中央値は153で、トレーニングセットの中央値と同じです。

トピックモデリングのためのタグの使用

いくつかのトピックモデリング戦略があります。この演習ではタグを使用します。タグを調べて、その方法を見てみましょう。

トピックモデリングにタグを使用する

トピックモデリングの出力

トピックモデリングの応用

テキストの要約を使用して、ドキュメントまたは本のトピックを識別することができます。
試験の採点から候補者のバイアスを取り除くために使用できます。
トピックモデリングは、グラフベースのモデルの単語間の意味関係を構築するために使用される可能性があります。
クライアントからの問い合わせでキーワードを検出して応答することで、顧客サービスを向上させることができます。あなたが適切なタイミングで、そして彼らに面倒を引き起こすことなく彼らが必要とする援助を彼らに提供したので、顧客はあなたをより信頼するでしょう。その結果、クライアントの忠誠心が劇的に高まり、会社の価値が高まります。

まとめ

トピックモデリングは、テキストのコレクションに存在する抽象的な「主題」を明らかにするために使用される一種の統計モデリングです。

これは、で使用される統計モデルの形式です。機械学習一連のテキストに存在する抽象的な概念を明らかにするための自然言語処理。

これは、本文テキストの潜在意味パターンを見つけるために広く使用されているテキストマイニング方法です。

初心者のためのトピックモデリング入門

トピックモデリングとは何ですか？