Pythonを使用したNLP感情分析-HashDork

目次[隠す][見せる]

感情分析とは何ですか？
感情分析の利点
感情分析–問題の説明+ -
まとめ

企業は2021年までに消費者の相互作用データの取得を習得するでしょう。

一方、これらのデータポイントへの過度の依存は、組織が顧客の入力を統計として扱うことにつながることがよくあります。これは、顧客の声を聞くためのかなり一次元的なアプローチです。

顧客の声にバッジを付けたり、番号に変換したりすることはできません。

それは読まれ、要約され、そして何よりも理解されなければなりません。

事実、企業は、電話、電子メール、ライブチャットなど、消費者とやり取りするすべてのチャネルで、消費者の発言に積極的に耳を傾ける必要があります。

すべての企業は、消費者のフィードバック感情の監視と評価を優先する必要がありますが、企業は従来、このデータを処理して意味のあるインテリジェンスに変換するのに苦労してきました。

これは、感情分析には当てはまりません。

このチュートリアルでは、感情分析、その利点、および使用方法を詳しく見ていきます。 NLTK データの感情分析を行うためのライブラリ。

感情分析とは何ですか？

感情分析は、会話マイニングとも呼ばれ、人々の感情、思考、および見解を分析するための方法です。

感情分析により、企業は消費者をよりよく理解し、収益を増やし、顧客の意見に基づいて製品やサービスを強化することができます。

顧客の感情を分析できるソフトウェアシステムと、それを推測しようとする営業担当者/顧客サービス担当者の違いは、生のテキストから客観的な結果を導き出す前者の純粋な能力です。これは主に自然言語処理（NLP）と機械学習

感情の識別からテキストの分類まで、感情分析には幅広い用途があります。テキストデータの感情分析を使用して、企業が製品評価や消費者のフィードバックの感情を監視できるようにします。

さまざまなソーシャルメディアサイトが投稿の感情を評価するためにそれを使用し、感情が強すぎるか暴力的であるか、しきい値を下回っている場合、投稿は削除または非表示になります。

感情分析は、感情の識別からテキストの分類まで、あらゆるものに使用できます。

感情分析の最も一般的な使用法はテキストデータであり、企業が製品評価や消費者のコメントの感情を追跡するのに役立ちます。

さまざまなソーシャルメディアサイトもこれを使用して投稿の感情を評価し、感情が強すぎるか暴力的であるか、しきい値を下回っている場合は、投稿を削除または非表示にします。

感情分析の利点

以下は、無視してはならない感情分析の最も重要な利点のいくつかです。

ターゲット層の中でのブランドの認識を評価するのに役立ちます。
製品の開発に役立つように、クライアントからの直接のフィードバックが提供されます。
売上高と見込み客を増やします。
製品のチャンピオンのアップセルの機会が増えました。
プロアクティブなカスタマーサービスは実用的なオプションです。

数値は、マーケティングキャンペーンの生のパフォーマンス、プロスペクティングコールへのエンゲージメントの量、カスタマーサポートで保留中のチケットの数などの情報を提供します。

ただし、特定のイベントが発生した理由やその原因はわかりません。たとえば、GoogleやFacebookなどの分析ツールは、マーケティング活動のパフォーマンスを評価するのに役立ちます。

しかし、彼らはその特定のキャンペーンが成功した理由についての深い知識をあなたに提供しません。

感情分析は、この点でゲームを変える可能性があります。

感情分析–問題の説明

目的は、ツイートに基づいて、ツイートが米国のXNUMXつの航空会社に関して好意的、否定的、または中立的な感情を持っているかどうかを判断することです。

これは標準的な教師あり学習ジョブであり、テキスト文字列を指定して、テキスト文字列を所定のカテゴリに分類する必要があります。

ソリューション

この問題に対処するために、標準の機械学習プロセスを使用します。まず、必要なライブラリとデータセットをインポートします。

次に、探索的データ分析を実行して、データにパターンがあるかどうかを判断します。続いて、テキストの前処理を行って、テキスト入力の数値データを変換します。機械学習システムが使用できます。

最後に、機械学習手法を使用して感情分析モデルをトレーニングおよび評価します。

1.ライブラリのインポート

必要なライブラリをロードします。

ライブラリのインポート

2.データセットをインポートします

この記事は、にあるデータセットに基づいています。 githubの。データセットは、以下に示すように、PandasのCSV読み取り機能を使用してインポートされます。

データセットのインポート

head（）関数を使用して、データセットの最初のXNUMX行を調べます。

頭部データセット

出力：

頭部データセットの出力

3.データの分析

データを調べて、傾向があるかどうかを判断しましょう。ただし、最初に、デフォルトのプロットサイズを変更して、グラフをより見やすくします。

プロットサイズの調整

まず、各航空会社が受け取ったツイートの数から始めましょう。これには円グラフを使用します。

円グラフ

各航空会社の公開ツイートの割合が出力に表示されます。

円グラフの出力

すべてのツイートに感情がどのように分布しているかを見てみましょう。

セマンティック円グラフ

出力：

セマンティック円グラフ出力

次に、特定の航空会社ごとの感情の分布を調べてみましょう。

結果によると、ほぼすべての航空会社のツイートの大部分は不利であり、中立的で良いツイートが続いています。ヴァージンアメリカは、おそらくXNUMXつの感情の比率が匹敵する唯一の航空会社です。

各航空会社の分布

出力：

各航空会社の売上高の分布

最後に、Seabornライブラリを使用して、XNUMXつの感情カテゴリからツイートの平均信頼水準を取得します。

棒グラフ

出力：

棒グラフの出力

結果は、ネガティブなツイートの信頼度がポジティブまたはニュートラルなツイートよりも高いことを示しています。

4.データのクリーニング

多くの俗語や句読点がツイートに含まれています。機械学習モデルをトレーニングする前に、ツイートをクリーンアップする必要があります。

ただし、ツイートのクリーンアップを開始する前に、データセットを機能セットとラベルセットに分ける必要があります。

機能とラベル

データを機能とトレーニングセットに分割したら、データをクリーンアップできます。これを行うには、正規表現が使用されます。

正規表現

5.テキストの数値表現

機械学習モデルをトレーニングするために、統計アルゴリズムは数学を採用しています。一方、数学は数字だけで機能します。

まず、統計アルゴリズムでテキストを処理するために、テキストを数値に変換する必要があります。これを行うには、2つの基本的な方法があります。BagofWords、TF-IDF、およびWordXNUMXVecです。

幸い、PythonのScikit-LearnモジュールのTfidfVectorizerクラスを使用して、テキスト特徴をTF-IDF特徴ベクトルに変換できます。

TFIDF

6.データ駆動型トレーニングおよびテストセットの作成

最後に、アルゴリズムをトレーニングする前に、データをトレーニングセットとテストセットに分割する必要があります。

トレーニングセットはアルゴリズムのトレーニングに使用され、テストセットは機械学習モデルのパフォーマンスを評価するために使用されます。

トレーニングテスト

7.モデル開発

データがトレーニングセットとテストセットに分離された後、機械学習手法を使用してトレーニングデータから学習します。

任意の機械学習アルゴリズムを使用できます。ただし、ランダムフォレストアプローチは、正規化されていないデータを処理できるため、使用されます。

モデルトレーニング

8.予測とモデル評価

モデルがトレーニングされた後、最終段階は予測を行うことです。これを行うには、トレーニングしたRandomForestClassifierクラスオブジェクトにpredictメソッドを適用する必要があります。

モデル予測

最後に、混乱メトリック、F1メジャー、精度などの分類メジャーを使用して、機械学習モデルのパフォーマンスを評価できます。

分類メトリクス

出力：

分類メトリックの出力

結果からわかるように、私たちのアルゴリズムは75.30の精度を達成しました。

まとめ

感情分析は、特定の問題に関する全体的な世論を特定するのに役立つため、最も頻繁なNLPジョブのXNUMXつです。

いくつかのPythonライブラリが感情分析にどのように役立つかを見ました。

米国の75つの航空会社に関する公開ツイートの調査を実施し、約XNUMX％の精度に達しました。

ロジスティック回帰、SVM、KNNなどの別の機械学習アルゴリズムを試して、より良い結果が得られるかどうかを確認することをお勧めします。

Pythonを使用したNLP感情分析

感情分析とは何ですか？

感情分析の利点