教師なし機械学習アルゴリズム

目次[隠す][見せる]

教師なし機械学習とは?
教師なし機械学習アルゴリズム+ -
教師なし学習の応用
教師なし学習の問題
まとめ

あらゆる種類の企業活動の主要な基準の XNUMX つは、情報の効果的な活用です。ある時点で、作成されるデータの量が基本的な処理の容量を超えます。

そこで機械学習アルゴリズムの出番です。ただし、これが発生する前に、情報を調査して解釈する必要があります。一言で言えば、それが教師なし機械学習の用途です。

この記事では、アルゴリズム、ユースケースなど、教師なし機械学習について詳しく説明します。

教師なし機械学習とは?

教師なし機械学習アルゴリズムは、既知またはラベル付けされた結果を持たないデータセット内のパターンを識別します。監修機械学習アルゴリズムラベル付きの出力があります。

この違いを知っていれば、出力データの値/答えがわからないため、回帰や分類の問題を解決するために教師なし機械学習法を使用できない理由を理解するのに役立ちます。値/答えがわからない場合、アルゴリズムを正常にトレーニングすることはできません。

さらに、教師なし学習を使用して、データの基本構造を特定できます。これらのアルゴリズムは、人間の介入を必要とせずに、隠れたパターンやデータグループを検出します。

情報の類似点と対比を検出する能力により、探索的データ分析、クロスセリング技術、消費者セグメンテーション、画像識別に最適です。

次のシナリオを考えてみましょう: あなたは食料品店にいて、今まで見たことのない正体不明の果物を見ました。形状、サイズ、または色の観察に基づいて、未知の果物と周囲の他の果物との違いを簡単に区別できます。

教師なし機械学習アルゴリズム

クラスタリング

クラスタリングは、間違いなく最も広く利用されている教師なし学習のアプローチです。このアプローチでは、関連するデータ項目をランダムに生成されたクラスターに配置します。

ML モデルはそれ自体で、分類されていないデータ構造のパターン、類似点、および/または相違点を発見します。モデルは、データ内の自然なグループまたはクラスを発見できます。

クラスタリング

種類

使用できるクラスタリングにはいくつかの形式があります。最初に最も重要なものを見てみましょう。

「ハード」クラスタリングとも呼ばれる排他的クラスタリングは、XNUMX つのデータが XNUMX つのクラスタだけに属するグループ化の一種です。
「ソフト」クラスタリングとも呼ばれるオーバーラップクラスタリングでは、データオブジェクトをさまざまな程度で複数のクラスタに所属させることができます。さらに、確率的クラスタリングを使用して、「ソフト」クラスタリングまたは密度推定の問題に取り組み、特定のクラスターに属するデータポイントの確率または可能性を評価できます。
名前が示すように、グループ化されたデータ項目の階層を作成することが、階層クラスタリングの目標です。データ項目は、階層に基づいて分解または結合され、クラスターが生成されます。

ユースケース：

異常検出:

クラスタリングを使用して、データ内のあらゆるタイプの外れ値を検出できます。たとえば、輸送およびロジスティクスの企業は、異常検出を利用してロジスティクスの障害を発見したり、損傷した機械部品を開示したりできます (予知保全)。

金融機関は、この技術を使用して不正な取引を検出し、迅速に対応できるため、多くの費用を節約できる可能性があります。私たちのビデオを見て、異常や詐欺の発見について学んでください。

顧客と市場のセグメンテーション:

クラスタリングアルゴリズムは、同様の特性を持つ人々をグループ化し、より効果的なマーケティングとターゲットを絞ったイニシアチブのために消費者のペルソナを作成するのに役立ちます。

K平均

K-means は、パーティショニングまたはセグメンテーションとも呼ばれるクラスタリング手法です。データポイントを、K として知られる所定の数のクラスターに分割します。

K 平均法では、データ内で識別したいクラスターの数をコンピューターに伝えるため、K が入力になります。その後、各データ項目は、重心 (図の黒い点) と呼ばれる最も近いクラスターの中心に割り当てられます。

K の意味

後者はデータストレージスペースとして機能します。クラスタリング手法は、クラスタが明確に定義されるまで何度でも実行できます。

ファジー K 平均法

ファジー K 平均法は、K 平均法を拡張したもので、オーバーラップクラスタリングに使用されます。 K-means 手法とは異なり、ファジー K-means は、データポイントがさまざまな近接度を持つ多くのクラスターに属している可能性があることを示します。

データポイントとクラスターの重心との間の距離は、近接度の計算に使用されます。その結果、さまざまなクラスターが重複する場合があります。

ガウス混合モデル

ガウス混合モデル (GMM) は、確率的クラスタリングで使用される方法です。平均と分散が不明であるため、モデルでは、ガウス分布が一定数存在し、それぞれが個別のクラスターを表していると想定しています。

特定のデータポイントがどのクラスターに属しているかを判断するには、基本的にこの方法が使用されます。

階層的クラスタリング

階層クラスタリング戦略は、異なるクラスターに割り当てられた各データポイントから開始できます。次に、互いに最も近い XNUMX つのクラスターが XNUMX つのクラスターにブレンドされます。反復マージは、XNUMX つのクラスターだけが上部に残るまで続行されます。

この方法は、ボトムアップまたは凝集として知られています。同じクラスターに関連付けられたすべてのデータ項目から始めて、各データ項目が個別のクラスターとして割り当てられるまで分割を行う場合、この方法はトップダウンまたは分裂的階層的クラスター化として知られています。

アプリオリアルゴリズム

マーケットバスケット分析はアプリオリアルゴリズムを普及させ、その結果、音楽プラットフォームやオンラインストア向けのさまざまなレコメンデーションエンジンが生まれました。

これらはトランザクションデータセットで使用され、頻繁に使用されるアイテムセットまたはアイテムのグループを見つけて、別の製品の消費に基づいてある製品を消費する可能性を予測します。

たとえば、Spotify で OneRepublic のラジオを「Counting Stars」で再生し始めた場合、このチャンネルの他の曲の XNUMX つは、「Bad Liar」などのイマジンドラゴンの曲であることは間違いありません。

これは、私の以前のリスニング習慣と他の人のリスニングパターンに基づいています。 Apriori メソッドは、ハッシュツリーを使用してアイテムセットをカウントし、データセットを幅優先で走査します。

次元削減

次元削減は、一連の戦略を使用してデータセット内の特徴 (または次元) の数を最小限に抑える一種の教師なし学習です。明確にしましょう。

作成中にできるだけ多くのデータを組み込みたいと思うかもしれません。機械学習用のデータセット. 誤解しないでください。通常、データが多いほど正確な結果が得られるため、この戦略はうまく機能します。

データが N 次元空間に格納され、各特徴が異なる次元を表すと仮定します。大量のデータがある場合、数百の次元が存在する可能性があります。

列が特性を表し、行がデータ項目を表す Excel スプレッドシートを考えてみましょう。次元が多すぎると、ML アルゴリズムのパフォーマンスが低下し、データの可視化困難になる可能性があります。

したがって、特性や寸法を制限し、適切な情報だけを伝えることが論理的になります。次元削減はまさにそれです。これにより、データセットの整合性を損なうことなく、管理可能な量のデータ入力が可能になります。

主成分分析（PCA）

主成分分析は、次元削減アプローチです。これは、巨大なデータセット内の特徴の数を最小限に抑えるために使用され、精度を犠牲にすることなくデータをよりシンプルにします。

データセットの圧縮は、特徴抽出と呼ばれる方法によって行われます。これは、元のセットの要素が新しい小さなセットにブレンドされていることを示しています。これらの新しい特性は、プライマリコンポーネントとして知られています。

もちろん、教師なし学習アプリケーションで使用できる追加のアルゴリズムがあります。上に挙げたものは最も一般的なものに過ぎないため、より詳細に説明します。

教師なし学習の応用

教師なし学習法は、物体認識などの視覚認識タスクに利用されます。
教師なし機械学習は、画像の識別、分類、セグメンテーションなどの医用画像システムに重要な側面をもたらします。これらは、放射線学や病理学で患者を迅速かつ確実に診断するために利用されます。
教師なし学習は、消費者行動に関する過去のデータを利用して、より効果的なクロスセリング戦略を作成するために使用できるデータの傾向を特定するのに役立ちます。チェックアウトプロセス中に、これはオンラインビジネスでクライアントに適切なアドオンを提案するために使用されます。
教師なし学習法は、膨大な量のデータをふるいにかけ、外れ値を見つけることができます。これらの異常により、機器の誤動作、人的ミス、またはセキュリティ違反の通知が発生する可能性があります。

教師なし学習の問題

教師なし学習は、重要な洞察を見つける可能性から、さまざまな方法で魅力的です。コストのかかるデータのラベル付けを回避するためのデータオペレーション。ただし、この戦略をトレーニングに使用することにはいくつかの欠点があります。機械学習モデル知っておくべきこと。下記は用例です。

入力データには応答キーとして機能するラベルがないため、教師なし学習モデルの結果は精度が低くなる可能性があります。
教師なし学習は大規模なデータセットで頻繁に機能するため、計算が複雑になる可能性があります。
このアプローチでは、調査対象の内部または外部の専門家による人間による出力確認が必要です。
アルゴリズムは、トレーニングフェーズ全体で考えられるすべてのシナリオを調べて計算する必要がありますが、これには時間がかかります。

まとめ

特定の市場で競争力を確立するには、データを効果的に活用することが重要です。

教師なし機械学習アルゴリズムを使用してデータをセグメント化して、ターゲットユーザーの好みを調べたり、特定の感染症が特定の治療にどのように反応するかを判断したりできます。

いくつかの実用的なアプリケーションがあり、データサイエンティスト、エンジニア、およびアーキテクトが、目標の定義と、会社独自の ML ソリューションの開発を支援します。

教師なし機械学習アルゴリズム

教師なし機械学習とは?