人工知能や機械学習により、世界は急速に変化しており、日常生活のあらゆる側面に影響を与えています。
NLPと機械学習を使用して予定を予約したり、カレンダーでイベントを検索したり、音楽を再生したりする音声アシスタントから、私たちが検討する前に私たちのニーズを予測できるほど正確なデバイスまで。
コンピューターは、機械学習アルゴリズムを使用して、チェスをしたり、手術をしたり、よりスマートで人間らしい機械に発展したりすることができます。
私たちは絶え間ない技術の進歩の時代にあり、コンピューターが時間の経過とともにどのように発展してきたかを見ることで、将来何が起こるかを予測することができます。
コンピューティングツールとメソッドの民主化は、この革命の重要な側面のXNUMXつです。 データサイエンティスト 過去XNUMX年間に、最先端の方法論を簡単に実装することにより、強力なデータ処理コンピューターを作成してきました。 結果は驚くべきものです。
この投稿では、詳しく見ていきます 機械学習 アルゴリズムとそのすべてのバリエーション。
では、機械学習アルゴリズムとは何ですか?
AIシステムがそのタスクを実行するために使用するアプローチ(通常、特定の入力データから出力値を予測する)は、機械学習アルゴリズムとして知られています。
機械学習アルゴリズムは、データを利用するプロセスであり、本番環境ですぐに使用できる機械学習モデルを作成するために使用されます。 機械学習が仕事を遂行する列車である場合、機械学習アルゴリズムは仕事を進める機関車です。
利用するのに最適な機械学習アプローチは、対処しようとしているビジネス上の問題、利用しているデータセットの種類、および利用可能なリソースによって決まります。
機械学習アルゴリズムは、データセットをモデルに変換するアルゴリズムです。 答えようとしている問題の種類、利用可能な処理能力、および教師あり、教師なし、または強化学習アルゴリズムを使用しているデータのタイプに応じて、うまく機能する可能性があります。
それで、教師あり学習、教師なし学習、強化学習について話しましたが、それらは何ですか? それらを調べてみましょう。
教師あり、教師なし、強化学習
教師あり学習
教師あり学習では、提供された入力と予測された結果を表すラベルに基づいてAIモデルが開発されます。 モデルは、入力と出力に基づいてマッピング方程式を作成し、そのマッピング方程式を使用して、将来の入力のラベルを予測します。
犬と猫を区別できるモデルを作成する必要があるとしましょう。 猫と犬の複数の写真がモデルにフィードされ、モデルをトレーニングするために、猫か犬かを示すラベルが付けられます。
モデルは、入力された写真のラベルをそれらの画像に関連付ける方程式を確立しようとします。 モデルがこれまでに画像を見たことがない場合でも、トレーニング後、モデルは猫か犬かを識別できます。
教師なし学習
教師なし学習では、入力にラベルを付けずに入力のみでAIモデルをトレーニングします。 モデルは、入力データを関連する特性を持つグループに分割します。
次に、入力の将来のラベルは、その属性が分類のXNUMXつとどの程度一致しているかに応じて予測されます。 赤と青のボールのグループをXNUMXつのカテゴリに分割する必要がある状況を考えてみます。
色を除いて、ボールの他の特性が同じであると仮定しましょう。 ボールをXNUMXつのクラスに分類する方法に基づいて、モデルはボール間で異なる特性を探します。
ボールが色相に基づいてXNUMXつのグループに分けられると、ボールのXNUMXつのクラスター(XNUMXつは青とXNUMXつは赤)が生成されます。
強化学習
強化学習では、AIモデルは、特定の状況で可能な限り行動することにより、全体的な利益を最大化しようとします。 以前の結果に関するフィードバックは、モデルの学習に役立ちます。
ロボットがポイントAとBの間のルートを選択するように指示された場合のシナリオを考えてみてください。ロボットは、経験がないため、最初にどちらかのコースを選択します。
ロボットは、経路上の入力を受け取り、そこから知識を取得します。 ロボットは、次に同様の状況に遭遇したときに、入力を利用して問題を修正できます。
たとえば、ロボットがオプションBを選択し、正のフィードバックなどの報酬を受け取った場合、ロボットは今回、報酬を増やすために方法Bを選択する必要があることを理解します。
最後に、皆さんが待っているのはアルゴリズムです。
主要な機械学習アルゴリズム
1.線形回帰
教師あり学習から逸脱する最も単純な機械学習アプローチは、線形回帰です。 独立変数からの知識により、回帰の問題を解決し、連続従属変数の予測を作成するために主に使用されます。
連続従属変数の結果を予測するのに役立つ最適な線を見つけることが、線形回帰の目的です。 住宅価格、年齢、賃金は、継続的な価値の例です。
単純線形回帰と呼ばれるモデルは、直線を使用して、XNUMXつの独立変数とXNUMXつの従属変数の間の関連を計算します。 重回帰にはXNUMXつ以上の独立変数があります。
線形回帰モデルには、次のXNUMXつの基本的な仮定があります。
- 線形性:XとYの平均の間には線形関係があります。
- 不均一分散:Xのすべての値について、残差分散は同じです。
- 独立性:観測値は、独立性の観点から互いに独立しています。
- 正規性:Xが固定されている場合、Yは正規分布しています。
線形回帰は、線に沿って分離できるデータに対して見事に機能します。 正則化、交差検定、および次元削減の手法を使用して、過剰適合を制御できます。 ただし、広範な機能エンジニアリングが必要な場合があり、過剰適合やノイズが発生することがあります。
2.ロジスティック回帰
ロジスティック回帰は、教師あり学習とは異なるもうXNUMXつの機械学習手法です。 その主な用途は分類ですが、回帰問題にも利用できます。
ロジスティック回帰は、独立因子からの情報を使用してカテゴリ従属変数を予測するために使用されます。 目標は、0から1の間にしか収まらない出力を分類することです。
入力の加重合計は、0から1の間の値を変換する活性化関数であるシグモイド関数によって処理されます。
ロジスティック回帰の基礎は、特定の観測データが与えられた場合に想定される確率分布のパラメーターを計算する方法である最尤推定です。
3.ディシジョンツリー
教師あり学習から分裂するもうXNUMXつの機械学習方法は、決定木です。 分類と回帰の両方の問題について、決定木アプローチを採用できます。
ツリーに似たこの意思決定ツールは、視覚的な表現を使用して、アクションの予想される結果、コスト、および影響を示します。 データを別々の部分に分割することにより、アイデアは人間の心に類似しています。
データは、細かくできる限り個別の部分に分割されています。 デシジョンツリーの主な目的は、ターゲット変数のクラスを予測するために使用できるトレーニングモデルを構築することです。 欠落している値は、ディシジョンツリーを使用して自動的に処理できます。
ワンショットエンコーディング、ダミー変数、またはその他のデータ前処理ステップは必要ありません。 新鮮なデータを追加するのが難しいという意味で厳格です。 追加のラベル付きデータを取得した場合は、データセット全体でツリーを再トレーニングする必要があります。
その結果、決定木は、動的なモデル変更を必要とするアプリケーションには適していません。
ターゲット変数の種類に基づいて、決定木はXNUMXつのタイプに分類されます。
- カテゴリ変数:目標変数がカテゴリ変数である決定木。
- 連続変数:目標変数が連続である決定木。
4.ランダムフォレスト
ランダムフォレスト法は、次の機械学習手法であり、分類と回帰の問題で広く使用されている教師あり機械学習アルゴリズムです。 これも、決定木に似たツリーベースの方法です。
木の森、または多くの決定木は、ランダムフォレスト法によって判断を下すために使用されます。 分類タスクを処理する場合、ランダムフォレスト法では、連続変数を含むデータセットを使用して回帰タスクを処理する際に、カテゴリ変数を使用しました。
アンサンブル、つまり多くのモデルの混合は、ランダムフォレスト法が行うことです。つまり、予測はXNUMXつだけではなくモデルのグループを使用して行われます。
最新の機械学習システムの大部分を構成する分類と回帰の両方の問題に使用できることは、ランダムフォレストの重要な利点です。
EnsembleではXNUMXつの異なる戦略が使用されています。
- バギング:これを行うことにより、トレーニングデータセットに対してより多くのデータが生成されます。 予測の変動を少なくするために、これが行われます。
- ブースティングとは、連続するモデルを構築することにより、弱い学習者と強い学習者を組み合わせて、最高の精度で最終的なモデルを作成するプロセスです。
5.ナイーブベイズ
バイナリ(XNUMXクラス)およびマルチクラス分類の問題は、ナイーブベイズ手法を使用して解決できます。 バイナリまたはカテゴリの入力値を使用してメソッドを説明すると、最も簡単に把握できます。 単純ベイズ分類器によって行われた仮定は、クラス内のXNUMXつの機能の存在は、他の機能の存在とは関係がないということです。
上記の式は次のことを示しています。
- P(H):仮説Hが正しい可能性。 事前確率はこれと呼ばれます。
- P(E):証拠の可能性
- P(E | H):仮説が証拠によって裏付けられている可能性。
- P(H | E):証拠が与えられた場合、仮説が真である可能性。
単純ベイズ分類器は、これらの属性が相互に関連している場合でも、特定の結果の可能性を判断するときに、これらの各特性を個別に考慮します。 単純ベイズモデルは、構築が簡単で、大規模なデータセットに効果的です。
基本的でありながら、最も複雑な分類手法よりも優れたパフォーマンスを発揮することが知られています。 これは、単一の方法ではなく、すべてベイズの定理に基づくアルゴリズムのコレクションです。
6.K最近傍法
K最近傍法(kNN)手法は、分類と回帰の問題に対処するために使用できる教師あり機械学習のサブセットです。 KNNアルゴリズムは、同等のオブジェクトが近くにあることを前提としています。
志を同じくする人々の集まりとして思い出します。 kNNは、近接性、近接性、または距離を利用して、他のデータポイント間の類似性の概念を利用します。 最も近いラベル付けされた観測可能なデータポイントに基づいて見えないデータにラベルを付けるために、数学的方法を使用して、グラフ上のポイント間の分離を決定します。
最も近い比較可能なスポットを特定するには、データポイント間の距離を決定する必要があります。 これには、ユークリッド距離、ハミング距離、マンハッタン距離、ミンコフスキー距離などの距離測定を使用できます。 Kは最近傍数として知られており、多くの場合、奇数です。
KNNは、分類と回帰の問題に適用できます。 KNNが回帰問題に使用されるときに行われる予測は、K最類似の発生の平均または中央値に基づいています。
KNNに基づく分類アルゴリズムの結果は、K個の最も類似した発生の中で最も頻度が高いクラスとして決定できます。 すべてのインスタンスは基本的にクラスに投票し、予測は最も多くの票を獲得したクラスに属します。
7.K-means
これは、クラスタリングの問題に対処する教師なし学習の手法です。 データセットは、各クラスターのデータポイントが同種であり、他のクラスターのデータポイントとは異なるように、特定の数のクラスターに分割されます(Kと呼びます)。
K-meansクラスタリング方法論:
- 各クラスターについて、K-meansアルゴリズムはk個の重心または点を選択します。
- 最も近い重心またはKクラスターを使用して、各データポイントがクラスターを形成します。
- 現在、すでに存在するクラスターメンバーに応じて、新しい重心が生成されます。
- 各データポイントの最も近い距離は、これらの更新された重心を使用して計算されます。 重心が変化しなくなるまで、このプロセスが繰り返されます。
より速く、より信頼性が高く、理解しやすいです。 問題がある場合、k-meansの適応性により調整が簡単になります。 データセットが互いに異なるか、十分に分離されている場合、最良の結果が得られます。 不安定なデータや外れ値を管理することはできません。
8.サポートベクターマシン
SVM手法を使用してデータを分類する場合、生データはn次元空間にドットとして表示されます(nは使用している特徴の数です)。 各フィーチャの値が特定の座標に接続されるため、データを簡単に分類できます。
データを分離してグラフに配置するには、分類子と呼ばれる線を使用します。 このアプローチでは、各データポイントをn次元空間内のポイントとしてプロットします。ここで、nは所有するフィーチャの数であり、各フィーチャの値は特定の座標値です。
ここで、データを異なる方法で分類されたXNUMXつのデータセットに分割する線を見つけます。 XNUMXつのグループのそれぞれの最も近いポイントからの距離は、この線に沿って最も離れています。
最も近いXNUMXつのポイントは、上記の例の線から最も離れているポイントであるため、データを異なる方法で分類されたXNUMXつのグループに分割する線が中央の線になります。 私たちの分類子はこの行です。
9.次元削減
次元削減のアプローチを使用すると、トレーニングデータの入力変数が少なくなる可能性があります。 簡単に言うと、機能セットのサイズを縮小するプロセスを指します。 データセットに100列あると想像してみましょう。 次元削減により、その量は20列に減少します。
モデルは自動的に高度になり、機能の数が増えるにつれて過剰適合のリスクが高くなります。 より大きな次元のデータを処理する際の最大の問題は、「次元の呪い」と呼ばれるものです。これは、データに過剰な数の特性が含まれている場合に発生します。
次の要素を使用して、次元削減を実現できます。
- 適切な特性を見つけて選択するために、特徴選択が採用されています。
- 既存の機能を使用して、機能エンジニアリングは手動で新しい機能を作成します。
まとめ
教師なしまたは教師あり機械学習の両方が可能です。 データが少なく、トレーニング用に適切にタグ付けされている場合は、教師あり学習を選択してください。
大規模なデータセットは、教師なし学習を使用して実行し、より良い結果を生み出すことがよくあります。 深い学習 すぐに利用できる大規模なデータ収集がある場合は、メソッドが最適です。
強化学習 および深層強化学習は、あなたが研究したトピックの一部です。 ニューラル ネットワークの特性、用途、および制約が明確になりました。 最後になりましたが、独自の作成に関しては、さまざまなプログラミング言語、IDE、およびプラットフォームのオプションを検討しました。 機械学習モデル.
次に行う必要があるのは、それぞれの学習と使用を開始することです。 機械学習 アプローチ。 主題が広くても、その深さに集中すれば、どんなトピックでも数時間で理解できます。 各主題は、他の主題から独立しています。
一度にXNUMXつの問題について考え、それを研究し、実践し、選択した言語を使用してアルゴリズムを実装する必要があります。
コメントを残す