目次[隠す][見せる]
- 1. 機械学習、人工知能、深層学習の違いを説明してください。
- 2. さまざまな種類の機械学習について説明してください。
- 3. バイアスと分散のトレードオフとは?
- 4. 機械学習アルゴリズムは時間の経過とともに大幅に進化しました。 与えられたデータセットを利用するのに適切なアルゴリズムをどのように選択するのでしょうか?
- 5. 共分散と相関はどのように異なりますか?
- 6. 機械学習において、クラスタリングとは何を意味しますか?
- 7. 優先する機械学習アルゴリズムは何ですか?
- 8. 機械学習における線形回帰: それは何ですか?
- 9. KNN と k-means クラスタリングの違いを説明してください。
- 10. あなたにとって「選択バイアス」とは何ですか?
- 11. ベイズの定理とは正確には何ですか?
- 12. 機械学習モデルでは、「トレーニング セット」と「テスト セット」とは何ですか?
- 13. 機械学習における仮説とは?
- 14. 機械学習のオーバーフィッティングとは何を意味し、どのように防ぐことができますか?
- 15. 単純ベイズ分類器とは正確には何ですか?
- 16. コスト関数と損失関数の意味は?
- 17. 生成モデルと識別モデルの違いは何ですか?
- 18. タイプ I とタイプ II のエラーの違いを説明してください。
- 19. 機械学習におけるアンサンブル学習手法とは?
- 20. パラメトリック モデルとは正確には何ですか? 例を挙げてください。
- 21. 協調フィルタリングについて説明してください。 コンテンツベースのフィルタリングと同様に?
- 22.時系列とは正確には何を意味しますか?
- 23. 勾配ブースティングとランダム フォレスト アルゴリズムの違いを説明してください。
- 24. なぜ混同行列が必要なのですか? それは何ですか?
- 25. 主成分分析とは正確には何ですか?
- 26. なぜ成分ローテーションが PCA (主成分分析) にとって非常に重要なのですか?
- 27.正則化と正規化は互いにどのように異なりますか?
- 28. 正規化と標準化は互いにどのように異なりますか?
- 29.「分散インフレ係数」とは正確にはどういう意味ですか?
- 30. トレーニング セットのサイズに基づいて、どのように分類子を選択しますか?
- 31.機械学習で「怠惰な学習者」と呼ばれるアルゴリズムはどれですか?その理由は?
- 32. ROC 曲線と AUC とは何ですか?
- 33. ハイパーパラメータとは? モデル パラメータとの違いは何ですか?
- 34. F1 スコア、リコール、および精度とは何を意味しますか?
- 35. 交差検証とは正確には何ですか?
- 36. モデルに有意な分散があることを発見したとしましょう。 この状況を処理するのに最も適しているアルゴリズムは何だと思いますか?
- 37.リッジ回帰とラッソ回帰の違いは何ですか?
- 38. モデルのパフォーマンスとモデルの精度のどちらがより重要ですか? どちらを支持しますか?なぜそれを支持しますか?
- 39.不等式のあるデータセットをどのように管理しますか?
- 40.ブースティングとバギングをどのように区別できますか?
- 41.帰納的学習と演繹的学習の違いを説明してください。
- まとめ
企業は、人工知能 (AI) や機械学習などの最先端技術を利用して、個人が情報やサービスにアクセスしやすくなっています。
これらのテクノロジーは、銀行、金融、小売、製造、医療など、さまざまな業界で採用されています。
AI を利用する最も求められている組織の役割の XNUMX つは、データ サイエンティスト、人工知能エンジニア、機械学習エンジニア、およびデータ アナリストです。
この投稿では、さまざまな方法について説明します 機械学習 基本的なものから複雑なものまで、面接の質問を掲載しており、理想の仕事を探す際に尋ねられる可能性のある質問に備えることができます。
1. 機械学習、人工知能、深層学習の違いを説明してください。
人工知能は、さまざまな機械学習と深層学習のアプローチを採用しており、コンピューター システムがロジックとルールを備えた人間のような知能を利用してタスクを実行できるようにします。
機械学習では、さまざまな統計と深層学習のアプローチを使用して、機械が以前のパフォーマンスから学習し、人間の監督なしで特定のタスクを自力で実行できるようにします。
ディープ ラーニングは、ソフトウェアがそれ自体から学習し、音声や画像の認識などのさまざまな商用機能を実行できるようにするアルゴリズムの集まりです。
多層構造を公開するシステム ニューラルネットワーク 膨大な量の学習用データに対して、深層学習を行うことができます。
2. さまざまな種類の機械学習について説明してください。
機械学習には、大きく分けて次の XNUMX つのタイプがあります。
- 教師あり学習: モデルは、教師あり機械学習でラベル付けされたデータまたは履歴データを使用して予測または判断を作成します。 意味を高めるためにタグ付けまたはラベル付けされたデータセットは、ラベル付けされたデータと呼ばれます。
- 教師なし学習: 教師なし学習用のラベル付きデータはありません。 モデルは、入力データからパターン、奇妙さ、および相関関係を見つけることができます。
- 強化学習: モデルは 強化を使って学ぶ 学習と、以前の行動に対して得た報酬。
3. バイアスと分散のトレードオフとは?
オーバーフィッティングは、モデルがデータに適合する度合いであるバイアスの結果です。 バイアスは、誤った、または単純すぎる仮定によって引き起こされます。 機械学習アルゴリズム.
分散とは、ML アルゴリズムの複雑さが原因で発生するミスを指します。これにより、トレーニング データの大きな分散やオーバーフィッティングに対する感度が生じます。
分散は、入力に応じてモデルがどの程度変化するかです。
言い換えれば、基本モデルは非常に偏りがありますが、安定しています (分散が低い)。 オーバーフィッティングは複雑なモデルの問題ですが、それでもモデルの現実を捉えています (低バイアス)。
高変動と高バイアスの両方を防ぐために、バイアスと分散の間のトレードオフが最適なエラー削減に必要です。
4. 機械学習アルゴリズムは時間の経過とともに大幅に進化しました。 与えられたデータセットを利用するのに適切なアルゴリズムをどのように選択するのでしょうか?
利用すべき機械学習手法は、特定のデータセット内のデータの種類にのみ依存します。
データが線形の場合、線形回帰が使用されます。 データが非線形性を示している場合、バギング方法のパフォーマンスは向上します。 商用目的でデータを評価または解釈する必要がある場合は、決定木または SVM を利用できます。
データセットに写真、ビデオ、オーディオが含まれている場合、ニューラル ネットワークは正確な回答を得るのに役立つ場合があります。
特定の状況やデータの収集のためのアルゴリズムの選択は、XNUMX つの尺度だけで行うことはできません。
最適な手法を開発するためには、まず探索的データ分析 (EDA) を使用してデータを調べ、データセットを利用する目的を理解する必要があります。
5. 共分散と相関はどのように異なりますか?
共分散は、XNUMX つの変数が互いにどのように関連しているか、および一方が他方の変化に応じてどのように変化するかを評価します。
結果が正の場合は、変数間に直接的な関連性があり、他のすべての条件が一定であると仮定すると、基本変数の増加または減少に伴って変数が増加または減少することを示します。
相関は、1 つの確率変数間のリンクを測定し、0、1、および -XNUMX の XNUMX つの異なる値のみを持ちます。
6. 機械学習において、クラスタリングとは何を意味しますか?
データ ポイントをグループ化する教師なし学習方法は、クラスタリングと呼ばれます。 データ ポイントのコレクションを使用して、クラスタリング手法を適用できます。
この戦略を使用して、機能に従ってすべてのデータ ポイントをグループ化できます。
同じカテゴリに分類されるデータ ポイントの特徴と品質は似ていますが、別のグループに分類されるデータ ポイントの特徴と品質は異なります。
このアプローチは、統計データの分析に使用できます。
7. 優先する機械学習アルゴリズムは何ですか?
この質問では、あなたの好みとユニークな才能、および多数の機械学習技術に関する包括的な知識を示すチャンスがあります。
以下に、考慮すべき典型的な機械学習アルゴリズムをいくつか示します。
- 線形回帰
- ロジスティック回帰
- ナイーブベイズ
- 決定木
- Kは
- ランダム フォレスト アルゴリズム
- K最近傍 (KNN)
8. 機械学習における線形回帰: それは何ですか?
教師あり機械学習アルゴリズムは線形回帰です。
これは、予測分析で使用され、従属変数と独立変数の間の線形接続を決定します。
線形回帰の式は次のとおりです。
Y = A + BX
ここで、
- 入力変数または独立変数は X と呼ばれます。
- 従属変数または出力変数は Y です。
- X の係数は b で、切片は a です。
9. KNN と k-means クラスタリングの違いを説明してください。
主な違いは、KNN (分類法、教師あり学習) はラベル付きポイントを必要とするのに対し、k-means (クラスタリング アルゴリズム、教師なし学習) は必要ないことです。
K-Nearest Neighbors を使用して、ラベル付きデータをラベルなしポイントに分類できます。 K-means クラスタリングでは、ポイント間の平均距離を使用して、ラベルのないポイントをグループ化する方法を学習します。
10. あなたにとって「選択バイアス」とは何ですか?
実験のサンプリング フェーズの偏りは、統計の不正確さによるものです。
不正確さの結果として、実験で XNUMX つのサンプル グループが他のグループよりも頻繁に選択されます。
選択バイアスが認められない場合、誤った結論につながる可能性があります。
11. ベイズの定理とは正確には何ですか?
他の確率を知っている場合、ベイズの定理を使用して確率を決定できます。 言い換えれば、事前情報に基づいて発生の事後確率を提供します。
条件付き確率を推定するための適切な方法は、この定理によって提供されます。
分類予測モデリングの問題を開発し、モデルをトレーニングに適合させる場合 機械学習のデータセット、ベイズの定理が適用されます(つまり、単純ベイズ、ベイズ最適分類器)。
12. 機械学習モデルでは、「トレーニング セット」と「テスト セット」とは何ですか?
トレーニング セット:
- トレーニング セットは、分析と学習のためにモデルに送信されるインスタンスで構成されます。
- これは、モデルのトレーニングに使用されるラベル付きデータです。
- 通常、合計データの 70% がトレーニング データセットとして使用されます。
テスト セット:
- テスト セットは、モデルの仮説生成の精度を評価するために使用されます。
- ラベル付きデータなしでテストし、ラベルを使用して結果を確認します。
- 残りの 30% はテスト データセットとして使用されます。
13. 機械学習における仮説とは?
機械学習を使用すると、既存のデータセットを使用して、入力と出力をリンクする特定の機能をよりよく理解できます。 これは関数近似として知られています。
この場合、未知のターゲット関数に近似を使用して、特定の状況に基づいて考えられるすべての観測値を可能な限り最良の方法で転送する必要があります。
機械学習における仮説とは、ターゲット関数を推定し、適切な入力から出力へのマッピングを完了するのに役立つモデルです。
アルゴリズムの選択と設計により、モデルで表現できる仮説の空間を定義できます。
単一の仮説の場合、小文字の h (h) が使用されますが、検索される仮説空間全体には大文字の h (H) が使用されます。 これらの表記について簡単に説明します。
- 仮説 (h) は、入力から出力へのマッピングを容易にする特定のモデルであり、後で評価と予測に使用できます。
- 仮説セット (H) は、入力を出力にマッピングするために使用できる仮説の検索可能な空間です。 問題のフレーミング、モデル、およびモデル構成は、一般的な制限の例です。
14. 機械学習のオーバーフィッティングとは何を意味し、どのように防ぐことができますか?
マシンが不十分なデータセットから学習しようとすると、過剰適合が発生します。
その結果、オーバーフィッティングはデータ量と反比例の関係にあります。 クロス検証アプローチにより、小さなデータセットのオーバーフィッティングを回避できます。 この方法では、データセットが XNUMX つの部分に分割されます。
テストとトレーニング用のデータセットは、これら XNUMX つの部分で構成されます。 トレーニング データセットはモデルの作成に使用され、テスト データセットはさまざまな入力を使用してモデルを評価するために使用されます。
これが過学習を防ぐ方法です。
15. 単純ベイズ分類器とは正確には何ですか?
単純ベイズ分類器は、さまざまな分類方法で構成されています。 これらの分類子として知られる一連のアルゴリズムはすべて、同じ基本的な考え方に基づいて機能します。
単純ベイズ分類器による仮定は、XNUMX つの特徴の有無は、別の特徴の有無とは関係がないということです。
言い換えれば、これは、各データセット属性が同等に重要で独立していると仮定するため、「ナイーブ」と呼ばれるものです。
分類は単純ベイズ分類器を使用して行われます。 独立性の前提が真の場合、それらは使用が簡単で、より複雑な予測子よりも優れた結果を生成します。
テキスト分析、スパム フィルタリング、レコメンデーション システムで使用されます。
16. コスト関数と損失関数の意味は?
「損失関数」という用語は、XNUMX つのデータのみを考慮した場合の損失を計算するプロセスを指します。
逆に、コスト関数を使用して、多数のデータの合計ミス数を決定します。 大きな違いはありません。
つまり、コスト関数はトレーニング データセット全体の差を集計するのに対し、損失関数は XNUMX つのレコードの実際の値と予測値の差を取得するように設計されています。
17. 生成モデルと識別モデルの違いは何ですか?
識別モデルは、複数のデータ カテゴリ間の違いを学習します。 生成モデルは、さまざまなデータ型を取り上げます。
分類問題では、判別モデルが他のモデルよりも優れていることがよくあります。
18. タイプ I とタイプ II のエラーの違いを説明してください。
偽陽性はタイプ I エラーのカテゴリに分類されますが、偽陰性はタイプ II エラーに分類されます (実際には何も起こらなかったと主張する)。
19. 機械学習におけるアンサンブル学習手法とは?
アンサンブル学習と呼ばれる手法は、多くの機械学習モデルを組み合わせて、より強力なモデルを生成します。
モデルはさまざまな理由で変更できます。 いくつかの原因は次のとおりです。
- さまざまな集団
- さまざまな仮説
- さまざまなモデリング方法
モデルのトレーニング データとテスト データの使用中に問題が発生します。 バイアス、分散、および還元不可能なエラーが、この間違いのタイプとして考えられます。
ここで、モデルのバイアスと分散の間のこのバランスをバイアスと分散のトレードオフと呼び、常に存在する必要があります。 このトレードオフは、アンサンブル学習の使用によって達成されます。
さまざまなアンサンブル アプローチが利用可能ですが、多くのモデルを組み合わせるには XNUMX つの一般的な戦略があります。
- バギングと呼ばれるネイティブ アプローチでは、トレーニング セットを使用して追加のトレーニング セットを生成します。
- より高度な手法であるブースティング: バギングと同様に、トレーニング セットの理想的な重み付け式を見つけるためにブースティングが使用されます。
20. パラメトリック モデルとは正確には何ですか? 例を挙げてください。
パラメトリック モデルのパラメーターの数は限られています。 データを予測するために知っておく必要があるのは、モデルのパラメーターだけです。
典型的な例として、ロジスティック回帰、線形回帰、および線形 SVM があります。 ノンパラメトリック モデルは、無制限の数のパラメーターを含めることができるため、柔軟性があります。
データ予測には、モデルのパラメーターと観測データのステータスが必要です。 典型的な例を次に示します。 トピック モデル、決定木、および k 最近傍。
21. 協調フィルタリングについて説明してください。 コンテンツベースのフィルタリングと同様に?
カスタマイズされたコンテンツの提案を作成するための実証済みの方法は、協調フィルタリングです。
協調フィルタリングと呼ばれるレコメンデーション システムの形式は、ユーザーの好みと共通の関心のバランスを取ることによって、新鮮な素材を予告します。
コンテンツベースのレコメンデーション システムが考慮するのは、ユーザーの好みだけです。 ユーザーの以前の選択に照らして、関連資料から新しい推奨事項が提供されます。
22.時系列とは正確には何を意味しますか?
時系列とは、数値を昇順に並べたものです。 所定の期間にわたって、選択されたデータ ポイントの動きを監視し、定期的にデータ ポイントをキャプチャします。
時系列の最小時間入力または最大時間入力はありません。
時系列は、アナリストが固有の要件に従ってデータを分析するために頻繁に使用されます。
23. 勾配ブースティングとランダム フォレスト アルゴリズムの違いを説明してください。
ランダム フォレスト:
- 多数の決定木が最後にプールされ、ランダム フォレストとして知られています。
- 勾配ブースティングでは各ツリーが他のツリーとは独立して作成されますが、ランダム フォレストでは各ツリーが一度に XNUMX つずつ作成されます。
- マルチクラス 物体検出 ランダムフォレストでうまく機能します。
勾配ブースティング:
- ランダム フォレストはプロセスの最後に決定木に参加しますが、勾配ブースティング マシンはそれらを最初から結合します。
- パラメーターが適切に調整されている場合、勾配ブースティングは結果の点でランダム フォレストよりも優れていますが、モデルが過適合になる可能性があるため、データ セットに多くの外れ値、異常、またはノイズがある場合は賢明な選択ではありません。
- リアルタイムのリスク評価のように不均衡なデータがある場合、勾配ブースティングはうまく機能します。
24. なぜ混同行列が必要なのですか? それは何ですか?
混同行列と呼ばれるテーブル (誤差行列とも呼ばれます) は、実際の値がわかっている一連のテスト データに対して分類モデルまたは分類子がどの程度うまく機能するかを示すために広く使用されています。
モデルやアルゴリズムがどのように機能するかを確認できます。 これにより、さまざまなコース間の誤解を簡単に見つけることができます。
これは、モデルまたはアルゴリズムがどれだけうまく実行されているかを評価する方法として機能します。
分類モデルの予測は、混同マトリックスにコンパイルされます。 各クラス ラベルのカウント値を使用して、正しい予測と正しくない予測の合計数を分類しました。
分類子によって発生した障害と、分類子によって引き起こされたさまざまな種類のエラーの詳細を提供します。
25. 主成分分析とは正確には何ですか?
相互に相関する変数の数を最小限に抑えることで、データ コレクションの次元を最小限に抑えることが目標です。 しかし、可能な限り多様性を維持することが重要です。
変数は、主成分と呼ばれるまったく新しい一連の変数に変更されます。
これらの PC は共分散行列の固有ベクトルであるため、直交しています。
26. なぜ成分ローテーションが PCA (主成分分析) にとって非常に重要なのですか?
回転は、各コンポーネントによって取得された分散間の分離を最適化し、コンポーネントの解釈をより簡単にするため、PCA では非常に重要です。
コンポーネントが回転されていない場合、コンポーネントのバリエーションを表現するために拡張コンポーネントが必要です。
27.正則化と正規化は互いにどのように異なりますか?
正規化:
正規化中にデータが変更されます。 特に低いものから高いものまで、スケールが大幅に異なる場合は、データを正規化する必要があります。 基本的な統計がすべて互換性を持つように、各列を調整します。
精度が失われないようにするために、これは便利です。 ノイズを無視して信号を検出することは、モデル トレーニングの目的の XNUMX つです。
エラーを減らすためにモデルに完全な制御が与えられている場合、オーバーフィッティングの可能性があります。
正則化:
正則化では、予測関数が変更されます。 これは、複雑なフィッティング関数よりも単純なフィッティング関数を優先する正則化による制御の対象となります。
28. 正規化と標準化は互いにどのように異なりますか?
特徴のスケーリングに最も広く使用されている XNUMX つの手法は、正規化と標準化です。
正規化:
- [0,1] の範囲に合わせてデータを再スケーリングすることは、正規化と呼ばれます。
- すべてのパラメーターが同じ正のスケールを持つ必要がある場合、正規化は役に立ちますが、データ セットの外れ値は失われます。
正則化:
- データは、標準化プロセスの一環として、平均が 0、標準偏差が 1 になるように再スケーリングされます (単位分散)
29.「分散インフレ係数」とは正確にはどういう意味ですか?
独立変数が XNUMX つのみのモデルの分散に対するモデルの分散の比率は、変動膨張係数 (VIF) として知られています。
VIF は、いくつかの回帰変数のセットに存在する多重共線性の量を推定します。
モデルの分散 (VIF) 独立変数分散が XNUMX つのモデル
30. トレーニング セットのサイズに基づいて、どのように分類子を選択しますか?
オーバーフィッティングの可能性が低いため、バイアスが高く、分散が小さいモデルは短いトレーニング セットのパフォーマンスが高くなります。 Naive Bayes はその XNUMX つの例です。
大規模なトレーニング セットでより複雑な相互作用を表すには、バイアスが低く分散が大きいモデルが適しています。 ロジスティック回帰が良い例です。
31.機械学習で「怠惰な学習者」と呼ばれるアルゴリズムはどれですか?その理由は?
遅い学習者である KNN は、機械学習アルゴリズムです。 K-NN は、トレーニング データから機械学習した値や変数を学習するのではなく、分類するたびに動的に距離を計算するため、トレーニング データセットを記憶します。
これにより、K-NN は怠惰な学習者になります。
32. ROC 曲線と AUC とは何ですか?
すべてのしきい値での分類モデルのパフォーマンスは、ROC 曲線によってグラフィカルに表されます。 真陽性率と偽陽性率の基準があります。
簡単に言えば、ROC 曲線の下の領域は AUC (Area Under the ROC Curve) として知られています。 (0,0) から AUC までの ROC 曲線の 1,1 次元領域が測定されます (XNUMX)。 バイナリ分類モデルを評価するために、パフォーマンス統計として使用されます。
33. ハイパーパラメータとは? モデル パラメータとの違いは何ですか?
モデルの内部変数は、モデル パラメーターと呼ばれます。 トレーニング データを使用して、パラメーターの値を概算します。
モデルには不明ですが、ハイパーパラメーターは変数です。 データから値を決定することはできないため、モデル パラメータの計算に頻繁に使用されます。
34. F1 スコア、リコール、および精度とは何を意味しますか?
混乱測定は、分類モデルの有効性を測定するために使用される測定基準です。 次のフレーズを使用すると、混同メトリックをより適切に説明できます。
TP: True Positives – これらは、適切に予測された正の値です。 これは、予測されたクラスと実際のクラスの値が両方とも正であることを示唆しています。
TN: True Negatives - これらは、正確に予測された不利な値です。 実際のクラスの値と予想されるクラスの値の両方が負であることを示唆しています。
これらの値 (偽陽性と偽陰性) は、実際のクラスが予想されるクラスと異なる場合に発生します。
今、
実際のクラスで行われたすべての観察に対する真陽性率 (TP) の比率は再現率と呼ばれ、感度とも呼ばれます。
再現率は TP/(TP+FN) です。
精度は陽性予測値の尺度であり、モデルが実際に予測した陽性の数と、モデルが正確に予測した正しい陽性の数を比較します。
精度は TP/(TP + FP)
理解するのが最も簡単なパフォーマンス メトリックは精度です。これは、すべての観測に対する適切に予測された観測の割合です。
精度は (TP+TN)/(TP+FP+FN+TN) に等しくなります。
F1 スコアを提供するために、Precision と Recall が加重平均されます。 結果として、このスコアは偽陽性と偽陰性の両方を考慮します。
F1 は精度よりも価値があることがよくあります。特にクラス分布が不均等な場合は、直観的には精度ほど簡単に理解できない場合でもそうです。
偽陽性と偽陰性のコストが同程度の場合、最高の精度が得られます。 偽陽性と偽陰性に関連するコストが大幅に異なる場合は、Precision と Recall の両方を含めることをお勧めします。
35. 交差検証とは正確には何ですか?
機械学習におけるクロス検証と呼ばれる統計的リサンプリング アプローチでは、いくつかのデータセット サブセットを使用して、多数のラウンドにわたって機械学習アルゴリズムをトレーニングおよび評価します。
モデルのトレーニングに使用されなかったデータの新しいバッチは、クロス検証を使用してテストされ、モデルがそれをどの程度予測しているかを確認します。 交差検証により、データのオーバーフィッティングが防止されます。
K-Fold 最もよく使用されるリサンプリング方法は、データセット全体を同じサイズの K 個のセットに分割します。 これはクロスバリデーションと呼ばれます。
36. モデルに有意な分散があることを発見したとしましょう。 この状況を処理するのに最も適しているアルゴリズムは何だと思いますか?
高い変動性の管理
変動が大きい問題には、バギング手法を使用する必要があります。
ランダム データの繰り返しサンプリングは、データをサブグループに分割するバギング アルゴリズムによって使用されます。 データが分割されると、ランダム データと特定のトレーニング手順を利用してルールを生成できます。
その後、ポーリングを使用してモデルの予測を組み合わせることができます。
37.リッジ回帰とラッソ回帰の違いは何ですか?
広く使用されている 1 つの正則化方法は、Lasso (L2 とも呼ばれる) と Ridge (LXNUMX とも呼ばれる) 回帰です。 これらは、データの過剰適合を防ぐために使用されます。
最適な解を見つけて複雑さを最小限に抑えるために、これらの手法を使用して係数を罰します。 係数の絶対値の合計にペナルティを課すことにより、なげなわ回帰が機能します。
リッジ回帰または L2 回帰のペナルティ関数は、係数の二乗和から導出されます。
38. モデルのパフォーマンスとモデルの精度のどちらがより重要ですか? どちらを支持しますか?なぜそれを支持しますか?
これは欺瞞的な質問であるため、まずモデル パフォーマンスとは何かを理解する必要があります。 パフォーマンスが速度として定義される場合、それはアプリケーションの種類に依存します。 リアルタイムの状況に関係するアプリケーションでは、重要なコンポーネントとして高速が必要になります。
たとえば、クエリ結果が届くまでに時間がかかりすぎると、最良の検索結果の価値が低下します。
正確性よりも精度と再現率を優先する必要がある理由の正当化としてパフォーマンスが使用される場合、F1 スコアは、不均衡なデータ セットのビジネス ケースを実証する上で正確性よりも役立ちます。
39.不等式のあるデータセットをどのように管理しますか?
不均衡なデータセットは、サンプリング手法の恩恵を受けることができます。 サンプリングは、アンダーサンプリングまたはオーバーサンプリングのいずれかの方法で実行できます。
アンダー サンプリングを使用すると、マジョリティ クラスのサイズをマイノリティ クラスと一致するように縮小できます。これにより、ストレージと実行時の実行速度が向上しますが、貴重なデータが失われる可能性もあります。
オーバーサンプリングによる情報損失の問題を解決するために、マイノリティ クラスをアップサンプリングします。 それにもかかわらず、これによりオーバーフィッティングの問題が発生します。
追加の戦略は次のとおりです。
- クラスタベースのオーバー サンプリング - この状況では、少数派クラスと多数派クラスのインスタンスが個別に K-means クラスタリング手法の対象となります。 これは、データセット クラスターを見つけるために行われます。 次に、すべてのクラスが同じサイズになり、クラス内のすべてのクラスターが同じ数のインスタンスを持つように、各クラスターがオーバーサンプリングされます。
- SMOTE:Synthetic Minority Over-sampling Technique - マイノリティ クラスからのデータのスライスが例として使用され、その後、それに匹敵する追加の人工インスタンスが生成され、元のデータセットに追加されます。 この方法は、数値データ ポイントに適しています。
40.ブースティングとバギングをどのように区別できますか?
アンサンブル テクニックには、バギングとブースティングとして知られるバージョンがあります。
バギング-
変動の大きいアルゴリズムの場合、バギングは分散を下げるために使用される手法です。 バイアスがかかりやすい分類子のファミリーの XNUMX つに、決定木ファミリーがあります。
デシジョン ツリーがトレーニングされるデータの種類は、パフォーマンスに大きな影響を与えます。 このため、非常に高度な微調整を行ったとしても、結果の一般化を得るのがはるかに難しい場合があります。
デシジョン ツリーのトレーニング データが変更されると、結果は大幅に異なります。
その結果、バギングが使用され、多くの決定木が作成され、それぞれが元のデータのサンプルを使用してトレーニングされ、最終結果はこれらすべての異なるモデルの平均になります。
ブースト:
ブースティングは、各弱分類器がその強力な分類器の欠陥を補う n 弱分類器システムを使用して予測を行う手法です。 特定のデータセットでパフォーマンスが悪い分類器を「弱い分類器」と呼びます。
ブースティングは明らかにアルゴリズムではなくプロセスです。 ロジスティック回帰と浅い決定木は、弱分類器の一般的な例です。
Adaboost、Gradient Boosting、および XGBoost は、最も一般的な XNUMX つのブースト アルゴリズムですが、他にも多数のアルゴリズムがあります。
41.帰納的学習と演繹的学習の違いを説明してください。
観察された一連の例から例によって学習する場合、モデルは帰納的学習を使用して一般化された結論に到達します。 一方、演繹学習では、モデルは独自の結果を形成する前に結果を使用します。
帰納的学習は、観察から結論を導き出すプロセスです。
演繹学習は、推論に基づいて観察結果を作成するプロセスです。
まとめ
おめでとう! これらは、あなたが今答えを知っている、機械学習に関する面接の質問のトップ 40 以上です。 データサイエンスと 人工知能 テクノロジーの進歩に伴い、職業の需要は今後も高まるでしょう。
これらの最先端技術に関する知識を更新し、スキルセットを向上させた候補者は、競争力のある給与でさまざまな雇用の可能性を見つけることができます。
広く聞かれる機械学習のインタビューの質問のいくつかに答える方法をしっかりと理解したので、インタビューへの回答に進むことができます。
目標に応じて、次の手順を実行します。 Hashdork's にアクセスして面接の準備をする インタビューシリーズ.
コメントを残す