より多くの業界がアルゴリズムの力を使用して操作を自動化し、選択を行うにつれて、機械学習は現代の世界がどのように機能するかの重要な要素になりつつあります。
機械学習のバイアスの問題は、機械学習モデルがさまざまな組織の意思決定プロセスに統合されるときに考慮に入れることが重要です。
機械学習モデルを使用するすべての組織にとって、アルゴリズムによって生成された選択が公平で偏りがないことを保証することが目標です。 モデルのアウトプットが信頼され、公平であると見なされるようにするには、次のことを認識して対処することが重要です。 機械学習 バイアス。
これは、モデルの説明可能性の問題、または機械学習モデルがどのように結論に達したかを人がいかに簡単に把握できるかという問題に関連しています。 機械学習モデルがマッピングして学習する傾向とパターンは、直接的な人間の開発ではなく、データ自体から得られます。
機械学習のバイアスは、制御およびチェックされていない場合、さまざまな理由で発生する可能性があります。 モデルがデプロイされると、トレーニング データ サンプルに正確に反映されていない状況に頻繁に遭遇します。
モデルは、この代表的ではないトレーニング データ セットに対してオーバーフィットしている可能性があります。 トレーニング データの品質が優れているにもかかわらず、モデルは、より広範な文化的影響に起因する歴史的バイアスの影響を受けている可能性があります。
バイアスのあるモデルが実装されると、特定のグループに有利になったり、特定のデータ サブセットの精度が低下したりする可能性があります。 これにより、特定の個人グループを不当に罰する判決が下される可能性があり、現実の世界に悪影響を及ぼす可能性があります。
この記事では、機械学習バイアスについて、その正体、発見方法、危険性などについて説明します。
では、機械学習バイアスとは何ですか?
機械学習プロセス中に行われた誤った仮定の結果として体系的に偏った出力を生成するアルゴリズムは、機械学習バイアス、アルゴリズム バイアスまたは AI バイアスとも呼ばれます。
機械学習バイアスは、特定のデータ セットまたはデータのサブセットを好むモデルの傾向です。 これは、代表的でないトレーニング データセットによって頻繁に発生します。 特定のデータ コレクションでは、偏ったモデルのパフォーマンスが低下し、精度が損なわれます。
現実世界の設定では、これは偏ったトレーニング データにより、モデルの出力が特定の人種、人口統計、または性別を支持する結果になったことを意味する可能性があります。
その結果、機械学習のアウトプットは不当または差別的なものになる可能性があります。 非代表研修 データセットはバイアスに寄与する可能性があります 機械学習で。
トレーニング データが特定のデータ グループを欠いているか、過度に代表している場合、結果として得られるモデルは、他の過小評価されたカテゴリに偏る可能性があります。 これは、トレーニング データ サンプルが実際の展開環境と正確に一致しない場合に発生する可能性があります。
ヘルスケア業界での機械学習は、患者データを既知の病気や病気と照合するために使用できますが、その代表的な例です。 モデルを適切に使用すれば、医療従事者の介入を迅速化できます。
ただし、偏見はありえます。 高齢患者の病気の可能性を予測するように求められた場合、モデルの構築に使用されるトレーニング データの大部分がより小さな年齢範囲の患者データで構成されている場合、モデルはうまく機能しません。
さらに、履歴統計は偏っている可能性があります。 たとえば、歴史的に従業員の大半は男性だったので、求職者をフィルタリングするようにトレーニングされたモデルは、男性の応募者を優先します。
機械学習の偏りは、両方のシナリオでモデルの精度に影響を与え、最悪の場合、差別的で不当な結論につながる可能性さえあります。
決定は慎重に検討して、バイアスがないことを確認する必要があります。 機械学習モデル ますます多くの手動操作を置き換えます。 その結果、どの組織のモデル ガバナンス プラクティスにも、機械学習バイアスの監視を含める必要があります。
さまざまな業界のさまざまな種類の仕事が、機械学習モデルによって完成されています。 今日、モデルはますます困難になるプロセスを自動化し、提案を生成するために使用されています。 この意思決定プロセスでは、バイアスとは、学習したバイアスに基づいて、モデルが特定のグループを別のグループよりも優先する可能性があることを意味します。
実際の結果を伴う危険な判断を下すために使用されると、これは深刻な影響を与える可能性があります. たとえば、ローンの申し込みを自動的に承認するために使用すると、偏ったモデルが特定の母集団に偏見を与える可能性があります。 あらゆる行動を検査または精査できる規制対象のビジネスでは、これは考慮すべき特に重要な要素です。
機械学習バイアスの種類
- アルゴリズムバイアス – これは、機械学習計算を駆動する計算を行うアルゴリズムにバグがある場合に発生します。
- サンプルバイアス – データが以前は 機械学習を訓練する モデルに問題がある場合、これが発生します。 この種のバイアスの場合、システムのトレーニングに使用されるデータの量または質が不十分です。 たとえば、トレーニング データが完全に女性の教師で構成されている場合、アルゴリズムはすべての教師が女性であると信じるようにトレーニングされます。
- 除外バイアス – これは、使用されているデータ セットに重要なデータ ポイントが存在しない場合に発生します。これは、モデラーが欠落しているデータ ポイントの重要性を認識できなかった場合に発生する可能性があります。
- 偏見バイアス – この例では、システムのトレーニングに使用されるデータが偏見、ステレオタイプ、誤った社会的仮定などの現実世界の偏見を反映しているため、機械学習自体に偏りがあります。 たとえば、男性の医師と女性の看護師だけが含まれるコンピューター システムに医療専門家に関するデータが含まれる場合、医療従事者に関する現実世界の性別のステレオタイプが永続化されます。
- 測定バイアス – 名前が示すように、このバイアスは、データの品質と、データの収集または評価に使用される方法に関する根本的な問題に起因します。 トレーニング データに含まれる体重が一貫して切り上げられている場合、体重を正確に評価するようにトレーニングされているシステムに偏りが生じます。満足している従業員の画像を使用して、職場環境を評価することを目的としたシステムをトレーニングすると、写真の従業員が知っていた場合に偏りが生じる可能性があります。彼らは幸福のために測定されていました。
機械学習のバイアスに寄与する要因は何ですか?
機械学習のバイアスには多くの理由がありますが、多くの場合、トレーニング データ自体のバイアスから発生します。 トレーニング データのバイアスには、潜在的な原因がいくつかあります。
最も明白な例はトレーニング データです。これは、展開されたシステムで見られる一般的ではない条件のサブセットです。 これは、あるカテゴリが過小評価されているか、別のカテゴリが不均衡な量であるトレーニング データである可能性があります。
これはサンプル バイアスと呼ばれ、無作為化されていないトレーニング データ コレクションに起因する可能性があります。 データの収集、分析、または分類に使用される方法、およびデータの歴史的ルーツはすべて、データ自体に偏りをもたらす可能性があります。
情報は、それが収集されたより大きな文化において歴史的に偏っている可能性さえあります.
機械学習のバイアスは、主に次の原因で発生します。
- 過去のデータで人間や社会によって引き起こされたバイアスは、アルゴリズムのトレーニングに使用されます。
- 現実世界の状況を反映していないトレーニング データ。
- 教師あり機械学習用のデータのラベル付けまたは準備中のバイアス。
たとえば、トレーニング データの多様性の欠如は、代表バイアスを引き起こす可能性があります。 機械学習モデルの精度は、より広範な文化における歴史的偏見の影響を受けることがよくあります。
これは、社会的バイアスまたは人間的バイアスと呼ばれることもあります。 社会的偏見の影響を受けにくい膨大なデータ コレクションを見つけることは、困難な場合があります。 機械学習ライフサイクルのデータ処理段階は、同様に人間の偏見の影響を受けやすくなっています。
教師あり機械学習には、データ サイエンティストまたはその他の専門家によってラベル付けおよび処理されたデータが必要です。 クリーニングされるデータの種類、データ ポイントのラベル付け方法、または特徴の選択に起因するかどうかにかかわらず、このラベル付けプロセスのバイアスは、機械学習のバイアスにつながる可能性があります。
機械学習バイアスのリスク
モデルはデータ駆動型の意思決定ツールであるため、公平な判断を提供すると想定されます。 機械学習モデルにはバイアスが含まれていることが多く、結果に影響を与える可能性があります。
ますます多くの業界が、時代遅れのソフトウェアや手順の代わりに機械学習を実装しています。 より複雑なジョブがモデルを使用して自動化される場合、偏ったモデルは現実の世界に悪影響を与える可能性があります。
機械学習は、組織や個人が透明性と公平性を期待するという点で、他の意思決定プロセスと何ら変わりはありません。 機械学習は自動化されたプロセスであるため、機械学習を使用して行われた判断は、より詳細に調査されることがあります。
機械学習の偏りは、一部の集団に差別的または否定的な影響を与えることが多いため、組織が危険に積極的に対処することが重要です。 特に、規制されたコンテキストでは、機械学習のバイアスの可能性を考慮に入れる必要があります。
たとえば、銀行の機械学習を使用して、最初のスクリーニング後に住宅ローンの申請者を自動的に承認または拒否することができます。 特定の候補者グループに偏ったモデルは、候補者と組織の両方に悪影響を与える可能性があります。
アクションが精査される展開環境で見つかったバイアスは、重大な問題につながる可能性があります。 モデルは機能しない可能性があり、最悪のシナリオでは、意図的に差別的であることが判明する可能性さえあります.
モデルが展開から完全に削除される可能性があるため、バイアスは慎重に評価して準備する必要があります。 モデルの決定に自信を持たせるには、機械学習のバイアスを理解して対処する必要があります。
組織内および外部のサービス利用者間の信頼のレベルは、モデルの意思決定における偏見によって影響を受ける可能性があります。 モデルが信頼されていない場合、特にリスクの高い選択を導く場合、モデルは組織内で最大限に活用されません。
モデルの説明可能性を評価するときは、バイアスを考慮に入れる必要があります。 モデル選択の妥当性と精度は、チェックされていない機械学習バイアスによって深刻な影響を受ける可能性があります。
特定の人やグループに影響を与える可能性のある差別的な行動につながる場合があります。 さまざまな種類の機械学習モデルには多数のアプリケーションが存在し、それぞれがある程度機械学習バイアスの影響を受けやすくなっています。
機械学習のバイアスは次のように表されます。
- トレーニング データに多様性がないため、一部の人種グループでは顔認識アルゴリズムの精度が低下する可能性があります。
- このプログラムは、人間または歴史的な偏見によるデータの人種的および性別の偏りを検出できます。
- 特定の方言や訛りがあると、自然言語処理がより正確になる可能性がありますが、トレーニング データで過小評価されている訛りを処理できない可能性があります。
機械学習におけるバイアスの解決
バイアスが見つかった場合のモデルの監視と再トレーニングは、機械学習のバイアスに対処する XNUMX つの方法です。 ほとんどの場合、モデル バイアスはトレーニング データのバイアスを示しているか、少なくともバイアスは機械学習ライフサイクルのトレーニング ステージに関連している可能性があります。
モデルのライフサイクルのすべての段階で、バイアスやモデルのドリフトを把握するための手順を用意する必要があります。 展開後の機械学習を監視するためのプロセスも含まれています。 モデルとデータセットのバイアスを頻繁にチェックすることが重要です。
これには、トレーニング データセットを調べて、そこでグループがどのように分布し、表現されているかを確認することが含まれる場合があります。 完全に代表的ではないデータセットを変更および/または改善することは可能です。
さらに、モデルのパフォーマンスを評価する際にはバイアスを考慮する必要があります。 データのさまざまなサブセットでモデルのパフォーマンスをテストすると、特定のグループに関連してバイアスがかかっているか、過剰適合しているかどうかを確認できます。
交差検証手法を使用して、特定のデータ サブセットに対する機械学習モデルのパフォーマンスを評価することができます。 この手順では、データを個別のトレーニング データセットとテスト データセットに分割します。
次の方法で、機械学習の偏りをなくすことができます。
- 必要に応じて、より大きく代表的なトレーニング セットを使用してモデルを再トレーニングします。
- 偏った結果や異常な判断に積極的に目を向ける手順を確立する。
- 機能の重み付けを変更し、必要に応じてハイパーパラメーターを調整すると、バイアスを説明するのに役立ちます。
- 検出と最適化の継続的なサイクルを通じて、発見されたバイアスの解決を促進します。
まとめ
トレーニングが完了すると、機械学習モデルが自律的に機能するようになると信じたくなります。 実際、モデルの運用環境は常に変化しており、管理者は定期的に新しいデータ セットを使用してモデルを再トレーニングする必要があります。
機械学習は現在、現実世界の経済的利益をもたらす最も魅力的な技術機能の XNUMX つです。 機械学習は、ビッグ データ テクノロジーとパブリック クラウドを通じて利用できる巨大な計算能力と組み合わせると、個人がテクノロジーと対話する方法、そしておそらく業界全体を変革する可能性があります。
ただし、機械学習技術は有望ですが、意図しないバイアスを避けるために慎重に計画する必要があります。 機械による判断の有効性は、機械学習モデルの開発者が考慮しなければならないバイアスによって深刻な影響を受ける可能性があります。
コメントを残す