随着越来越多的行业利用算法的力量来自动化操作和做出选择,机器学习正成为当代世界运作方式的重要组成部分。
当机器学习模型被集成到各种组织的决策过程中时,机器学习中的偏见问题是至关重要的。
确保算法产生的选择是公正的并且没有偏见应该是任何使用机器学习模型的组织的目标。 为了确保模型输出可以被依赖并被视为公平,识别和解决问题至关重要 机器学习 偏压。
它与模型可解释性的问题有关,或者一个人掌握机器学习模型如何得出结论的难易程度。 机器学习模型映射和学习的趋势和模式来自数据本身,而不是通过直接的人类发展。
如果不加以控制和检查,机器学习中的偏差可能会因各种原因而出现。 部署模型时,经常会遇到训练数据样本中未准确反映的情况。
该模型可能对这种不具代表性的训练数据集过度拟合。 尽管训练数据的质量非常好,但该模型仍可能受到更广泛的文化影响导致的历史偏差的影响。
一旦实施,有偏见的模型可能有利于某些群体或失去特定数据子集的准确性。 这可能会导致不公平地惩罚特定群体的判断,这可能对现实世界产生负面影响。
本文讨论了机器学习偏见,包括它是什么、如何发现它、它带来的危险等等。
那么,什么是机器学习偏差?
由于机器学习过程中做出错误假设而产生系统性偏差的算法称为机器学习偏差,也称为算法偏差或称为人工智能偏差。
机器学习偏差是模型倾向于支持特定数据集或数据子集的趋势; 它经常由非代表性的训练数据集引起。 对于一定的数据集合,有偏见的模型将表现不佳,这将损害其准确性。
在现实世界中,这可能意味着有偏见的训练数据导致模型的输出偏向于某个种族、人口统计或性别。
因此,机器学习的输出可能是不公正的或歧视性的。 非代表培训 数据集可能导致偏差 在机器学习中。
如果训练数据缺乏或过度代表特定数据分组,则生成的模型可能会偏向其他代表性不足的类别。 如果训练数据样本与实际部署环境不完全匹配,就会发生这种情况。
医疗保健行业中的机器学习可用于检查患者数据与已知疾病或病症的对比,就是一个典型的例子。 如果使用得当,模型可以加快医生的干预。
然而,偏见是可能的。 当被要求预测老年患者可能出现的疾病时,如果用于构建模型的训练数据主要由较小年龄范围的患者数据组成,则该模型无法很好地执行。
此外,历史统计数据可能会出现偏差。 例如,因为从历史上看,大多数员工都是男性,所以经过训练的用于筛选求职者的模型会偏爱男性求职者。
机器学习偏差在这两种情况下都会影响模型的准确性,在最坏的情况下,它甚至可能导致有歧视性和不公正的结论。
必须仔细审查决定,以确保没有偏见,因为 机器学习模型 取代越来越多的人工操作。 因此,任何组织中的模型治理实践都应该包括对机器学习偏差的监控。
机器学习模型正在完成许多不同行业的许多不同类型的工作。 今天,模型用于自动化越来越困难的流程并生成建议。 在这个决策过程中,偏见意味着一个模型可以基于习得的偏见偏爱一个特定的群体而不是另一个群体。
当用于做出具有实际后果的不安全判断时,这可能会产生严重影响。 例如,当用于自动批准贷款申请时,有偏见的模型可能会对特定人群产生偏见。 在任何行为都可以检查或审查的受监管企业中,这是一个特别需要考虑的关键因素。
机器学习偏差类型
- 算法偏差 – 当执行驱动机器学习计算的计算的算法中存在错误时,就会发生这种情况。
- 样本偏差 – 当数据用于 训练机器学习 模型有问题,就会出现这种情况。 在这种偏差的情况下,用于训练系统的数据的数量或质量不足。 该算法将被训练为相信所有教师都是女性,例如,如果训练数据完全由女教师组成。
- 排除偏差 – 当正在使用的数据集中缺少关键数据点时会发生这种情况,如果建模者未能意识到丢失数据点的重要性,则可能会发生这种情况。
- 偏见偏见 – 在这种情况下,机器学习本身是有偏见的,因为用于训练系统的数据反映了现实世界的偏见,例如偏见、刻板印象和不正确的社会假设。 例如,如果将医疗专业人员的数据包含在仅包括男性医生和女性护士的计算机系统中,那么现实世界中关于医疗保健工作者的性别刻板印象就会永久存在。
- 测量偏差 – 顾名思义,这种偏差源于数据质量以及用于收集或评估数据的方法的基本问题。 如果训练数据中包含的权重持续四舍五入,那么一个被训练来精确评估体重的系统就会有偏差,如果图片中的员工知道,使用满足员工的图像来训练一个旨在评估工作环境的系统可能会产生偏差他们被衡量幸福。
哪些因素会导致机器学习中的偏见?
尽管机器学习偏差的原因有很多,但它通常是由训练数据本身的偏差引起的。 训练数据中的偏差有几个潜在的潜在原因。
最明显的例子是训练数据,它是部署系统中不典型的条件子集。 这可能是一个类别的代表性不足或另一类别的数量不成比例的训练数据。
这被称为样本偏差,它可能来自非随机的训练数据收集。 用于收集、分析或分类数据的方法,以及数据的历史根源,都可能导致数据本身存在偏差。
在收集信息的更大文化中,这些信息甚至可能在历史上存在偏差。
机器学习偏差主要是由以下原因引起的:
- 历史数据中人类或社会造成的偏差用于训练算法。
- 不反映真实情况的训练数据。
- 为监督机器学习标记或准备数据时的偏差。
例如,训练数据缺乏多样性可能会导致表示偏差。 机器学习模型的准确性经常受到更广泛文化中的历史偏见的影响。
这有时被称为社会或人类偏见。 寻找不易产生社会偏见的大量数据可能具有挑战性。 机器学习生命周期的数据处理阶段同样容易受到人为偏见的影响。
由数据科学家或其他专家标记和处理的数据对于监督机器学习是必要的。 无论是来自被清理的数据的多样性、数据点的标记方式,还是特征的选择,这个标记过程中的偏差都会导致机器学习中的偏差。
机器学习偏差风险
由于模型是数据驱动的决策工具,因此假设它们提供了公正的判断。 机器学习模型经常包含偏差,这会影响结果。
越来越多的行业正在实施机器学习来代替过时的软件和程序。 当使用模型自动化更复杂的工作时,有偏见的模型可能会在现实世界中产生负面影响。
机器学习与其他决策过程没有什么不同,因为组织和个人都希望它是透明和公平的。 因为机器学习是一个自动化的过程,使用它做出的判断有时会受到更仔细的检查。
由于机器学习中的偏见经常会对某些人群产生歧视性或负面影响,因此组织必须积极主动地解决这些危险。 特别是对于受监管的环境,必须考虑机器学习中存在偏见的可能性。
例如,银行中的机器学习可用于在初步筛选后自动接受或拒绝抵押贷款申请人。 偏向于某一组候选人的模型很可能对候选人和组织都产生不利影响。
在可能审查行动的部署环境中发现的任何偏差都可能导致重大问题。 该模型可能不起作用,在最坏的情况下,甚至可能被证明是故意歧视的。
必须仔细评估和准备偏差,因为它可能导致模型完全从部署中删除。 获得对模型决策的信心需要理解和解决机器学习偏差。
组织内部和外部服务消费者之间的信任水平可能会受到模型决策中感知偏差的影响。 如果模型不受信任,尤其是在指导高风险选择时,它们将不会在组织内充分发挥其潜力。
在评估模型的可解释性时,考虑偏差应该是一个需要考虑的因素。 未经检查的机器学习偏差会严重影响模型选择的有效性和准确性。
它有时会导致可能影响特定人群或群体的歧视性行为。 各种机器学习模型类型存在许多应用程序,并且每个应用程序都在一定程度上容易受到机器学习偏差的影响。
机器学习偏差通过以下方式说明:
- 由于训练数据缺乏多样性,面部识别算法对于某些种族群体的准确性可能较低。
- 该程序可以检测由于人类或历史偏见而导致的数据中的种族和性别偏见。
- 对于某种方言或口音,自然语言处理可能会更准确,并且它可能无法处理训练数据中代表性不足的口音。
解决机器学习中的偏见
发现偏差时监控和重新训练模型是解决机器学习偏差的两种方法。 在大多数情况下,模型偏差表明训练数据存在偏差,或者至少偏差可能与机器学习生命周期的训练阶段有关。
模型生命周期的每个阶段都应该有适当的程序来捕捉偏差或模型漂移。 还包括在部署后监控机器学习的过程。 经常检查模型和数据集是否存在偏差很重要。
这可能涉及检查训练数据集以查看组在其中的分布和表示方式。 可以修改和/或改进不完全具有代表性的数据集。
此外,在评估模型的性能时应考虑偏差。 在数据的不同子集上测试模型的性能可以显示它相对于某个组是否存在偏差或过度拟合。
通过使用交叉验证技术,可以评估机器学习模型在某些数据子集上的性能。 该过程涉及将数据划分为不同的训练和测试数据集。
您可以通过以下方式消除机器学习中的偏见:
- 必要时,使用更大、更具代表性的训练集重新训练模型。
- 建立一个程序来主动寻找有偏见的结果和不寻常的判断。
- 根据需要重新加权特征和调整超参数可以帮助解释偏差。
- 鼓励通过持续的检测和优化循环解决发现的偏差。
结论
人们很容易相信,一旦经过训练,机器学习模型就会自动运行。 事实上,模型的运行环境一直在变化,管理者必须定期使用新的数据集重新训练模型。
机器学习是目前最令人着迷的技术能力之一,具有现实世界的经济效益。 机器学习与大数据技术和公共云提供的巨大计算能力相结合,有可能改变个人与技术甚至整个行业的交互方式。
然而,尽管机器学习技术很有前途,但必须仔细规划,以避免无意的偏见。 机器做出的判断的有效性可能会受到偏见的严重影响,这是机器学习模型开发人员必须考虑的问题。
发表评论