机器学习偏见,也称为算法偏见或人工智能偏见,是一种现象,当算法因机器学习(ML)过程中的错误假设而产生系统性偏见的结果时,就会发生这种情况。
机器学习是人工智能(AI)的一个子集,它依赖于用于训练的训练数据的质量、客观性、范围和规模。错误、劣质或不完整的训练数据会导致偏差或不准确的预测,这反映了计算机科学中用来传达输出质量由输入质量决定的“垃圾进,垃圾出”这一概念。
机器学习偏见通常源于设计和训练机器学习系统的个人引入的问题。这些人可能会创建反映无意的认知偏见或现实生活偏见的算法。或者,他们可能会因为使用不完整、错误或带有偏见的数据集来训练和验证机器学习系统而引入偏见。
可能无意中影响机器学习算法的认知偏见类型包括刻板印象、从众效应、启发式、选择性知觉和确认偏见。
什么是机器学习?指南、定义和示例
- 还包括:
- 不同类型的机器学习解释
- 如何在7个步骤中构建机器学习模型
- CNN与RNN:它们有什么不同?
尽管这些偏见往往是无意的,但它们在机器学习系统中的存在可能会产生重大后果。根据机器学习系统的使用方式,这些偏见可能导致糟糕的客户服务体验、销售和收入减少、不公平或可能非法的行为,以及潜在的危险情况。
为了防止偏见模型,组织应检查用于训练机器学习模型的数据,以确保其全面性和缺乏认知偏见。数据应代表可能受到不利影响的不同种族、性别、背景和文化。开发算法的数据科学家应调整数据样本,以最小化算法和其他类型的机器学习偏见,决策者应评估在何时适合或不适合应用机器学习技术。
当人工智能在不完整和偏见的数据上训练时,可能会产生偏见结果。
机器学习偏见的类型
偏见可以通过多种方式引入机器学习系统。常见的场景或偏见类型包括:
- 算法偏见。当执行计算或其他处理的算法存在问题时,就会发生这种情况。
- 自动化偏见。当自动系统的结果被优先考虑,而不是人类或其他非自动系统的结果,即使自动系统可能没有提供更好的准确性时,就会发生这种情况。换句话说,用户更信任人工智能。
- 样本偏见。当用于训练机器学习模型的数据存在问题时,就会发生这种情况。在这种类型的偏见中,使用的数据要么不够大,要么不够具有代表性,无法教会系统。例如,使用仅包含女性教师的训练数据会导致系统得出所有教师都是女性的结论。
- 偏见偏见。在这种情况下,用于训练系统的数据反映了现有的偏见、刻板印象和错误的社会假设,从而将这些现实世界的偏见引入机器学习中。例如,使用仅包含女性护士和男性医生的医疗专业人员数据可能会在计算机系统中延续对医疗工作者的性别刻板印象。
- 隐性偏见。与偏见偏见类似,隐性偏见发生在模型设计或数据策划时,使用设计者自身的思维方式或个人经验,这可能与当前任务的需求不完全或不准确对应。
- 群体归属偏见。当个体或单个样本的特征不当地应用于更大的一组个体或数据点时,就会发生这种情况。对整个群体的这种概括可能忽略个体样本的细微差别。
- 测量偏见。顾名思义,这种偏见源于数据的准确性及其测量或评估方式的潜在问题。使用快乐工作者的照片来训练一个评估工作环境的系统可能会产生偏见,如果照片中的工作者知道他们正在被测量幸福度;如果训练数据中的权重总是被四舍五入,则训练一个精确评估体重的系统会产生偏见。
- 排除或报告偏见。当一个重要的数据点被排除在使用的数据之外时,就会发生这种情况。如果模型设计者未将该数据点视为重要,则可能会发生这种情况。例如,当受害者未报告事件时,警方犯罪分析中报告的事件可能会因事件未报告或少报而偏向某一方。
- 选择偏见。当训练中使用的数据不够大或不够具有代表性时,就会发生这种情况,从而导致结果和性能降低准确性。有几种选择偏见的变体,包括覆盖偏见(数据不具有代表性)、参与偏见(非响应留下数据空白)和抽样偏见(未使用统计随机化)。
- 回忆偏见。这种数据质量偏见在数据标记阶段发展,其中标签通过主观观察不一致地给予。回忆是通过准确标记的点数与模型中的总观察数进行衡量。
偏见与方差
数据科学家和其他参与构建、训练和使用机器学习模型的人在寻求创建能够持续提供准确结果的系统时,必须考虑偏见和方差。
与偏见类似,方差是机器学习基于训练数据产生错误假设时的错误。与偏见不同,方差是对数据集中的真实和合法波动的反应。这些波动或噪声不应影响预期的模型,但系统可能仍会使用这些噪声进行建模。换句话说,方差是对训练集中的小波动的敏感性,这种敏感性与偏见一样,可能导致不准确的结果。
换个角度看,方差是基于训练数据的子集或部分的输出差异。例如,如果模型使用总数据的一个子集进行训练,然后被要求做出判断,则方差将是每个训练子集的结果差异。理想情况下,方差应低或为零。选择不当的数据集可能导致方差不必要或不可接受地高。
通过谨慎应用数据科学方法,可以减少方差,包括数据的交叉验证、限制数据中的特征选择、比较相似或集成模型的结果、简化模型和防止过拟合。
尽管偏见和方差不同,但它们是相互关联的,因为一定程度的方差可以帮助减少偏见,而一定程度的偏见可以帮助减少方差。如果数据人口有足够的多样性,偏见应该会被方差淹没。对偏见和方差的敏感性通常受所使用的机器学习算法类型的影响。以下是一些示例:
- Bagging算法可以带来低偏见和高方差。
- 决策树算法可以带来低偏见和高方差。
- 线性回归算法可以带来高偏见和低方差。
- 随机森林算法可以带来低偏见和高方差。
因此,机器学习的目标是在两者之间达到权衡或平衡,以开发出产生最少错误的系统。
偏见在机器学习管道/机器学习开发生命周期每个阶段的发生方式
偏见代表了一系列隐蔽的错误,这些错误通常源于不完美的人类知识、错误的假设或弱算法,有时还可能是恶意意图。尽管偏见通常被视为数据问题,但人工智能专家必须学会在机器学习管道的以下节点识别潜在的偏见:
- 数据。偏见通常在机器学习生命周期的早期与数据发生。偏见可能在数据收集阶段出现,当原始数据选择不当、不完整或以任何形式不真实时。偏见还可能出现在数据准备阶段,当数据在被输入模型进行训练之前被清理和转换时,例如缺失值或四舍五入错误。最后,偏见可能出现在特征选择阶段,当数据科学家选择模型成功预测所需的相关数据时。
- 模型。偏见可能在实际模型或算法的选择中被放大,例如分类与回归;某些算法对偏见和方差的敏感性高于其他算法。一些人工智能平台采用多个对抗性模型来帮助抵消潜在的错误或模型偏见。
- 开发。在开发阶段,模型被编码(如有必要)并接受训练和测试时,偏见可能会加剧。算法中的错误可能会影响偏见。错误的训练实践,例如不当或缺乏人类反馈,以及用小或不足的测试数据集进行验证,都会对模型产生不利影响。
- 操作。偏见也可能在模型在生产中运行后出现。不当的人类反馈可能会导致模型中的错误,降低其有效性。此外,人类必须对模型的输出应用一些自己的解释和意见。不信任或不喜欢预测的用户可能会在事后插入自己的错误和偏见,从而降低模型的价值。
如何防止偏见
意识和治理可以帮助防止机器学习偏见。一个认识到偏见潜力的组织可以实施和制定最佳实践来对抗偏见,包括以下步骤:
- 选择适当具有代表性、足够大和多样化的训练数据,以抵消常见类型的机器学习偏见,例如样本和偏见偏见。在数据质量活动(如数据标记)中,人工审查和协作是不可替代的。
- 测试和验证,以确保机器学习系统的结果不因算法或数据集而反映偏见。
- 监控机器学习系统在执行任务时,以确保偏见不会随着时间的推移而渗入,因为系统在工作时会继续学习。
- 使用额外资源,例如谷歌的What-If工具或IBM的AI公平性360开源工具包,检查和审查模型。
- 创建一种考虑不同意见的数据收集方法。一个数据点可能有多个有效的标签选项。在最初收集数据时,考虑这些选项可以增加模型的灵活性。
- 了解所使用的任何训练数据,因为这些训练数据集可能包含会引入偏见的类别或标签。不要忽视一致、高质量的数据标记和注释的重要性。
- 持续审查机器学习模型,并计划在收到更多反馈时进行改进。
- 避免插补,即在数据集中人为填补缺失或不完整条目引入的偏见。
机器学习偏见的历史
算法偏见一词最早由Trishan Panch和Heather Mattie在哈佛大学T.H. Chan公共卫生学院的一个项目中定义。机器学习偏见已被认定为已知风险数十年,但它仍然是一个复杂的问题,难以应对。
事实上,机器学习偏见已经在现实案例中受到影响,一些偏见甚至产生了重大和改变生活的后果。
COMPAS就是一个这样的例子。COMPAS算法——即替代制裁的矫正罪犯管理分析——使用机器学习预测刑事被告再犯罪的可能性。在21世纪初的早期,多个州推出了该软件,直到其对有色人种的偏见被揭露并随后在新闻报道中公开。
亚马逊是一家招聘巨头,其招聘政策影响着其他公司的政策。2018年,该公司在发现其招聘算法识别词模式后放弃了该算法。该算法无意中惩罚了包含某些词(包括女性名字)的简历,而不是相关的技能集,这种偏见使男性候选人优于女性候选人。
与此同时,同年,学术研究人员宣布发现商业面部识别人工智能系统存在性别和肤色偏见。
机器学习偏见也出现在医疗领域。例如,2019年,一项研究揭示了一种基于人工智能的系统在决定哪些患者需要护理时存在种族偏见。这一人工智能算法显示出种族偏见,因为黑人患者被标记为比白人患者在同样护理推荐下更病重。
费城联邦储备银行2024年的研究论文《种族偏见对抵押贷款贷款的影响有多大?来自人类和算法信用决策的证据》显示,2018年和2019年,人工智能偏见导致18%的黑人抵押贷款申请者被拒绝。同样,《标记》报道并由美联社传播的故事显示,贷款人拒绝拉丁裔申请者的可能性比类似的白人申请者高40%,拒绝亚裔/太平洋岛民申请者的可能性高50%,拒绝美洲土著申请者的可能性高70%,而拒绝黑人申请者的可能性高达80%。