Skip to main content
QUICK REVIEW

[论文解读] Fairness in Criminal Justice Risk Assessments: The State of the Art

Richard A. Berk, Hoda Heidari|arXiv (Cornell University)|Mar 27, 2017
Crime Patterns and Interventions参考文献 22被引用 27
一句话总结

本文对刑事司法风险评估中的公平性进行了形式化、跨学科的分析,识别出六种通常相互冲突且与准确性相冲突的公平性定义。文章从数学上证明了公平性、准确性与基础率差异之间的权衡不可避免,主张通过透明的、包含价值判断的权衡决策,而非理想化的公平性主张。

ABSTRACT

Objectives: Discussions of fairness in criminal justice risk assessments typically lack conceptual precision. Rhetoric too often substitutes for careful analysis. In this paper, we seek to clarify the tradeoffs between different kinds of fairness and between fairness and accuracy. Methods: We draw on the existing literatures in criminology, computer science and statistics to provide an integrated examination of fairness and accuracy in criminal justice risk assessments. We also provide an empirical illustration using data from arraignments. Results: We show that there are at least six kinds of fairness, some of which are incompatible with one another and with accuracy. Conclusions: Except in trivial cases, it is impossible to maximize accuracy and fairness at the same time, and impossible simultaneously to satisfy all kinds of fairness. In practice, a major complication is different base rates across different legally protected groups. There is a need to consider challenging tradeoffs.

研究动机与目标

  • 澄清刑事司法风险评估中公平性的概念混乱,特别是在算法决策背景下的情况。
  • 识别并形式化政策和公共话语中常被混淆的多种不同的公平性定义。
  • 从数学上证明,公平性、准确性和基础率差异在实践中不可通约,必须进行权衡。
  • 表明即使排除受保护群体的成员身份作为预测变量,由于预测变量中存在与历史不平等相关的相关性,仍可能产生公平性违规。
  • 倡导在风险评估系统中实现透明化,通过可调节的调优参数,使利益相关方能够明确权衡相互竞争的公平性与准确性目标。

提出的方法

  • 作者使用2×2混淆表框架来定义和比较关键的公平性度量,包括不同受保护群体中的真正率、假正率和阳性预测值。
  • 他们对真实世界的保释数据应用统计和机器学习技术(如随机森林和内嵌公平性算法),以实证方式展示公平性-准确性之间的权衡。
  • 研究对不同受保护群体(如非裔美国人和白人犯罪者)分别拟合模型,以评估条件使用准确率平等,揭示了按种族划分的预测变量重要性存在结构性差异。
  • 作者分析了诸如群体均等性、机会均等和预测均等性等公平性定义,表明在一般条件下它们在数学上不相容。
  • 他们使用计算机科学和统计学中的形式化证明(例如,Kleinberg 等,2016;Chouldechova,2016),确立了没有任何单一算法能同时满足所有公平性标准。
  • 本文强调,必须通过可调节的调优参数使权衡关系显式化,承认最终决策是政治性的,而非技术性的。

实验结果

研究问题

  • RQ1多种公平性定义能否共存于单一风险评估模型中,还是它们本质上不相容?
  • RQ2受保护群体之间基础率的差异(例如,年轻非裔美国黑人男性与年长白人女性女性)如何影响公平性度量和模型性能?
  • RQ3在不将种族或性别等受保护属性作为预测变量的情况下,算法公平性在多大程度上可以实现?
  • RQ4在真实世界的刑事司法数据中,公平性、准确性和预测均等性之间的定量权衡是什么?
  • RQ5对不同人口群体分别拟合模型如何影响公平性结果,其对公平性和透明度意味着什么?

主要发现

  • 风险评估中至少存在六种不同的正式公平性定义,且在一般条件下彼此不相容。
  • 在数学上,除非处于平凡情况,否则同时最大化准确性和公平性是不可能的,这一结论已有文献中的形式化定理证明。
  • 即使不将种族和性别作为预测变量,由于受保护属性与合法预测变量(如前科记录)之间的相关性,仍会引发公平性违规。
  • 当模型分别为不同种族群体单独训练时,假正类率和假负类率可能显著偏离,从而破坏如机会均等性等公平性度量。
  • 威斯康星州最高法院2017年裁决认可COMPAS作为量刑因素,凸显了这些公平性-准确性权衡在现实政策中的相关性。
  • 没有任何技术解决方案能无成本地解决所有公平性关切;必须接受何种权衡的决策本质上是政治性和规范性的,而非科学性的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。