QUICK REVIEW

[论文解读] Investigating Human + Machine Complementarity for Recidivism Predictions

Sarah Tan, Julius Adebayo|arXiv (Cornell University)|Aug 28, 2018

Ethics and Social Impacts of AI参考文献 25被引用 27

一句话总结

本文研究了将人类判断与机器预测（COMPAS）结合是否能改善再犯风险评估。通过 Mechanical Turk 工作者对被告进行评分，构建了人类风险评分（HRS），分析其与 COMPAS 在一致与不一致模式上的表现，并测试了混合模型——结果发现，与仅使用 COMPAS相比，混合模型并无显著改进，表明在此数据集中人类与机器的互补性有限。

ABSTRACT

When might human input help (or not) when assessing risk in fairness domains? Dressel and Farid (2018) asked Mechanical Turk workers to evaluate a subset of defendants in the ProPublica COMPAS data for risk of recidivism, and concluded that COMPAS predictions were no more accurate or fair than predictions made by humans. We delve deeper into this claim to explore differences in human and algorithmic decision making. We construct a Human Risk Score based on the predictions made by multiple Turk workers, characterize the features that determine agreement and disagreement between COMPAS and Human Scores, and construct hybrid Human+Machine models to predict recidivism. Our key finding is that on this data set, Human and COMPAS decision making differed, but not in ways that could be leveraged to significantly improve ground-truth prediction. We present the results of our analyses and suggestions for data collection best practices to leverage complementary strengths of human and machines in the fairness domain.

研究动机与目标

评估人类与机器在再犯预测中的决策是否具有互补性，特别是是否能提升公平性与准确性。
描述人类与 COMPAS 预测一致或不一致的条件，并识别驱动这些差异的特征。
评估结合人类与机器预测的混合模型是否在预测再犯方面优于单独使用任一模型。
识别当前在公平敏感领域中混合决策研究的数据收集实践中的不足之处。

提出的方法

通过在 ProPublica 的 COMPAS 数据集中对 1,000 名被告进行多次 Mechanical Turk 工作者的评分，聚合生成人类风险评分（HRS）。
使用决策树与聚类分析，识别与 HRS 和 COMPAS 预测一致或不一致相关的特征模式。
基于真实结果，将 HRS 与 COMPAS 预测之间的 8 种不同一致/不一致情况分类，标记为两者均正确、两者均错误，或仅一个正确。
通过结合 COMPAS 分数、HRS 和人类置信度评分（HWR）以及特征，构建混合模型以预测真实再犯结果。
使用标准指标（AUC、平衡准确率、FPR、FNR、FDR、FOR）在多个子群体（包括不同种族群体）中评估模型表现。
将混合模型与仅使用特征、仅使用 COMPAS 或仅使用人类评分的基线模型进行比较，并通过随机集成与理想集成（oracle ensemble）进行基准测试。

实验结果

研究问题

RQ1人类与机器在再犯预测中的判断有何不同？这些差异是系统性的还是随机的？
RQ2是否存在特定的人口统计学或犯罪史特征，可预测人类与 COMPAS 在风险评估上的一致或不一致？
RQ3结合人类与机器预测的混合模型是否能提升准确率与公平性，优于单一组件？
RQ4人类与机器预测的错误模式如何比较？它们是否重叠或相互补充？

主要发现

在 36.1% 的被告中，人类与 COMPAS 预测存在显著分歧，其中 16.2% 和 15.9% 的案例仅有一个系统判断正确。
最常见的分歧模式与年龄（23.5–48.5 岁）和低前科记录（Priors < 1.5 或 < 0.5）相关，表明人口统计学与犯罪史特征驱动了预测分歧。
结合 COMPAS 与人类评分的混合模型并未显著优于仅使用 COMPAS 的模型，AUC 值在 0.65 至 0.73 之间，且无任何模型超越理想模型表现。
即使使用人类置信度（HWR）或人类非风险评分（HNR），混合模型也未表现出一致改进，平衡准确率最高仅为 0.65。
仅使用特征训练的模型 AUC 为 0.65，最佳混合模型 AUC 达 0.73，但仍低于理想模型的 0.84 AUC，表明仍有巨大改进空间。
对于代表性不足的子群体（其他种族），混合模型表现出更高的 FPR 与 FNR，表明在组合系统中可能存在公平性权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。