[论文解读] Mathematical Notions vs. Human Perception of Fairness: A Descriptive Approach to Fairness for Machine Learning
本研究调查了哪种数学公平性定义最符合普通人对机器学习中公平性的感知。通过在亚马逊机械 Turk 上开展的自适应主动学习实验,发现尽管人口均等性(demographic parity)是最简单的公平性概念,但在两个高风险领域——再犯风险预测与医疗预测中,它最符合人类直觉,即使参与者已了解更复杂的公平性定义。
Fairness for Machine Learning has received considerable attention, recently. Various mathematical formulations of fairness have been proposed, and it has been shown that it is impossible to satisfy all of them simultaneously. The literature so far has dealt with these impossibility results by quantifying the tradeoffs between different formulations of fairness. Our work takes a different perspective on this issue. Rather than requiring all notions of fairness to (partially) hold at the same time, we ask which one of them is the most appropriate given the societal domain in which the decision-making model is to be deployed. We take a descriptive approach and set out to identify the notion of fairness that best captures \\emph{lay people's perception of fairness}. We run adaptive experiments designed to pinpoint the most compatible notion of fairness with each participant's choices through a small number of tests. Perhaps surprisingly, we find that the most simplistic mathematical definition of fairness---namely, demographic parity---most closely matches people's idea of fairness in two distinct application scenarios. This conclusion remains intact even when we explicitly tell the participants about the alternative, more complicated definitions of fairness, and we reduce the cognitive burden of evaluating those notions for them. Our findings have important implications for the Fair ML literature and the discourse on formalizing algorithmic fairness.
研究动机与目标
- 确定哪种数学公平性定义最符合现实决策情境中普通人对公平性的感知。
- 探究人们的公平性判断更倾向于复杂公平性概念(如机会均等、校准)还是更简单的概念(如人口均等性)。
- 探索在高风险情境下(如影响寿命或刑事结果)公平性感知如何变化。
- 评估向参与者提供其他公平性定义的明确信息是否会改变其偏好。
- 开发并验证一种自适应实验框架,能够在最小认知负担下识别个体的公平性偏好。
提出的方法
- 使用主动学习(EC2 算法)开展自适应实验,以最少的测试次数(每人最多 20 次)最大化信息获取。
- 向参与者展示成对的假设机器学习模型,每个模型均包含 10 个决策对象的真实标签与预测标签,要求其选择更具公平性的模型。
- 采用受控的、简化的场景设计,将公平性感知与现实世界的复杂性分离,聚焦于不同人口群体中的标签分布。
- 应用双臂老虎机方法(EC2),根据先前响应动态选择下一项测试,以高效识别最匹配的公平性概念。
- 从亚马逊机械 Turk 收集了 300 多名参与者的响应,筛选出高通过率且仅参与一次的参与者以减少噪声。
- 分析参与者的选择,以确定其与预设公平性定义(人口均等性、假阳/假阴率相等、准确率相等、校准)的兼容性。
实验结果
研究问题
- RQ1在再犯风险评估情境中,哪种数学公平性概念——人口均等性、假阳/假阴率相等、准确率相等或校准——与参与者对公平性的感知最兼容?
- RQ2在医疗预测情境中,哪种公平性概念最符合参与者的判断?
- RQ3当风险较高时(如影响寿命),公平性感知的重要性如何变化?这是否更倾向于支持准确性而非结果均等?
- RQ4向参与者提供其他公平性定义的信息是否会降低其对人口均等性的偏好?
- RQ5自适应实验设计能否以最小认知负担高效识别个体的公平性偏好?
主要发现
- 在再犯风险评估和医疗预测两种情境中,人口均等性与参与者的决策最为兼容,即使参与者已明确了解更复杂的公平性定义。
- 在高风险情境下,参与者显著提高了对模型准确性的重视,降低了对结果均等性的重视,表明公平性与性能感知之间存在权衡。
- 自适应实验设计成功地仅通过平均不到 10 次测试就识别出每位参与者的最匹配公平性概念,证明了其高效性。
- 参与者的决策对用户界面变化具有鲁棒性,表明研究结果并非由表述方式或界面设计引起。
- 尽管人口均等性概念简单,但其在捕捉人类直觉方面始终优于更精细的公平性定义,挑战了‘复杂性等同于更好公平性对齐’的假设。
- 参与者反馈表明任务具有吸引力,并引发了对算法公平性的反思,但部分人希望获得关于决策对象和模型机制的更多背景信息。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。