QUICK REVIEW
[论文解读] Training individually fair ML models with Sensitive Subspace Robustness
Mikhail Yurochkin, Amanda Bower|arXiv (Cornell University)|Jun 28, 2019
Explainable Artificial Intelligence (XAI)参考文献 41被引用 53
一句话总结
本文将个体公平性表述为对敏感输入扰动的鲁棒性,通过分布鲁棒优化和Wasserstein距离来实现,并提出 SenSR 用于训练对敏感子空间公平的模型,给出理论保证并给出经验结果。
ABSTRACT
We consider training machine learning models that are fair in the sense that their performance is invariant under certain sensitive perturbations to the inputs. For example, the performance of a resume screening system should be invariant under changes to the gender and/or ethnicity of the applicant. We formalize this notion of algorithmic fairness as a variant of individual fairness and develop a distributionally robust optimization approach to enforce it during training. We also demonstrate the effectiveness of the approach on two ML tasks that are susceptible to gender and racial biases.
研究动机与目标
- 在输入的敏感扰动下动机化并形式化个体公平性作为鲁棒性。
- 通过公平 Wasserstein 距离引入分布鲁棒公平性(DRF)。
- 提出并实现 Sensitive Subspace Robustness (SenSR) 来训练个体公平的模型。
- 对统一收敛性与公平性认证提供理论保证。
- 在情感分析和收入预测任务中证明其有效性。
提出的方法
- 定义一个忽略指定敏感方向的公平度量 d_x;使用能耦合输入输出的 d_z 构造公平 Wasserstein 距离。
- 通过求解在 ε-Wasserstein 球内最大化损失的分布鲁棒优化(DRO)问题来审计模型公平性(公式 2.1)。
- 将 DRO 问题转换为可处理的对偶形式(公式 2.3),并通过随机优化求解(算法 1)。
- 将公平训练转化为极小极大 DRO 问题(公式 2.5),并结合受对抗训练启发的 SenSR 算法求解(算法 2)。
- 给出统一收敛性保证(命题 3.1–3.3),给出在何种条件下 SenSR 可以获得个体公平模型并能对公平性进行认证。
- 将该方法与现有的 DRO 和对抗公平方法相关联,并讨论成本函数不一致性(A3)以及度量学习。
实验结果
研究问题
- RQ1当公平度量从数据或观测属性中学习时,如何在保持公平性的同时实现个体公平?
- RQ2在公平 Wasserstein 距离下的分布鲁棒优化是否能在对敏感扰动鲁棒的同时保持良好性能?
- RQ3在这种设置下,SenSR 的理论保证(统一收敛性、公平性认证)是什么?
- RQ4SenSR 在观测到的与未观测到的敏感属性的任务(如名字的情感分析、收入预测)上表现如何?
主要发现
| Table 1: Sentiment prediction experiments — 10 restarts | Table 2: Adult classification experiments — 10 restarts |
|---|---|
| SenSR | Acc.,% 94 ± 1; Race gap 0.30 ± .05; Gend. gap 0.19 ± .03; Cuis. gap 0.23 ± .05 |
| SenSR-E | Acc.,% 93 ± 1; Race gap 0.11 ± .04; Gend. gap 0.04 ± .03; Cuis. gap 1.11 ± .15 |
| Baseline | Acc.,% 95 ± 1; Race gap 7.01 ± .44; Gend. gap 5.59 ± .37; Cuis. gap 4.10 ± .44 |
| Project | Acc.,% 94 ± 1; Race gap 1.00 ± .56; Gend. gap 1.99 ± .58; Cuis. gap 1.70 ± .41 |
| Sinha+ | Acc.,% 94 ± 1; Race gap 3.88 ± .26; Gend. gap 1.42 ± .29; Cuis. gap 1.33 ± .18 |
| Bolukb.+ | Acc.,% 94 ± 1; Race gap 6.85 ± .53; Gend. gap 4.33 ± .46; Cuis. gap 3.44 ± .29 |
| Table 2 row 1 | SenSR: 78.9; S-Con. 0.934; GR-Con. 0.984; Gap_G^RMS 0.068; Gap_R^RMS 0.055; Gap_G^max 0.087; Gap_R^max 0.067 |
| Table 2 row 2 | Baseline: 82.9; S-Con. 0.848; GR-Con. 0.865; Gap_G^RMS 0.179; Gap_R^RMS 0.089; Gap_G^max 0.216; Gap_R^max 0.105 |
| Table 2 row 3 | Project: 82.7; S-Con. 0.868; GR-Con. 1.00; Gap_G^RMS 0.145; Gap_R^RMS 0.064; Gap_G^max 0.192; Gap_R^max 0.086 |
| Table 2 row 4 | Adv. Debiasing: 81.5; S-Con. 0.807; GR-Con. 0.841; Gap_G^RMS 0.082; Gap_R^RMS 0.070; Gap_G^max 0.110; Gap_R^max 0.078 |
| Table 2 row 5 | CoCL: 79.0; S-Con. -; GR-Con. -; Gap_G^RMS 0.163; Gap_R^RMS 0.080; Gap_G^max 0.201; Gap_R^max 0.109 |
- SenSR/DRF 训练得到的模型在公平性指标上的差距显著下降,同时保持准确性(例如情感任务在 Race 与 Gend. 差距方面显著降低)。
- 情感分析的实证结果显示 SenSR 和 SenSR-E 在名字上实现近似相等的情感预测,优于基线及其他去偏方法在个体公平性上的表现。
- 在 Adult 数据集上,SenSR 提升了 S-Con 与 GR-Con 公平性度量,并在基线比较中实现了竞争性甚至更好的分组公平指标,同时 balanced accuracy 略有下降。
- 论文提供了类似证书的泛化界限(公式 3.3 与 命题 3.1–3.3),将 DRO 损失与公平性保障联系起来,便于从业者进行公平性认证。
- 该方法可从数据中学习出公平度量(观测到的或未观测到的敏感属性),并在跨任务中对敏感子空间扰动具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。