[论文解读] Obtaining fairness using optimal transport theory
本文分析公平性定义(Disparate Impact 和 BER)并提出通过最优传输的 Wasserstein barycenters 进行数据修复的方法,以实现二元分类器的统计平等或部分公平性。
Statistical algorithms are usually helping in making decisions in many aspects of our lives. But, how do we know if these algorithms are biased and commit unfair discrimination of a particular group of people, typically a minority? extit{Fairness} is generally studied in a probabilistic framework where it is assumed that there exists a protected variable, whose use as an input of the algorithm may imply discrimination. There are different definitions of Fairness in the literature. In this paper we focus on two of them which are called Disparate Impact (DI) and Balanced Error Rate (BER). Both are based on the outcome of the algorithm across the different groups determined by the protected variable. The relationship between these two notions is also studied. The goals of this paper are to detect when a binary classification rule lacks fairness and to try to fight against the potential discrimination attributable to it. This can be done by modifying either the classifiers or the data itself. Our work falls into the second category and modifies the input data using optimal transport theory.
研究动机与目标
- 评估公平性概念(Disparate Impact 和 BER)与受保护属性的可预测性之间的关系。
- 发展一个使用最优传输来获得公平分类器且无需访问真实标签的概率数据修复框架。
- 证明并实现通过 Wasserstein barycenters 的完全修复与部分修复。
- 探索 Random Repair 作为信息损失与公平性之间权衡的方案。
提出的方法
- 定义 DI 和 BER,并将它们与受保护属性 S 的可预测性相关联。
- 给出一个概率数据修复框架,使用 Wasserstein 距离将条件分布 L(X|S=s) 映射到一个共同目标。
- 引入 Wasserstein barycenters 以获得 X 在 S 条件下的共同分布,从而实现 Statistical Parity。
- 推导完全修复(将两组映射到 barycenter)与部分修复(朝向 barycenter 的测地线插值)方案。
- 给出理论界限,展示基于 barycenter 的修复的优点,并讨论用修复数据进行学习。
- 讨论 Random Repair 作为在信息损失与公平性之间权衡的另一种方法。
实验结果
研究问题
- RQ1DI 和 BER 如何通过受保护属性的可预测性相关联?
- RQ2通过最优传输的数据修复是否能够在保持预测能力的同时降低 DI?
- RQ3为什么 Wasserstein barycenter 是修复受保护属性条件分布的合适目标?
- RQ4相较于使用原始数据,修复数据分类器的理论保证(风险界)有哪些?
- RQ5全修复与部分修复在公平性与信息损失之间的权衡如何?
主要发现
- DI 与 X 在 S 条件下的条件分布之间的全变差距离相关;较低的 TV 距离增加了 S 的不可预测性。
- 将数据修复到 Wasserstein barycenter 可以通过使 L( X˜ | S=0) 与 L( X˜ | S=1) 相等来实现 Statistical Parity。
- 最小修复使用 Wasserstein barycenter 作为两组的目标分布;完全修复产生 DI=1 与最大的公平性。
- 部分修复允许一个调谐参数 λ 来平衡公平性与预测准确性。
- 理论界限表明修复导致的额外风险取决于 ηs 的 Lipschitz 常数和到 barycenter 的 W2 距离。
- Random Repair 提供另一种在信息损失与公平性之间权衡的策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。