[论文解读] Optimized Data Pre-Processing for Discrimination Prevention
本文提出了一种凸优化框架用于数据预处理,能够同时减少歧视、限制单个数据样本的失真,并在监督学习中保持数据效用。通过将公平性建模为群体公平性、个体公平性与数据效用之间的权衡,并引入概率约束,该方法在真实世界数据集(包括犯罪再犯数据)上实现了平衡的公平性,并具备可证明的泛化保证。
Non-discrimination is a recognized objective in algorithmic decision making. In this paper, we introduce a novel probabilistic formulation of data pre-processing for reducing discrimination. We propose a convex optimization for learning a data transformation with three goals: controlling discrimination, limiting distortion in individual data samples, and preserving utility. We characterize the impact of limited sample size in accomplishing this objective, and apply two instances of the proposed optimization to datasets, including one on real-world criminal recidivism. The results demonstrate that all three criteria can be simultaneously achieved and also reveal interesting patterns of bias in American society.
研究动机与目标
- 通过开发一种系统化的预处理方法来解决机器学习中的间接歧视,以控制群体公平性。
- 在保持下游建模所需数据效用的同时,最小化对单个数据样本的失真。
- 提供一个统一的、基于概率的优化框架,将公平性、效用与个体公平性整合于单一公式中。
- 分析样本量有限对预处理中公平性与效用权衡的影响。
- 在真实世界数据集(包括犯罪再犯数据)上实证验证该方法,证明其能同时实现公平性、效用与低失真。
提出的方法
- 将数据预处理建模为一个凸优化问题,以平衡歧视控制、数据效用与个体失真。
- 使用KL散度和Pinsker不等式来限制原始数据分布与转换后数据分布之间的统计差异。
- 通过指数族建模引入概率变换,其中Radon-Nikodym导数由拉格朗日乘子α参数化。
- 对转换后概率与原始概率的比值施加约束,以确保每个样本的失真有界。
- 利用集中不等式(例如Csiszár & Shields的结论)推导公平性与效用泛化性的高概率边界。
- 推导出条件结果分布偏离目标公平性的理论边界,表明随着样本量增加,其以概率收敛。
实验结果
研究问题
- RQ1是否能够通过统一的预处理框架,同时控制群体层面的歧视、保持数据效用,并限制个体层面的失真?
- RQ2样本量有限如何影响所提出的优化框架中公平性与效用的泛化性能?
- RQ3优化参数与最终公平性-效用-失真权衡之间的理论关系是什么?
- RQ4该方法在真实世界数据上的表现如何,特别是在犯罪再犯等间接歧视的情境下?
- RQ5该框架能否通过概率约束扩展,以在实现群体公平性的同时保持个体公平性?
主要发现
- 所提出的优化框架在真实世界犯罪再犯数据上的实验表明,成功减少了歧视,同时保持了数据效用并限制了个体失真。
- 该方法通过确保受保护群体间的结果分布相似,实现了群体公平性,即使受保护属性未被直接使用。
- 以高概率(1−β)下,转换后数据的条件结果分布与目标分布保持接近,偏差被限制在O(√(log n / n))以内。
- 该框架提供了泛化的理论保证,表明随着样本量增加,公平性与效用可高概率地得以保持。
- 实证结果揭示了美国社会中此前隐藏的间接偏见模式,特别是在刑事司法数据中。
- 该方法通过显式建模每个样本的失真约束,优于以往的预处理方法,从而在个体公平性方面表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。