[论文解读] Fair Normalizing Flows
FNF 是一种新颖的方法,通过将编码器建模为归一化流来学习公平表示,从而最小化敏感群体潜在分布之间的统计距离。通过实现精确的似然计算,FNF 提供了对抗性准确率的可证明上界(≤ (1+∆)/2),确保敏感属性无法被恢复超过随机猜测的程度,同时保持下游任务的高实用性。
Fair representation learning is an attractive approach that promises fairness of downstream predictors by encoding sensitive data. Unfortunately, recent work has shown that strong adversarial predictors can still exhibit unfairness by recovering sensitive attributes from these representations. In this work, we present Fair Normalizing Flows (FNF), a new approach offering more rigorous fairness guarantees for learned representations. Specifically, we consider a practical setting where we can estimate the probability density for sensitive groups. The key idea is to model the encoder as a normalizing flow trained to minimize the statistical distance between the latent representations of different groups. The main advantage of FNF is that its exact likelihood computation allows us to obtain guarantees on the maximum unfairness of any potentially adversarial downstream predictor. We experimentally demonstrate the effectiveness of FNF in enforcing various group fairness notions, as well as other attractive properties such as interpretability and transfer learning, on a variety of challenging real-world datasets.
研究动机与目标
- 为解决现有公平表示学习方法的局限性,这些方法无法防止强敌手从潜在表示中恢复敏感属性。
- 通过确保任何下游预测器都无法准确推断出学习表示中的敏感属性,提供可证明的公平性保证。
- 在通过可逆的流式编码器强制实现公平性的同时,保持下游预测任务的高实用性。
- 通过归一化流架构的可逆性,支持可解释性和算法补救。
提出的方法
- FNF 使用两个独立的归一化流编码器 f0 和 f1,将来自两个敏感群体(a=0 和 a=1)的数据映射到潜在空间,其分布分别为 pZ0 和 pZ1。
- 训练目标是最小化 pZ0 和 pZ1 之间的统计距离 ∆,确保不同群体的潜在表示不可区分。
- 潜在空间中的精确似然计算使得可以推导出任何敌手准确率的上界:≤ (1+∆)/2,该上界对人口均等性和机会均等性等公平性度量是紧致的。
- 流的可逆性使得能够从潜在码重建原始输入,从而支持算法补救和可解释性。
- 当真实输入分布 p0 和 p1 未知时,使用密度估计来近似它们,理论保证可扩展至估计分布。
- 该方法与流架构正交,可与归一化流的进展(如 RealNVP 和 Neural Spline Flows)集成。
实验结果
研究问题
- RQ1我们能否学习到可证明防止任何敌手恢复敏感属性的公平表示,超越标准对抗训练的局限?
- RQ2如何利用归一化流中的精确似然计算,推导出对抗性公平性的紧致、可证明的上界?
- RQ3FNF 在强制实现公平性的同时,对下游预测任务的实用性保持程度如何?
- RQ4FNF 是否能通过可逆表示支持算法补救和可解释性?
- RQ5当使用估计的输入密度而非真实分布时,公平性保证的鲁棒性如何?
主要发现
- 在 Crime 数据集上,FNF 将群体潜在分布之间的统计距离 ∆ 降低至 0.23(γ=0.90),显著限制了敌手对敏感属性的恢复能力。
- 当 ∆≈0.23 时,敌手准确率的上界为 ≤ (1+0.23)/2 = 0.615,意味着任何敌手无法将准确率优于随机猜测超过 11.5 个百分点。
- 在 Law School 数据集上,FNF 通过识别特征变化(例如将 LSAT 提高 4.2–7.7 分)实现了算法补救,这些变化可导致有利决策,结果按种族分层呈现。
- 在 Health Heritage Prize 数据集上,FNF 的迁移学习保持了公平性:统计距离从 0.99 降至 0.31,主要条件组的准确率仅轻微下降(从 73.8% 降至 73.1%)。
- FNF 在强制实现公平性的同时,保持了高下游准确率(例如在 Crime 数据集上使用 RealNVP 为 85%,使用 NSF 也为 85%),表明实用性和公平性之间的权衡是有利的。
- 该方法在不同流架构(RealNVP 和 NSF)上均表现出相当的性能,表明对架构选择具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。