Skip to main content
QUICK REVIEW

[论文解读] Data Decisions and Theoretical Implications when Adversarially Learning Fair Representations

Alex Beutel, Jilin Chen|arXiv (Cornell University)|Jul 1, 2017
Adversarial Robustness in Machine Learning参考文献 11被引用 295
一句话总结

本文使用对抗性训练在推断时无法访问敏感属性的情况下学习公平的潜在表示,展示对抗性数据分布如何塑造公平定义,以及小型、平衡的对抗性数据集如何在准确度权衡下显著改善公平性。

ABSTRACT

How can we learn a classifier that is "fair" for a protected or sensitive group, when we do not know if the input to the classifier belongs to the protected group? How can we train such a classifier when data on the protected group is difficult to attain? In many settings, finding out the sensitive input attribute can be prohibitively expensive even during model training, and sometimes impossible during model serving. For example, in recommender systems, if we want to predict if a user will click on a given recommendation, we often do not know many attributes of the user, e.g., race or age, and many attributes of the content are hard to determine, e.g., the language or topic. Thus, it is not feasible to use a different classifier calibrated based on knowledge of the sensitive attribute. Here, we use an adversarial training procedure to remove information about the sensitive attribute from the latent representation learned by a neural network. In particular, we study how the choice of data for the adversarial training effects the resulting fairness properties. We find two interesting results: a small amount of data is needed to train these adversarial models, and the data distribution empirically drives the adversary's notion of fairness.

研究动机与目标

  • 在推断时无法获取敏感属性,或在训练阶段难以标注时,推动学习公平的预测。
  • 将公平定义与用于对抗性目标的数据分布联系起来。
  • 通过实证评估需要多少对抗性数据以及其分布如何影响公平性结果。
  • 展示在不同对抗性数据制度下,模型准确度与公平性之间的权衡。

提出的方法

  • 提出一种多头神经网络:其中一个头预测Y,另一个对手尝试从潜在表示g(X)预测敏感属性Z。
  • 通过J_lambda引入负梯度技巧,确保g(X)隐藏关于Z的信息,同时仍能较好地预测Y。
  • 分析对抗方使用的数据集S及其在Y和Z上的分布如何影响得到的公平性属性。
  • 实验不同规模和分布的S,以研究对公平性指标和准确度的影响。

实验结果

研究问题

  • RQ1对抗性训练数据S的选择与分布如何影响模型得到的公平性?
  • RQ2在对抗性训练中使用平衡与不平衡的敏感属性Z分布对公平性和准确度有何影响?
  • RQ3需要多少对抗性数据才能在不牺牲过多准确性的情况下获得有意义的公平性提升?
  • RQ4主标签Y(收入)的不同分布如何影响学习表征中的机会平等和人口统计学上的平等?

主要发现

MaleFemale
151289592
66621179
  • 平衡的对抗性数据显著改善公平性指标并稳定训练,尽管会在一定程度上降低准确度。
  • 与高收入或低收入群体对齐的对抗性数据分布在对应组的机会平等方面带来改进,而混合群体则在各项指标上提升公平性。
  • 即使是非常小的对抗性数据集(仅500个样本)也能带来有意义的公平性提升。
  • 对抗性数据中主标签Y的分布推动了不同的公平性结果,与将数据选择与公平定义联系起来的理论预期一致。
  • 在对抗性训练中,Z的平衡分布通常比从自然分布随机抽样产生更强的公平性效果。
  • 存在权衡:更强的公平性(较低差异)通常伴随着预测精度的下降,λ调节介入这一平衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。