QUICK REVIEW

[论文解读] Learning Adversarially Fair and Transferable Representations

David Madras, Elliot Creager|arXiv (Cornell University)|Feb 17, 2018

Adversarial Robustness in Machine Learning参考文献 34被引用 190

一句话总结

本文提出一个框架（LAFTR），通过对抗性目标学习表征以实现公平性（人口统计学平等、等化错判率、等化机会），并演示对未见任务的公平转移。

ABSTRACT

In this paper, we advocate for representation learning as the key to mitigating unfair prediction outcomes downstream. Motivated by a scenario where learned representations are used by third parties with unknown objectives, we propose and explore adversarial representation learning as a natural method of ensuring those parties act fairly. We connect group fairness (demographic parity, equalized odds, and equal opportunity) to different adversarial objectives. Through worst-case theoretical guarantees and experimental validation, we show that the choice of this objective is crucial to fair prediction. Furthermore, we present the first in-depth experimental demonstration of fair transfer learning and demonstrate empirically that our learned representations admit fair predictions on new tasks while maintaining utility, an essential goal of fair representation learning.

研究动机与目标

将表示学习作为在第三方目标未知时减轻下游预测不公平的一种途径。
将群体公平性概念与对抗性目标联系起来，并给出理论层面的公平性保证。
开发并评估一个可迁移的表示学习框架，使在新任务上产生公平预测的同时保持有用性。

提出的方法

提出一个广义的表示学习模型，包含对编码器 f、分类器 g、解码器 k，以及在表示 Z 上工作的对手(h adversary) h。
定义一个 min-max 目标，结合分类损失、重构损失，以及旨在保护敏感属性 A 的对抗损失。
引入面向人口统计学平等、等化错判率、等化机会的新颖基于群体公平性的对抗目标。
使用神经网络实现 f、g、h、k，并通过交替梯度下降步骤进行训练。
给出理论边界，显示对手的目标如何对分类器 g 的下游公平性违规进行上界约束。
通过用重构目标进行训练并在未见的迁移任务上进行评估，强调公平转移。

实验结果

研究问题

RQ1对抗性训练得到的表征是否能对各种群体公平性指标的下游不公平进行界定上界？
RQ2在未见任务上，学习得到的表征是否能在下游模型不施加显式公平约束的情况下实现公平且准确的预测（公平转移）？
RQ3不同的对抗目标（DP、EO、EOpp）如何与相应的公平性概念及其保证相关？
RQ4以表征为中心的公平性方法对跨越多样任务的迁移学习性能有何影响？

主要发现

对抗性训练的表征可以界定下游分类器在人口统计学平等和等化错判率方面的差异。
该方法实现公平转移，即在一个任务上学习的表征支持未见任务上的公平预测，同时保持效用。
不同的对抗目标与人口统计学平等、等化错判率和等化机会的概念相匹配，提供定制化的公平控制。
在 Adult 数据集上的实验结果在各公平性指标上显示出有利的准确性与公平性的权衡。
本文提供了首次对使用学习表征的公平转移学习的深入实验演示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。