Skip to main content
QUICK REVIEW

[论文解读] Transfer of Machine Learning Fairness across Domains

Candice Schumann, Xuezhi Wang|arXiv (Cornell University)|Jun 24, 2019
Ethics and Social Impacts of AI参考文献 31被引用 26
一句话总结

本文提出了一种领域自适应框架,以在机器学习领域间迁移公平性,利用理论边界和一种新颖的建模范式,提升数据稀疏目标领域的公平性度量。结果表明,将源领域(如性别)的去偏知识迁移至目标领域(如种族)可显著减少公平性差距——尤其是FPR差异——且仅需极少目标数据,优于基线方法,在UCI和COMPAS数据集的合成与真实世界实验中表现更优。

ABSTRACT

If our models are used in new or unexpected cases, do we know if they will make fair predictions? Previously, researchers developed ways to debias a model for a single problem domain. However, this is often not how models are trained and used in practice. For example, labels and demographics (sensitive attributes) are often hard to observe, resulting in auxiliary or synthetic data to be used for training, and proxies of the sensitive attribute to be used for evaluation of fairness. A model trained for one setting may be picked up and used in many others, particularly as is common with pre-training and cloud APIs. Despite the pervasiveness of these complexities, remarkably little work in the fairness literature has theoretically examined these issues. We frame all of these settings as domain adaptation problems: how can we use what we have learned in a source domain to debias in a new target domain, without directly debiasing on the target domain as if it is a completely new problem? We offer new theoretical guarantees of improving fairness across domains, and offer a modeling approach to transfer to data-sparse target domains. We give empirical results validating the theory and showing that these modeling approaches can improve fairness metrics with less data.

研究动机与目标

  • 解决从源领域向数据稀疏目标领域迁移公平性的问题,而无需从头开始训练。
  • 为在不同领域间迁移机会均等性和机会均等性公平度量提供理论保障。
  • 设计一种通用且理论基础坚实的建模范式,以实现有效的公平性迁移。
  • 通过真实世界和合成场景的实证验证,证明公平性迁移的有效性,尤其在低数据场景下。

提出的方法

  • 将公平性迁移建模为领域自适应问题,将源领域的去偏知识应用于具有不同数据分布的目标领域。
  • 推导在领域分布偏移下公平性度量迁移的理论边界,尤其关注FPR差距(假阳性率差异)的边界。
  • 提出一种联合优化准确率与公平性迁移的建模范式,采用共享表示与公平感知头。
  • 在潜在表示上采用对抗训练,以对齐源域与目标域特征,同时保持公平性约束。
  • 使用代理敏感属性和合成数据增强,以模拟现实世界中的数据稀缺与分布偏移。
  • 通过交叉验证和超参数调优(包括批量大小、初始学习率、隐藏单元数、嵌入维度和训练步数)以优化性能。

实验结果

研究问题

  • RQ1在数据有限的情况下,能否有效将公平性度量(如机会均等性和机会均等性)从源领域迁移至目标领域?
  • RQ2当源域与目标域的敏感属性不同时,公平性迁移的理论边界在领域分布偏移下表现如何,尤其是FPR差距?
  • RQ3与基线方法相比,所提出的建模范式在低数据目标领域中,能在多大程度上减少公平性差距(如FPR差异)?
  • RQ4模型中公平性/迁移头的不同权重设置下,准确率与公平性之间的权衡如何变化?
  • RQ5在何种情况下公平性迁移会失败?哪些因素(如数据分布、代理质量)对迁移能力影响最大?

主要发现

  • Transfer模型显著降低了目标领域的FPR差距,即使仅有50个目标样本,其差异也低于基线模型。
  • 在UCI数据集上,当从性别迁移至种族且仅使用50个目标种族样本时,Transfer模型将FPR差距降低了高达50%。
  • 在COMPAS数据集上,Transfer模型在所有目标样本规模下均保持了强劲的公平性表现,FPR差距相比基线最高降低了40%。
  • 该模型在准确率与公平性之间实现了有利的权衡,即使在优化公平性迁移时,准确率仍保持在基线模型的2个百分点以内。
  • 实证结果表明,当源域与目标域具有相似的潜在数据分布,且代理敏感属性对齐良好时,公平性迁移效果更佳。
  • 消融研究证实,公平性/迁移头对性能至关重要,移除该头会导致目标领域FPR差距急剧上升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。