Skip to main content
QUICK REVIEW

[论文解读] Estimating and Improving Fairness with Adversarial Learning

Xiaoxiao Li, Ziteng Cui|arXiv (Cornell University)|Mar 7, 2021
Adversarial Robustness in Machine Learning参考文献 25被引用 18
一句话总结

该论文提出了一种对抗性多任务学习框架,可同时缓解深度学习医学图像分析中的偏见并预测公平性。通过使用正交性正则化联合训练偏见判别模块和公平性关键模块,该方法在不访问敏感属性的情况下,有效降低了人口统计学偏见(如性别、年龄、皮肤色调等),并实现了公平性评估,进而在皮肤病变数据集上取得了最先进的公平性改进效果。

ABSTRACT

Fairness and accountability are two essential pillars for trustworthy Artificial Intelligence (AI) in healthcare. However, the existing AI model may be biased in its decision marking. To tackle this issue, we propose an adversarial multi-task training strategy to simultaneously mitigate and detect bias in the deep learning-based medical image analysis system. Specifically, we propose to add a discrimination module against bias and a critical module that predicts unfairness within the base classification model. We further impose an orthogonality regularization to force the two modules to be independent during training. Hence, we can keep these deep learning tasks distinct from one another, and avoid collapsing them into a singular point on the manifold. Through this adversarial training method, the data from the underprivileged group, which is vulnerable to bias because of attributes such as sex and skin tone, are transferred into a domain that is neutral relative to these attributes. Furthermore, the critical module can predict fairness scores for the data with unknown sensitive attributes. We evaluate our framework on a large-scale public-available skin lesion dataset under various fairness evaluation metrics. The experiments demonstrate the effectiveness of our proposed method for estimating and improving fairness in the deep learning-based medical image analysis system.

研究动机与目标

  • 解决基于深度学习的医学图像分析中缺乏偏见缓解与公平性问责的问题。
  • 开发一种方法,在推理阶段无需显式访问敏感属性的情况下,检测并减少模型预测中的偏见。
  • 通过对抗性学习训练的关键模块,实现实时部署模型的公平性估计。
  • 通过多任务训练中的正交性正则化,确保公平性与偏见检测任务相互独立。
  • 提供一种实用且可泛化的可信人工智能解决方案,支持公平性提升与模型问责。

提出的方法

  • 提出一种具有共享特征编码器、偏见判别头和公平性关键预测头的多任务对抗训练框架。
  • 采用判别器头,基于敏感属性(如性别、皮肤色调)区分特权与非特权样本。
  • 训练关键模块以预测输入数据的公平性分数(如 SPD、EOD、AOD),而无需了解敏感属性或真实标签。
  • 对两个头的梯度应用正交性正则化,强制偏见检测与公平性预测任务之间的独立性。
  • 采用双分支网络结构:一个用于分类,一个用于公平性估计,共享卷积特征并具有独立的全连接头。
  • 在偏见判别器中使用 Sigmoid 激活函数,并在关键模块中对公平性分数预测采用批量平均。

实验结果

研究问题

  • RQ1对抗性训练能否在不访问敏感属性的情况下,同时实现医学图像分类中的偏见缓解与公平性估计?
  • RQ2正交性正则化在保持偏见检测与公平性预测任务独立性方面有多有效?
  • RQ3所提出的框架在皮肤病变分类中能将 SPD、EOD 和 AOD 等公平性指标降低到何种程度?
  • RQ4关键模块能否在敏感属性未知的情况下,准确预测未见推理数据的公平性分数?
  • RQ5该框架在提升公平性的同时,是否保持或改善了分类性能?

主要发现

  • 采用正交性正则化的所提方法('Ours w/ 𝒪𝑟𝑡ℎ')在公平性指标上显著优于基线模型,SPD 为 0.019,EOD 为 0.014,AOD 为 0.113,表明其具有更优的偏见缓解能力。
  • 未使用正交性正则化的模型('Ours w/o 𝒪𝑟𝑡ℎ')公平性指标更高(SPD:0.25–0.38),表明正则化对有效偏见减少至关重要。
  • 采用正交性正则化的关键模块在预测与真实 SPD 分数之间实现了 0.85 的皮尔逊相关系数,证明了公平性估计的准确性。
  • 与基线模型相比,该模型在保持或略微提升分类性能的同时,未造成显著效用损失。
  • 在采用正交性正则化时,预测的公平性分数与真实值高度吻合,尤其在性别与皮肤色调属性上表现良好;而未使用正则化的预测则系统性地被高估。
  • 该框架成功将公平性预测与偏见检测解耦,正交性梯度约束确保了任务独立性,从而实现了更可靠的公平性估计。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。