Skip to main content
QUICK REVIEW

[论文解读] Linear Adversarial Concept Erasure

Shauli Ravfogel, Michael Twiton|arXiv (Cornell University)|Jan 28, 2022
Adversarial Robustness in Machine Learning被引用 23
一句话总结

引入线性极小极大框架,以从预训练表示中识别并抹除一个概念子空间,并提出 R-LACE,一种凸松弛方法,有效降低静态和上下文模型的偏见,同时保持可解释性。

ABSTRACT

Modern neural models trained on textual data rely on pre-trained representations that emerge without direct supervision. As these representations are increasingly being used in real-world applications, the inability to \emph{control} their content becomes an increasingly important problem. We formulate the problem of identifying and erasing a linear subspace that corresponds to a given concept, in order to prevent linear predictors from recovering the concept. We model this problem as a constrained, linear maximin game, and show that existing solutions are generally not optimal for this task. We derive a closed-form solution for certain objectives, and propose a convex relaxation, \method, that works well for others. When evaluated in the context of binary gender removal, the method recovers a low-dimensional subspace whose removal mitigates bias by intrinsic and extrinsic evaluation. We show that the method is highly expressive, effectively mitigating bias in deep nonlinear classifiers while maintaining tractability and interpretability.

研究动机与目标

  • 动机并正式化从固定表示后撤除一个线性概念,以防止线性预测器恢复该概念。
  • 定义一个受限的线性极小极大博弈,以识别偏置子空间并将表示投影到其正交补。
  • 推导某些目标的闭式解,开发用于分类任务的凸松弛(R-LACE)。
  • 评估静态(GloVe)和上下文(BERT)表示中的性别偏见抹除,并分析偏见缓解与任务影响。

提出的方法

  • 将问题建模为基于正交投影的极小极大博弈,通过 P = I_D − W^T W、WW^T = I_k 来中和秩-k子空间 B。
  • 专门化到线性回归、偏最小二乘(Rayleigh 商)和逻辑回归,推导回归和 Rayleigh 商情形的闭式解。
  • 通过将投影矩阵集合凸化到 Fantope,引入 R-LACE,使分类任务的梯度优化成为可行。
  • 提供 θ 和 P 的交替优化算法,及对解松弛问题的投影到凸 hull(Fantope)

实验结果

研究问题

  • RQ1我们能否识别一个线性子空间,当将其投影出去时,能阻止线性预测器从固定表示中恢复目标概念?
  • RQ2对于给定概念,在尽量保持其他输入信息的前提下,最大化损失所需的最佳(最小秩 k)子空间是什么?
  • RQ3与精确的极小极大解和 INLP 相比,提出的 R-LACE 松弛在分类任务中的表现如何?
  • RQ4线性概念抹除方法是否能将效果转移到深度非线性分类器和现实世界偏见指标?

主要发现

模型性别预测准确率职业预测准确率GAP_Male,y^{TPR,RMS}sigma_{(GAP^{TPR},%Women)}
BERT-frozen99.3279.140.1450.813
BERT-frozen + RLACE (rank 1)52.4878.860.1090.680
BERT-frozen + RLACE (rank 100)52.7777.280.1020.615
BERT-frozen + INLP (rank 1)98.9879.090.1370.816
BERT-frozen + INLP (rank 100)53.2171.940.0990.604
BERT-finetuned96.89 ± 1.0185.12 ± 0.080.123 ± 0.0110.810 ± 0.023
BERT-finetuned + RLACE (rank 1)54.59 ± 0.6685.09 ± 0.070.117 ± 0.0110.794 ± 0.025
BERT-finetuned + RLACE (rank 100)54.33 ± 0.3685.04 ± 0.090.115 ± 0.0140.792 ± 0.025
BERT-finetuned + INLP (rank 1)93.52 ± 1.4285.12 ± 0.080.122 ± 0.0110.808 ± 0.024
BERT-finetuned + INLP (rank 100)53.04 ± 0.9784.98 ± 0.060.113 ± 0.0090.797 ± 0.027
BERT-adv (MLP adversary)99.57 ± 0.0584.87 ± 0.110.128 ± 0.0040.840 ± 0.015
BERT-adv (Linear adversary)99.23 ± 0.0984.92 ± 0.120.124 ± 0.0050.827 ± 0.012
Majority53.5230.0--
  • 线性极小极大表述可以识别一个低维偏见子空间,其清除后降低对该概念的线性可预测性。
  • 在线性回归和 Rayleigh 商(例如 PLS)设置中存在闭式平衡解,最优的 θ 和 P 可解析表征。
  • R-LACE,作为一个凸松弛,通过对 θ 和 P 的交替优化并对 Fantope 的投影,有效解决基于分类的概念抹除。
  • 在性别偏见实验中,秩-1 投影通常足以中和 GloVe 中的线性性别信息,同时保留语义内容(SimLex-999),并允许非线性模型仍然预测性别。
  • R-LACE 在静态和上下文嵌入中都实现了显著的偏见缓解,通常在达到相同或更好的偏见减少时需要更少的迭代,往往优于 INLP。
  • 实验表明线性抹除在下游任务中对公平性指标有改善(如降低性别偏见),并对微调模型的主任务性能影响有限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。