Skip to main content
QUICK REVIEW

[论文解读] LEACE: Perfect linear concept erasure in closed form

Nora Belrose, David Schneider-Joseph|arXiv (Cornell University)|Jun 6, 2023
Topic Modeling被引用 12
一句话总结

LEACE 提供一个闭式解、最小二乘法,用以消除目标概念,使所有线性分类器都无法检测到它,同时尽可能保留数据表示;它通过概念清理扩展到深度网络,并在语言模型中的性别偏见和词性信息上进行评估。

ABSTRACT

Concept erasure aims to remove specified features from an embedding. It can improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). We introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while changing the embedding as little as possible, as measured by a broad class of norms. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.

研究动机与目标

  • 通过从表示中移除关于目标概念的信息,推动为了公平性和可解释性而进行概念抹除。
  • 开发一个闭式抹除算子,在保证线性受限性的同时保持表示质量。
  • 通过在深度网络中逐层应用(概念清理)扩展抹除,并在偏见和语言信息上进行评估。
  • 提供将线性受限性与零跨协方差及等类质心联系起来的理论保证。
  • 提供在固有任务和下游任务上对先前方法的实际、有效比较。

提出的方法

  • 定义线性受限性,并在线性预测器下证明其等价于等类质心和零跨协方差。
  • 推导 LEAst-squares Concept Erasure (LEACE) 作为在 Cov(PX+ b, Z)=0 的约束下最小化对 X 的均方变化的仿射变换。
  • 证明 LEACE 是唯一在由内积诱导的范数下使抹除最小的擦除器(如欧几里得范数、马氏距离等)。
  • 将 LEACE 表征为 r_LEACE(x)= x − W^+ P_{W Σ_{XZ}} W (x − E[X]),其中 whitening W 和投影到列空间 colsp(W Σ_{XZ})。
  • 通过推导最优偏置 b* 并结合为最终的 LEACE 形式,将其扩展到未居中 X。
  • 引入概念清理,以在深度网络的各层中按顺序应用 LEACE。
Figure 1: LEACE projection in 3 steps. First the data is whitened, ensuring equal variance in all directions. It is then orthogonally projected onto $\mathrm{colsp}(\mathbf{W}\mathbf{\Sigma}_{{\mathrm{X}}{\mathrm{Z}}})^{\perp}$ , guaranteeing linear guardedness. Finally, we unwhiten the data so that
Figure 1: LEACE projection in 3 steps. First the data is whitened, ensuring equal variance in all directions. It is then orthogonally projected onto $\mathrm{colsp}(\mathbf{W}\mathbf{\Sigma}_{{\mathrm{X}}{\mathrm{Z}}})^{\perp}$ , guaranteeing linear guardedness. Finally, we unwhiten the data so that

实验结果

研究问题

  • RQ1是否存在一个闭式仿射变换,在所有线性预测器下都能实现对目标概念的抹除,同时确保线性受限性?
  • RQ2在常见范数下,哪种抹除算子对系统的干扰最小,能够实现线性受限性?
  • RQ3在深度网络中逐层应用 LEACE(概念清理)是否能有效抹除概念信息,同时对下游任务的影响最小?
  • RQ4LEACE 与先前方法(如 SAL、Mean Projection、Fair PCA、RLACE、INLP)在抹除性别偏见和保持任务性能方面的比较如何?
  • RQ5LEACE 是否可以扩展到连续目标 Z 和非居中场景下具有等效最优抹除?

主要发现

  • LEACE 在冻结的 BERT 最后层表示中实现了对性别的随机预测,且仅需较小的均方编辑,In erasure 质量和速度上优于 RLACE。
  • 结合 LEACE 的概念清理在保持主任务性能的同时降低偏见,例如职业预测准确率保持较高,而 TPR-GAP 偏差显著降低(0.198 降至 0.084)。
  • 抹除后重新拟合主任务分类器,准确率略有变化(例如 77.3% 提升到 78.1%),同时在保护属性上的偏见显著下降。
  • 在内在性别抹除实验中,LEACE 的速度比基于梯度的 RLACE 快约 100×,并在实现近似随机抹除方面优于 INLP。
  • 理论结果建立了线性受限性、等类质心、零跨协方差以及 Z 的对称性之间的等价关系,为系统的抹除构造提供了原理性依据。
(a)
(a)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。