[论文解读] LEACE: Perfect linear concept erasure in closed form
LEACE 提供一个闭式解、最小二乘法,用以消除目标概念,使所有线性分类器都无法检测到它,同时尽可能保留数据表示;它通过概念清理扩展到深度网络,并在语言模型中的性别偏见和词性信息上进行评估。
Concept erasure aims to remove specified features from an embedding. It can improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). We introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while changing the embedding as little as possible, as measured by a broad class of norms. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.
研究动机与目标
- 通过从表示中移除关于目标概念的信息,推动为了公平性和可解释性而进行概念抹除。
- 开发一个闭式抹除算子,在保证线性受限性的同时保持表示质量。
- 通过在深度网络中逐层应用(概念清理)扩展抹除,并在偏见和语言信息上进行评估。
- 提供将线性受限性与零跨协方差及等类质心联系起来的理论保证。
- 提供在固有任务和下游任务上对先前方法的实际、有效比较。
提出的方法
- 定义线性受限性,并在线性预测器下证明其等价于等类质心和零跨协方差。
- 推导 LEAst-squares Concept Erasure (LEACE) 作为在 Cov(PX+ b, Z)=0 的约束下最小化对 X 的均方变化的仿射变换。
- 证明 LEACE 是唯一在由内积诱导的范数下使抹除最小的擦除器(如欧几里得范数、马氏距离等)。
- 将 LEACE 表征为 r_LEACE(x)= x − W^+ P_{W Σ_{XZ}} W (x − E[X]),其中 whitening W 和投影到列空间 colsp(W Σ_{XZ})。
- 通过推导最优偏置 b* 并结合为最终的 LEACE 形式,将其扩展到未居中 X。
- 引入概念清理,以在深度网络的各层中按顺序应用 LEACE。

实验结果
研究问题
- RQ1是否存在一个闭式仿射变换,在所有线性预测器下都能实现对目标概念的抹除,同时确保线性受限性?
- RQ2在常见范数下,哪种抹除算子对系统的干扰最小,能够实现线性受限性?
- RQ3在深度网络中逐层应用 LEACE(概念清理)是否能有效抹除概念信息,同时对下游任务的影响最小?
- RQ4LEACE 与先前方法(如 SAL、Mean Projection、Fair PCA、RLACE、INLP)在抹除性别偏见和保持任务性能方面的比较如何?
- RQ5LEACE 是否可以扩展到连续目标 Z 和非居中场景下具有等效最优抹除?
主要发现
- LEACE 在冻结的 BERT 最后层表示中实现了对性别的随机预测,且仅需较小的均方编辑,In erasure 质量和速度上优于 RLACE。
- 结合 LEACE 的概念清理在保持主任务性能的同时降低偏见,例如职业预测准确率保持较高,而 TPR-GAP 偏差显著降低(0.198 降至 0.084)。
- 抹除后重新拟合主任务分类器,准确率略有变化(例如 77.3% 提升到 78.1%),同时在保护属性上的偏见显著下降。
- 在内在性别抹除实验中,LEACE 的速度比基于梯度的 RLACE 快约 100×,并在实现近似随机抹除方面优于 INLP。
- 理论结果建立了线性受限性、等类质心、零跨协方差以及 Z 的对称性之间的等价关系,为系统的抹除构造提供了原理性依据。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。