QUICK REVIEW

[论文解读] LEACE: Perfect linear concept erasure in closed form

Nora Belrose, David Schneider-Joseph|arXiv (Cornell University)|Jun 6, 2023

Topic Modeling被引用 12

一句话总结

LEACE 提供一个闭式解、最小二乘法，用以消除目标概念，使所有线性分类器都无法检测到它，同时尽可能保留数据表示；它通过概念清理扩展到深度网络，并在语言模型中的性别偏见和词性信息上进行评估。

ABSTRACT

Concept erasure aims to remove specified features from an embedding. It can improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). We introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while changing the embedding as little as possible, as measured by a broad class of norms. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.

研究动机与目标

通过从表示中移除关于目标概念的信息，推动为了公平性和可解释性而进行概念抹除。
开发一个闭式抹除算子，在保证线性受限性的同时保持表示质量。
通过在深度网络中逐层应用（概念清理）扩展抹除，并在偏见和语言信息上进行评估。
提供将线性受限性与零跨协方差及等类质心联系起来的理论保证。
提供在固有任务和下游任务上对先前方法的实际、有效比较。

提出的方法

定义线性受限性，并在线性预测器下证明其等价于等类质心和零跨协方差。
推导 LEAst-squares Concept Erasure (LEACE) 作为在 Cov(PX+ b, Z)=0 的约束下最小化对 X 的均方变化的仿射变换。
证明 LEACE 是唯一在由内积诱导的范数下使抹除最小的擦除器（如欧几里得范数、马氏距离等）。
将 LEACE 表征为 r_LEACE(x)= x − W^+ P_{W Σ_{XZ}} W (x − E[X])，其中 whitening W 和投影到列空间 colsp(W Σ_{XZ})。
通过推导最优偏置 b* 并结合为最终的 LEACE 形式，将其扩展到未居中 X。
引入概念清理，以在深度网络的各层中按顺序应用 LEACE。

Figure 1: LEACE projection in 3 steps. First the data is whitened, ensuring equal variance in all directions. It is then orthogonally projected onto $\mathrm{colsp}(\mathbf{W}\mathbf{\Sigma}_{{\mathrm{X}}{\mathrm{Z}}})^{\perp}$ , guaranteeing linear guardedness. Finally, we unwhiten the data so that

实验结果

研究问题

RQ1是否存在一个闭式仿射变换，在所有线性预测器下都能实现对目标概念的抹除，同时确保线性受限性？
RQ2在常见范数下，哪种抹除算子对系统的干扰最小，能够实现线性受限性？
RQ3在深度网络中逐层应用 LEACE（概念清理）是否能有效抹除概念信息，同时对下游任务的影响最小？
RQ4LEACE 与先前方法（如 SAL、Mean Projection、Fair PCA、RLACE、INLP）在抹除性别偏见和保持任务性能方面的比较如何？
RQ5LEACE 是否可以扩展到连续目标 Z 和非居中场景下具有等效最优抹除？

主要发现

LEACE 在冻结的 BERT 最后层表示中实现了对性别的随机预测，且仅需较小的均方编辑，In erasure 质量和速度上优于 RLACE。
结合 LEACE 的概念清理在保持主任务性能的同时降低偏见，例如职业预测准确率保持较高，而 TPR-GAP 偏差显著降低（0.198 降至 0.084）。
抹除后重新拟合主任务分类器，准确率略有变化（例如 77.3% 提升到 78.1%），同时在保护属性上的偏见显著下降。
在内在性别抹除实验中，LEACE 的速度比基于梯度的 RLACE 快约 100×，并在实现近似随机抹除方面优于 INLP。
理论结果建立了线性受限性、等类质心、零跨协方差以及 Z 的对称性之间的等价关系，为系统的抹除构造提供了原理性依据。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。