[论文解读] Post-hoc Concept Bottleneck Models
本文提出后置概念瓶颈模型(PCBMs),将任意预训练模型转换为可解释的概念瓶颈,使用从带注释的数据、多模态描述或残差建模学习到的概念子空间,以匹配原始准确性。它还通过基于概念层级的反馈展示了全局模型编辑,并通过用户研究评估可用性。
Concept Bottleneck Models (CBMs) map the inputs onto a set of interpretable concepts (``the bottleneck'') and use the concepts to make predictions. A concept bottleneck enhances interpretability since it can be investigated to understand what concepts the model "sees" in an input and which of these concepts are deemed important. However, CBMs are restrictive in practice as they require dense concept annotations in the training data to learn the bottleneck. Moreover, CBMs often do not match the accuracy of an unrestricted neural network, reducing the incentive to deploy them in practice. In this work, we address these limitations of CBMs by introducing Post-hoc Concept Bottleneck models (PCBMs). We show that we can turn any neural network into a PCBM without sacrificing model performance while still retaining the interpretability benefits. When concept annotations are not available on the training data, we show that PCBM can transfer concepts from other datasets or from natural language descriptions of concepts via multimodal models. A key benefit of PCBM is that it enables users to quickly debug and update the model to reduce spurious correlations and improve generalization to new distributions. PCBM allows for global model edits, which can be more efficient than previous works on local interventions that fix a specific prediction. Through a model-editing user study, we show that editing PCBMs via concept-level feedback can provide significant performance gains without using data from the target domain or model retraining.
研究动机与目标
- 解决传统概念瓶颈模型(CBMs)的局限性,即需要密集的概念注释以及可能的准确性损失。
- 提出一种数据高效的方法,将预训练模型转换为PCBMs,而不从头重新训练。
- 使能够利用跨数据集的概念或自然语言描述来构建概念瓶颈。
- 引入残差建模变体(PCBM-h),在概念库不足时恢复原有模型的性能。
- 通过概念层级反馈演示全局模型编辑,并通过用户研究评估可用性。
提出的方法
- 使用从跨数据集的概念库中学习的 Concept Activation Vectors (CAVs) 或通过多模态描述来定义概念子空间 C。
- 将骨干嵌入投影到概念子空间,得到概念投影表示 f_C(x)。
- 从 f_C(x) 训练一个可解释的预测器 g,例如稀疏线性模型,使用弹性网正则化来预测标签。
- 当概念不足时,在原始嵌入上引入残差预测器 r,以恢复原始准确性(PCBM-h)。
- 可选地使用多模态模型(如 CLIP)和文本编码器,从自然语言描述或 ConceptNet 关系中推导概念向量来构建 C。
- 提供一种全球模型编辑框架,通过调整概念权重(并可选地应用剪枝/规范化过程),在不需要目标领域数据的情况下进行。
实验结果
研究问题
- RQ1任何预训练模型都可以在不牺牲准确性的前提下转换为 PCBM 吗?
- RQ2如何从其他数据集或自然语言描述后验学习概念,形成可用的概念瓶颈?
- RQ3当概念库不充分时,残差建模(PCBM-h)是否能够恢复原始模型性能?
- RQ4用户能否通过概念层级反馈进行有效的全局模型编辑,而无需重新训练或目标领域数据?
- RQ5基于概念的编辑对模型在分布偏移下的鲁棒性有何影响?
主要发现
- PCBMs 在若干数据集上达到与原始模型相当的性能,只有一个例外(CIFAR100),原因是概念库不足。
- PCBM-h 通过增加残差预测器,在概念库表达能力不足时可恢复原始模型的准确性。
- 使用基于 CLIP 的概念或多模态描述,在某些任务中可接近原始模型的准确性,减少对带标签概念数据的依赖。
- 通过简单的概念剪枝策略进行全局编辑,可以在目标分布微调带来的增益中回收相当大的一部分(在某些情况下约一半)。
- 在有人工引导的剪枝流程下,性能提升大于随机剪枝,且在无法访问目标领域数据的情况下也能带来显著增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。