Skip to main content
QUICK REVIEW

[论文解读] Sparse CLIP: Co-Optimizing Interpretability and Performance in Contrastive Learning

Chuan Qin, Constantin Venhoff|arXiv (Cornell University)|Jan 27, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

Sparse CLIP 在前向路径中引入稀疏性来训练 CLIP,获得可解释的多模态特征且不牺牲下游性能,并展示了如基于视觉的方向控制等应用。

ABSTRACT

Contrastive Language-Image Pre-training (CLIP) has become a cornerstone in vision-language representation learning, powering diverse downstream tasks and serving as the default vision backbone in multimodal large language models (MLLMs). Despite its success, CLIP's dense and opaque latent representations pose significant interpretability challenges. A common assumption is that interpretability and performance are in tension: enforcing sparsity during training degrades accuracy, motivating recent post-hoc approaches such as Sparse Autoencoders (SAEs). However, these post-hoc approaches often suffer from degraded downstream performance and loss of CLIP's inherent multimodal capabilities, with most learned features remaining unimodal. We propose a simple yet effective approach that integrates sparsity directly into CLIP training, yielding representations that are both interpretable and performant. Compared to SAEs, our Sparse CLIP representations preserve strong downstream task performance, achieve superior interpretability, and retain multimodal capabilities. We show that multimodal sparse features enable straightforward semantic concept alignment and reveal training dynamics of how cross-modal knowledge emerges. Finally, as a proof of concept, we train a vision-language model on sparse CLIP representations that enables interpretable, vision-based steering capabilities. Our findings challenge conventional wisdom that interpretability requires sacrificing accuracy and demonstrate that interpretability and performance can be co-optimized, offering a promising design principle for future models.

研究动机与目标

  • 在 CLIP 的密集潜在空间中提出并解决可解释性挑战。
  • 研究在不牺牲准确性的前提下,将稀疏性整合到 CLIP 训练中。
  • 开发与评估一个具备稀疏化能力的 CLIP 模型,保持多模态能力与可解释性。

提出的方法

  • 在 CLIP 训练中引入非负性约束(最终投影后的 ReLU)并显著扩大嵌入维度以诱导稀疏性。
  • 将稀疏性框定在字典学习的视角,连接非负对比学习与非负矩阵分解(NMF),支持稀疏表示。
  • 进行小规模消融研究以研究维度、稀疏诱导方法和对数尺度上限对稀疏性及零-shot 性能的影响。
  • 扩展到 ViT-L/14,在 2.2B 的 MetaCLIP 数据集上产生 55,296 维的稀疏表示(嵌入扩展因子 721)。
  • 评估可解释性(Clarity)和多模态性测量,并与 Sparse Autoencoders(SAEs)及密集基线进行比较。
  • 展示一个使用 Sparse CLIP 特征的视-语言模型(VLM),并探讨通过调节特征激活来实现基于视觉的方向控制。

实验结果

研究问题

  • RQ1稀疏性是否可以在保持或提升下游性能的同时成为 CLIP 训练的原生特性?
  • RQ2与事后稀疏方法(如 SAE)相比,经过稀疏训练的 CLIP 表征是否更具可解释性和多模态性?
  • RQ3稀疏 CLIP 特征如何与跨模态的人类可解释概念对齐?
  • RQ4稀疏 CLIP 表征是否能够实现可解释的方向控制等实际 VLM 应用?
  • RQ5在稀疏 CLIP 训练过程中,概念如何出现和演化?

主要发现

  • Sparse CLIP 模型在达到极端稀疏(例如 ViT-L/14 Sparse 与 Sparse+ 中的激活稀疏度分别为 0.66% 和 0.47%)的同时保持了可比的零-shot 与细粒度性能。
  • Sparse CLIP 特征主要呈现多模态性,对图像和文本输入均有激活,而非像许多基于 SAE 的方法那样单模态。
  • Sparse CLIP 通过将来自大词汇表的顶层激活词与特征联系起来,实现概念标注,在多模态概念上文本与视觉之间具有高度相关性。
  • 训练时的稀疏性带来可解释的表征,在所评估的数据集上比开放权重的 SAEs 具有更高的 Clarity。
  • 用 Sparse CLIP 特征构建的视-语言模型在图像问答基准测试中达到与基线相当的性能,并展示了基于视觉的方向控制能力。
  • 概念出现研究表明多模态特征在训练早期出现并在训练过程中演化,一些特征随时间发生有意义的转变。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。