[论文解读] Learning Sparse Visual Representations via Spatial-Semantic Factorization
STELLAR 将视觉表征分解为稀疏语义 token 集与空间定位,使用极少量 token 即可实现高质量重建与强语义理解。
Self-supervised learning (SSL) faces a fundamental conflict between semantic understanding and image reconstruction. High-level semantic SSL (e.g., DINO) relies on global tokens that are forced to be location-invariant for augmentation alignment, a process that inherently discards the spatial coordinates required for reconstruction. Conversely, generative SSL (e.g., MAE) preserves dense feature grids for reconstruction but fails to produce high-level abstractions. We introduce STELLAR, a framework that resolves this tension by factorizing visual features into a low-rank product of semantic concepts and their spatial distributions. This disentanglement allows us to perform DINO-style augmentation alignment on the semantic tokens while maintaining the precise spatial mapping in the localization matrix necessary for pixel-level reconstruction. We demonstrate that as few as 16 sparse tokens under this factorized form are sufficient to simultaneously support high-quality reconstruction (2.60 FID) and match the semantic performance of dense backbones (79.10% ImageNet accuracy). Our results highlight STELLAR as a versatile sparse representation that bridges the gap between discriminative and generative vision by strategically separating semantic identity from spatial geometry. Code available at https://aka.ms/stellar.
研究动机与目标
- 通过在自监督视觉学习中分离语义信息与空间信息,来激发并解决不变性悖论。
- 引入视觉特征的稀疏、低秩分解,使得既能重建又能实现语义理解。
- 通过聚类与稀疏 token 的集合对齐,学习可迁移的视觉概念。
- 证明稀疏分解表征在语义上可与密集 backbone 匹配,同时实现重建能力。
提出的方法
- 将图像表征分解为 Z(X) = L(X) S(X),其中 S 包含 r 个语义概念 token,L 编码它们在 n 个 patch 上的空间分布。
- 使用低秩瓶颈强制用少量 token 进行重建;通过自监督学习目标进行训练,包括重建损失和 What 因子的不变性。
- 将 token 聚类为 K 个可学习原型,采用带熵正则的最优运输(Sinkhorn)以鼓励多样化、可迁移的概念。
- 通过基于最优运输的集合匹配,在不同视图之间对齐稀疏 token,以在保持空间定位的同时实现语义不变性。
- 利用 KoLeo 对 token 多样性进行正则化;联合优化编码器、解码器、投影头和原型,损失以加权和形式组合。
- 描述一个轻量级的基于 ViT 的架构:一个产生 S 和 L 的编码器,以及一个用于重建的 6 层解码器。
实验结果
研究问题
- RQ1一个稀疏、分解的潜在表示是否能够在自监督学习中同时支持高保真图像重建与高层次的语义理解?
- RQ2区分 What(语义概念)与 Where(空间分布)是否能缓解在密集表示中观察到的不变性悖论?
- RQ3与密集基线相比,较少数量的稀疏 token 是否足以达到有竞争力的语义和重建?
- RQ4聚类、对齐与正则化组件如何共同影响语义质量与空间定位?
- RQ5基础先验对 STELLAR 的重建与语义有何影响?
主要发现
| 模型 | # tks | FID ↓ | LPIPS ↓ | Lin. ↑ | kNN ↑ |
|---|---|---|---|---|---|
| DINO | 1 | - | - | 76.46 | 74.69 |
| DINO | 196 | 3.27 | 0.2121 | 70.31 | 54.41 |
| MAE | 196 | 3.02 | 0.2071 | 66.32 | 25.82 |
| TiTok* | 32 | 2.75 | 0.3281 | 33.42 | 7.30 |
| TiTok* | 64 | 1.99 | 0.2571 | 32.87 | 7.29 |
| ours | 16 | 3.06 | 0.2077 | 73.26 | 67.25 |
| ours | 196 | 2.85 | 0.2085 | 72.21 | 64.71 |
| ours(H) | 16 | 2.60 | 0.1729 | 79.10 | 77.31 |
- 仅用 16 个 token,STELLAR 即在 ImageNet-1K 上实现具有竞争力的语义(IN-1K 线性 79.10%)与重建(FID 2.60)。
- 稀疏分解在 What 因子中实现语义不变性,同时在 Where 因子中保持空间定位,解决不变性悖论。
- r = 16 的拐点在语义质量与重建性能之间取得平衡。
- 在相似预算下,STELLAR 在语义理解与重建方面优于以往的稀疏或重建导向方法,并且对更大 backbone 的扩展性良好。
- 因子化的稀疏建模能够在区域感知语义和对细粒度/医学式的多对象场景(如组织病理)上表现出强劲性能。
- 基于最优运输的集合概念对齐提供鲁棒的、无序需求的跨视图 token 匹配,速度优于传统的二分图匹配。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。