[論文レビュー] Learning Sparse Visual Representations via Spatial-Semantic Factorization
STELLAR は視覚表現をスパースな意味論トークン集合と空間的な局所化に因子分解し、わずか16トークンで高品質な再構成と強い意味理解を同時に実現します。
Self-supervised learning (SSL) faces a fundamental conflict between semantic understanding and image reconstruction. High-level semantic SSL (e.g., DINO) relies on global tokens that are forced to be location-invariant for augmentation alignment, a process that inherently discards the spatial coordinates required for reconstruction. Conversely, generative SSL (e.g., MAE) preserves dense feature grids for reconstruction but fails to produce high-level abstractions. We introduce STELLAR, a framework that resolves this tension by factorizing visual features into a low-rank product of semantic concepts and their spatial distributions. This disentanglement allows us to perform DINO-style augmentation alignment on the semantic tokens while maintaining the precise spatial mapping in the localization matrix necessary for pixel-level reconstruction. We demonstrate that as few as 16 sparse tokens under this factorized form are sufficient to simultaneously support high-quality reconstruction (2.60 FID) and match the semantic performance of dense backbones (79.10% ImageNet accuracy). Our results highlight STELLAR as a versatile sparse representation that bridges the gap between discriminative and generative vision by strategically separating semantic identity from spatial geometry. Code available at https://aka.ms/stellar.
研究の動機と目的
- 自己教師付き視覚学習における不変性のパラドックスを、意味情報と空間情報を分離することで動機づけ・対処する。
- 再構成と意味を両立させるための視覚特徴のスパース・低秩因子化を導入する。
- スパーストークンのクラスタリングとセット整列を通じて移転可能な視覚概念を学習する。
- スパース因子化表現が密なバックボーンと同等の意味理解を達成しつつ再構成を可能にすることを示す。
提案手法
- 画像表現を Z(X) = L(X) S(X) と因子化し、S は r 個の意味概念トークンを含み、L は n パッチに跨る空間分布をエンコードする。
- 少数のトークンで再構成を強制する低秩ボトルネックを用い、再構成損失と What factor の不変性を含む SSL 目標で学習する。
- トークンを K 個の学習可能なプロトタイプにクラスタリングし、エントロピー正則化の最適輸送(Sinkhorn)を用いて多様で移転可能な概念を促進する。
- ビュー間でスパーストークンを最適輸送ベースのセットマッチングで整列させ、空間 grounding を保ちつつ意味的不変性を達成する。
- KoLeo でトークン多様性を正則化し、エンコーダ・デコーダ・プロジェクター・プロトタイプを損失の加重和で共同最適化する。
- SとLを出力するエンコーダと、再構成のための6層デコーダからなる軽量な ViT ベースのアーキテクチャを説明する。
実験結果
リサーチクエスチョン
- RQ1スパースで因子化された潜在表現は SSL において高忠実度の画像再構成と高レベルの意味理解の両立を可能にするか?
- RQ2What(意味概念)と Where(空間分布)を分離することが Dense 表現に見られる不変性パラドックスを緩和するか?
- RQ3少数のスパーストークンで密集なベースラインと比較して、意味と再構成の競争力を達成できるか?
- RQ4クラスタリング、整列、正則化の各成分は意味品質と空間 grounding にどう寄与するか?
- RQ5基礎的な先験が STELLAR の再構成と意味理解に与える影響は何か?
主な発見
| Model | # tks | FID ↓ | LPIPS ↓ | Lin. ↑ | kNN ↑ |
|---|---|---|---|---|---|
| DINO | 1 | - | - | 76.46 | 74.69 |
| DINO | 196 | 3.27 | 0.2121 | 70.31 | 54.41 |
| MAE | 196 | 3.02 | 0.2071 | 66.32 | 25.82 |
| TiTok* | 32 | 2.75 | 0.3281 | 33.42 | 7.30 |
| TiTok* | 64 | 1.99 | 0.2571 | 32.87 | 7.29 |
| ours | 16 | 3.06 | 0.2077 | 73.26 | 67.25 |
| ours | 196 | 2.85 | 0.2085 | 72.21 | 64.71 |
| ours(H) | 16 | 2.60 | 0.1729 | 79.10 | 77.31 |
- 16 トークン程度で、ImageNet-1K における意味理解が競争力を持ち(IN-1K 線形 79.10%、FID 2.60 の再構成)を達成する。
- 意味因子の What における意味不変性を実現しつつ、Where における空間 grounding を維持することで不変性パラドックスに対処する。
- r = 16 トークンの“ちょうど良い点”が意味品質と再構成性能のバランスを提供する。
- STELLAR は同様の予算感で prior な sparse や再構成中心の手法より意味理解と再構成の両面で上回り、より大きなバックボーンにもスケールする。
- 因子化されたスパースモデリングは領域志向の意味理解と、病理学的・マルチオブジェクトの微細分類における強力な性能を生む。
- 最適輸送ベースのセット概念整列はビュー間のトークンマッチングを堅牢・順序依存性を低く行い、従来の二部マッチングより高速で優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。