[논문 리뷰] Learning Sparse Visual Representations via Spatial-Semantic Factorization
STELLAR은 시각 표현을 희소한 의미 토큰 세트와 공간 위치화로 분해하여, 최대 16개의 토큰으로도 고품질 재구성과 강한 의미 이해를 동시에 가능하게 한다.
Self-supervised learning (SSL) faces a fundamental conflict between semantic understanding and image reconstruction. High-level semantic SSL (e.g., DINO) relies on global tokens that are forced to be location-invariant for augmentation alignment, a process that inherently discards the spatial coordinates required for reconstruction. Conversely, generative SSL (e.g., MAE) preserves dense feature grids for reconstruction but fails to produce high-level abstractions. We introduce STELLAR, a framework that resolves this tension by factorizing visual features into a low-rank product of semantic concepts and their spatial distributions. This disentanglement allows us to perform DINO-style augmentation alignment on the semantic tokens while maintaining the precise spatial mapping in the localization matrix necessary for pixel-level reconstruction. We demonstrate that as few as 16 sparse tokens under this factorized form are sufficient to simultaneously support high-quality reconstruction (2.60 FID) and match the semantic performance of dense backbones (79.10% ImageNet accuracy). Our results highlight STELLAR as a versatile sparse representation that bridges the gap between discriminative and generative vision by strategically separating semantic identity from spatial geometry. Code available at https://aka.ms/stellar.
연구 동기 및 목표
- 자기지도 비전 학습에서 의미와 공간 정보를 분리하여 불변성 패러독스(Invariance Paradox)를 동기화하고 해결한다.
- 시각 특징의 희소하고 저랭크 인수분해를 도입하여 재구성과 의미를 동시에 가능하게 한다.
- 희소 토큰의 군집화와 집합 정렬을 통해 전달 가능한 시각적 개념을 학습한다.
- 희소 인수분해 표현이 Dense 백본과 비교해 의미에서 타협 없이 재구성까지 가능함을 보인다.
제안 방법
- 이미지 표현을 Z(X) = L(X) S(X)로 인수분해하는데, S는 r개의 의미 개념 토큰을 포함하고 L은 n개의 패치에 걸친 공간 분포를 인코딩한다.
- 소수의 토큰으로 재구성을 강제하는 저랭크 병목을 이용하고, 재구성 손실 및 What 요소에 대한 불변성 등 SSL 목표를 통해 학습한다.
- 토큰을 K개의 학습 가능한 프로토타입으로 군집화하고 엔트로피 정규화된 최적 운송(Sinkhorn)을 사용하여 다양한 전달 가능한 개념을 장려한다.
- 특정 탐색 기반의 최적 운송 매칭을 통해 다른 뷰 간 희소 토큰을 정렬 및 맞추어 시맨틱 불변성을 달성하고 공간적 근거를 유지한다.
- KoLeo로 토큰 다양성을 정규화하고, 인코더, 디코더, 프로젝트, 프로토타입을 손실의 가중합으로 공동 최적화한다.
- S와 L을 생성하는 인코더와 재구성을 위한 6-레이어 디코더를 갖는 경량 ViT 기반 아키텍처를 설명한다.
실험 결과
연구 질문
- RQ1희소하고 인수분해된 잠재 표현이 SSL에서 고충실도 이미지 재구성과 고수준 의미 이해를 모두 지원할 수 있는가?
- RQ2What(의미 개념)와 Where(공간 분포)를 분리하면 Dense 표현에서 보이는 불변성 패러독스를 완화할 수 있는가?
- RQ3적은 수의 희소 토큰이 Dense 기준선과 비교하여 경쟁력 있는 의미와 재구성을 달성하는 데 충분한가?
- RQ4클러스터링, 정렬 및 정규화 구성 요소가 시맨틱 품질과 공간적 근거에 어떻게 기여하는가?
- RQ5기초 사전이 STELLAR의 재구성 및 의미에 어떤 영향을 미치는가?
주요 결과
| 모델 | 토큰 수 | FID ↓ | LPIPS ↓ | Lin. ↑ | kNN ↑ |
|---|---|---|---|---|---|
| DINO | 1 | - | - | 76.46 | 74.69 |
| DINO | 196 | 3.27 | 0.2121 | 70.31 | 54.41 |
| MAE | 196 | 3.02 | 0.2071 | 66.32 | 25.82 |
| TiTok* | 32 | 2.75 | 0.3281 | 33.42 | 7.30 |
| TiTok* | 64 | 1.99 | 0.2571 | 32.87 | 7.29 |
| ours | 16 | 3.06 | 0.2077 | 73.26 | 67.25 |
| ours | 196 | 2.85 | 0.2085 | 72.21 | 64.71 |
| ours(H) | 16 | 2.60 | 0.1729 | 79.10 | 77.31 |
- 16개의 토큰만으로도 STELLAR는 ImageNet-1K에서 경쟁력 있는 의미(In-1K 선형 79.10%)과 재구성(FID 2.60)을 달성한다.
- 희소 인수분해는 What 요소에서 의미 불변성을 가능하게 하면서 Where 요소의 공간 근거를 유지하여 불변성 패러독스를 해결한다.
- r = 16 토큰의 황금 비율이 의미 품질과 재구성 성능 사이의 균형을 제공한다.
- STELLAR은 유사 예산에서 기존의 희소성 또는 재구성 중심 방법들보다 더 나은 의미 이해와 재구성을 달성하며, 더 큰 백본에서도 잘 확장된다.
- 인수분해된 희소 모델링은 영역 인지적 의미와 미세한/의료 유사 멀티오브젝트 장면에서 강한 성능을 보인다(예: 조직병리학).
- 최적 운송 기반의 집합 개념 정렬은 뷰 간의 강건하고 순서에 독립적인 토큰 매칭을 제공하여 전통적 이분 매칭보다 속도가 빠르다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.