Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Sparse Visual Representations via Spatial-Semantic Factorization

Theodore Zhengde Zhao, Sid Kiblawi|arXiv (Cornell University)|2026. 02. 02.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

STELLAR은 시각 표현을 희소한 의미 토큰 세트와 공간 위치화로 분해하여, 최대 16개의 토큰으로도 고품질 재구성과 강한 의미 이해를 동시에 가능하게 한다.

ABSTRACT

Self-supervised learning (SSL) faces a fundamental conflict between semantic understanding and image reconstruction. High-level semantic SSL (e.g., DINO) relies on global tokens that are forced to be location-invariant for augmentation alignment, a process that inherently discards the spatial coordinates required for reconstruction. Conversely, generative SSL (e.g., MAE) preserves dense feature grids for reconstruction but fails to produce high-level abstractions. We introduce STELLAR, a framework that resolves this tension by factorizing visual features into a low-rank product of semantic concepts and their spatial distributions. This disentanglement allows us to perform DINO-style augmentation alignment on the semantic tokens while maintaining the precise spatial mapping in the localization matrix necessary for pixel-level reconstruction. We demonstrate that as few as 16 sparse tokens under this factorized form are sufficient to simultaneously support high-quality reconstruction (2.60 FID) and match the semantic performance of dense backbones (79.10% ImageNet accuracy). Our results highlight STELLAR as a versatile sparse representation that bridges the gap between discriminative and generative vision by strategically separating semantic identity from spatial geometry. Code available at https://aka.ms/stellar.

연구 동기 및 목표

  • 자기지도 비전 학습에서 의미와 공간 정보를 분리하여 불변성 패러독스(Invariance Paradox)를 동기화하고 해결한다.
  • 시각 특징의 희소하고 저랭크 인수분해를 도입하여 재구성과 의미를 동시에 가능하게 한다.
  • 희소 토큰의 군집화와 집합 정렬을 통해 전달 가능한 시각적 개념을 학습한다.
  • 희소 인수분해 표현이 Dense 백본과 비교해 의미에서 타협 없이 재구성까지 가능함을 보인다.

제안 방법

  • 이미지 표현을 Z(X) = L(X) S(X)로 인수분해하는데, S는 r개의 의미 개념 토큰을 포함하고 L은 n개의 패치에 걸친 공간 분포를 인코딩한다.
  • 소수의 토큰으로 재구성을 강제하는 저랭크 병목을 이용하고, 재구성 손실 및 What 요소에 대한 불변성 등 SSL 목표를 통해 학습한다.
  • 토큰을 K개의 학습 가능한 프로토타입으로 군집화하고 엔트로피 정규화된 최적 운송(Sinkhorn)을 사용하여 다양한 전달 가능한 개념을 장려한다.
  • 특정 탐색 기반의 최적 운송 매칭을 통해 다른 뷰 간 희소 토큰을 정렬 및 맞추어 시맨틱 불변성을 달성하고 공간적 근거를 유지한다.
  • KoLeo로 토큰 다양성을 정규화하고, 인코더, 디코더, 프로젝트, 프로토타입을 손실의 가중합으로 공동 최적화한다.
  • S와 L을 생성하는 인코더와 재구성을 위한 6-레이어 디코더를 갖는 경량 ViT 기반 아키텍처를 설명한다.

실험 결과

연구 질문

  • RQ1희소하고 인수분해된 잠재 표현이 SSL에서 고충실도 이미지 재구성과 고수준 의미 이해를 모두 지원할 수 있는가?
  • RQ2What(의미 개념)와 Where(공간 분포)를 분리하면 Dense 표현에서 보이는 불변성 패러독스를 완화할 수 있는가?
  • RQ3적은 수의 희소 토큰이 Dense 기준선과 비교하여 경쟁력 있는 의미와 재구성을 달성하는 데 충분한가?
  • RQ4클러스터링, 정렬 및 정규화 구성 요소가 시맨틱 품질과 공간적 근거에 어떻게 기여하는가?
  • RQ5기초 사전이 STELLAR의 재구성 및 의미에 어떤 영향을 미치는가?

주요 결과

모델토큰 수FID ↓LPIPS ↓Lin. ↑kNN ↑
DINO1--76.4674.69
DINO1963.270.212170.3154.41
MAE1963.020.207166.3225.82
TiTok*322.750.328133.427.30
TiTok*641.990.257132.877.29
ours163.060.207773.2667.25
ours1962.850.208572.2164.71
ours(H)162.600.172979.1077.31
  • 16개의 토큰만으로도 STELLAR는 ImageNet-1K에서 경쟁력 있는 의미(In-1K 선형 79.10%)과 재구성(FID 2.60)을 달성한다.
  • 희소 인수분해는 What 요소에서 의미 불변성을 가능하게 하면서 Where 요소의 공간 근거를 유지하여 불변성 패러독스를 해결한다.
  • r = 16 토큰의 황금 비율이 의미 품질과 재구성 성능 사이의 균형을 제공한다.
  • STELLAR은 유사 예산에서 기존의 희소성 또는 재구성 중심 방법들보다 더 나은 의미 이해와 재구성을 달성하며, 더 큰 백본에서도 잘 확장된다.
  • 인수분해된 희소 모델링은 영역 인지적 의미와 미세한/의료 유사 멀티오브젝트 장면에서 강한 성능을 보인다(예: 조직병리학).
  • 최적 운송 기반의 집합 개념 정렬은 뷰 간의 강건하고 순서에 독립적인 토큰 매칭을 제공하여 전통적 이분 매칭보다 속도가 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.