QUICK REVIEW

[논문 리뷰] Learning Sparse Visual Representations via Spatial-Semantic Factorization

Theodore Zhengde Zhao, Sid Kiblawi|arXiv (Cornell University)|2026. 02. 02.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

STELLAR은 시각 표현을 희소한 의미 토큰 세트와 공간 위치화로 분해하여, 최대 16개의 토큰으로도 고품질 재구성과 강한 의미 이해를 동시에 가능하게 한다.

ABSTRACT

Self-supervised learning (SSL) faces a fundamental conflict between semantic understanding and image reconstruction. High-level semantic SSL (e.g., DINO) relies on global tokens that are forced to be location-invariant for augmentation alignment, a process that inherently discards the spatial coordinates required for reconstruction. Conversely, generative SSL (e.g., MAE) preserves dense feature grids for reconstruction but fails to produce high-level abstractions. We introduce STELLAR, a framework that resolves this tension by factorizing visual features into a low-rank product of semantic concepts and their spatial distributions. This disentanglement allows us to perform DINO-style augmentation alignment on the semantic tokens while maintaining the precise spatial mapping in the localization matrix necessary for pixel-level reconstruction. We demonstrate that as few as 16 sparse tokens under this factorized form are sufficient to simultaneously support high-quality reconstruction (2.60 FID) and match the semantic performance of dense backbones (79.10% ImageNet accuracy). Our results highlight STELLAR as a versatile sparse representation that bridges the gap between discriminative and generative vision by strategically separating semantic identity from spatial geometry. Code available at https://aka.ms/stellar.

연구 동기 및 목표

자기지도 비전 학습에서 의미와 공간 정보를 분리하여 불변성 패러독스(Invariance Paradox)를 동기화하고 해결한다.
시각 특징의 희소하고 저랭크 인수분해를 도입하여 재구성과 의미를 동시에 가능하게 한다.
희소 토큰의 군집화와 집합 정렬을 통해 전달 가능한 시각적 개념을 학습한다.
희소 인수분해 표현이 Dense 백본과 비교해 의미에서 타협 없이 재구성까지 가능함을 보인다.

제안 방법

이미지 표현을 Z(X) = L(X) S(X)로 인수분해하는데, S는 r개의 의미 개념 토큰을 포함하고 L은 n개의 패치에 걸친 공간 분포를 인코딩한다.
소수의 토큰으로 재구성을 강제하는 저랭크 병목을 이용하고, 재구성 손실 및 What 요소에 대한 불변성 등 SSL 목표를 통해 학습한다.
토큰을 K개의 학습 가능한 프로토타입으로 군집화하고 엔트로피 정규화된 최적 운송(Sinkhorn)을 사용하여 다양한 전달 가능한 개념을 장려한다.
특정 탐색 기반의 최적 운송 매칭을 통해 다른 뷰 간 희소 토큰을 정렬 및 맞추어 시맨틱 불변성을 달성하고 공간적 근거를 유지한다.
KoLeo로 토큰 다양성을 정규화하고, 인코더, 디코더, 프로젝트, 프로토타입을 손실의 가중합으로 공동 최적화한다.
S와 L을 생성하는 인코더와 재구성을 위한 6-레이어 디코더를 갖는 경량 ViT 기반 아키텍처를 설명한다.

실험 결과

연구 질문

RQ1희소하고 인수분해된 잠재 표현이 SSL에서 고충실도 이미지 재구성과 고수준 의미 이해를 모두 지원할 수 있는가?
RQ2What(의미 개념)와 Where(공간 분포)를 분리하면 Dense 표현에서 보이는 불변성 패러독스를 완화할 수 있는가?
RQ3적은 수의 희소 토큰이 Dense 기준선과 비교하여 경쟁력 있는 의미와 재구성을 달성하는 데 충분한가?
RQ4클러스터링, 정렬 및 정규화 구성 요소가 시맨틱 품질과 공간적 근거에 어떻게 기여하는가?
RQ5기초 사전이 STELLAR의 재구성 및 의미에 어떤 영향을 미치는가?

주요 결과

모델	토큰 수	FID ↓	LPIPS ↓	Lin. ↑	kNN ↑
DINO	1	-	-	76.46	74.69
DINO	196	3.27	0.2121	70.31	54.41
MAE	196	3.02	0.2071	66.32	25.82
TiTok*	32	2.75	0.3281	33.42	7.30
TiTok*	64	1.99	0.2571	32.87	7.29
ours	16	3.06	0.2077	73.26	67.25
ours	196	2.85	0.2085	72.21	64.71
ours(H)	16	2.60	0.1729	79.10	77.31

16개의 토큰만으로도 STELLAR는 ImageNet-1K에서 경쟁력 있는 의미(In-1K 선형 79.10%)과 재구성(FID 2.60)을 달성한다.
희소 인수분해는 What 요소에서 의미 불변성을 가능하게 하면서 Where 요소의 공간 근거를 유지하여 불변성 패러독스를 해결한다.
r = 16 토큰의 황금 비율이 의미 품질과 재구성 성능 사이의 균형을 제공한다.
STELLAR은 유사 예산에서 기존의 희소성 또는 재구성 중심 방법들보다 더 나은 의미 이해와 재구성을 달성하며, 더 큰 백본에서도 잘 확장된다.
인수분해된 희소 모델링은 영역 인지적 의미와 미세한/의료 유사 멀티오브젝트 장면에서 강한 성능을 보인다(예: 조직병리학).
최적 운송 기반의 집합 개념 정렬은 뷰 간의 강건하고 순서에 독립적인 토큰 매칭을 제공하여 전통적 이분 매칭보다 속도가 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.