[논문 리뷰] Soft Equivariance Regularization for Invariant Self-Supervised Learning
SER은 invariant SSL 백본에 레이어-분리된 소프트 등가 규제를 추가하여 추가 변환 헤드 없이도 ImageNet-1k 선형 평가와 강건성을 향상시킵니다. 이는 최종 임베딩 목표를 보존하면서 중간 피처 맵에 분석적 그룹 작용을 적용합니다.
Self-supervised learning (SSL) typically learns representations invariant to semantic-preserving augmentations. While effective for recognition, enforcing strong invariance can suppress transformation-dependent structure that is useful for robustness to geometric perturbations and spatially sensitive transfer. A growing body of work, therefore, augments invariance-based SSL with equivariance objectives, but these objectives are often imposed on the same final representation. We empirically observe a trade-off in this coupled setting: pushing equivariance regularization toward deeper layers improves equivariance scores but degrades ImageNet-1k linear evaluation, motivating a layer-decoupled design. Motivated by this trade-off, we propose Soft Equivariance Regularization (SER), a plug-in regularizer that decouples where invariance and equivariance are enforced: we keep the base SSL objective unchanged on the final embedding, while softly encouraging equivariance on an intermediate spatial token map via analytically specified group actions $ρ_g$ applied directly in feature space. SER learns/predicts no per-sample transformation codes/labels, requires no auxiliary transformation-prediction head, and adds only 1.008x training FLOPs. On ImageNet-1k ViT-S/16 pretraining, SER improves MoCo-v3 by +0.84 Top-1 in linear evaluation under a strictly matched 2-view setting and consistently improves DINO and Barlow Twins; under matched view counts, SER achieves the best ImageNet-1k linear-eval Top-1 among the compared invariance+equivariance add-ons. SER further improves ImageNet-C/P by +1.11/+1.22 Top-1 and frozen-backbone COCO detection by +1.7 mAP. Finally, applying the same layer-decoupling recipe to existing invariance+equivariance baselinesimproves their accuracy, suggesting layer decoupling as a general design principle for combining invariance and equivariance.
연구 동기 및 목표
- 동일 최종 표현에 invariance와 equivariance를 부여할 때의 trade-off를 동기 부여하고 정량화한다.
- ViT 기반 SSL에서 invariance와 equivariance가 강제되는 위치를 디커플링하기 위해 SER을 제안한다.
- 피처 공간에서 작동하는 간단하고 확장 가능한 변환-레이블-프리 규제기를 제공한다.
- 레이어-분리로 다양한 invariance 기반 SSL 백본에서 성능이 향상되는지 보여준다.
- 이 접근법이 강건성 및 전이 벤치마드에 일반화되는지 입증한다.
제안 방법
- ViT에 중간 공간 토큰 맵을 삽입하고 최종 임베딩은 표준 invariant SSL objective로 학습한다.
- 중간 토큰 맵에 해석적으로 지정된 피처-스페이스 작용 ρ_g(회전, 뒤집기, 스케일링)를 적용한다.
- 공간 위치에 대한 패치-별 NT-Xent 스타일 대조 손실 L_equiv를 상대 기하학적 변환 g = g2 g1^{-1}를 사용해 정의한다.
- 배치를 b1(기저 invariance)와 b2(크롭 없이 equivariant 뷰; 포토메트릭 지터 유지)로 분할한다.
- f = f^(2) ∘ f^(1)을 학습하고, equivariance-regularized 층 뒤에 CLS 토큰을 삽입하여 공간 맵이 equivariance 학습을 위해 손상되지 않게 한다.
- 손실을 결합한다: L = L_inv1 + L_inv2 + λ L_equiv, 여기서 L_inv1/L_inv2는 b1/b2에 적용된 표준 SSL 손실이다.

실험 결과
연구 질문
- RQ1레이어 간 invariance와 equivariance를 디커플링하는 것이 엔드-투-엔드 등가 접근방식과 비교하여 ImageNet-1k 선형 평가를 개선하는가?
- RQ2레이어-디커플링된 SER이 견고성 및 공간적 전이(ImageNet-C/P, COCO 백본 고정 시)에서 정확도를 유지하거나 향상시키면서 강건성도 향상시키는가?
- RQ3다양한 불변성 SSL 백본(MoCo-v3, DINO, Barlow Twins)에서 추가 변환 헤드 없이 equivariance 규제기가 이점이 되는가?
- RQ4네트워크의 어느 위치에서 equivariance를 적용하는 것이 equivariance와 구별력 간의 최적 트레이드-오프에 유리한가?
- RQ5레이어-디커플링 전략이 다른 불변+등가 baselines를 향상시키는 일반화 전략으로 작용할 수 있는가?
주요 결과
- SER은 강력한 invariance 기반 SSL 기준선에 대해 동일하게 매칭된 2-view 설정에서 ImageNet-1k 선형 정확도를 일관되게 향상시킨다(예: MoCo-v3).
- 중간 공간 표현에 equivariance를 부과하면 강건성 향상(ImageNet-C/P) 및 냉동(backbone 고정) COCO 검출 성능이 개선된다.
- equivariance 목표를 중간 층으로 옮기면 기존의 invariant+equivariant 방법(EquiMod, AugSelf)을 레이어 분리와 재적용 시 향상시킨다.
- SER의 이득은 Arquitectural 변경 없이 여러 백본(MoCo-v3, DINO, Barlow Twins)에서 지속되며 오버헤드가 최소이다.
- 적정 수준의 equivariance-손실 Layer 및 [CLS] 삽입 위치가 존재하며, 너무 깊게 두면 선형 평가가 저하될 수 있다.
- 레이어-디커플링은 SSL에서 invariance와 equivariance를 결합하는 일반적 설계 원칙으로 제시된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.