[論文レビュー] Soft Equivariance Regularization for Invariant Self-Supervised Learning
SER は層を分離したソフト等変性正則化を不変のSSLバックボーンに追加し、追加の変換ヘッドなしで ImageNet-1k 線形評価性能とロバスト性を向上させる。最終埋め込み目的を保ちつつ、中間の特徴マップに解析的な群作用を適用する。
Self-supervised learning (SSL) typically learns representations invariant to semantic-preserving augmentations. While effective for recognition, enforcing strong invariance can suppress transformation-dependent structure that is useful for robustness to geometric perturbations and spatially sensitive transfer. A growing body of work, therefore, augments invariance-based SSL with equivariance objectives, but these objectives are often imposed on the same final representation. We empirically observe a trade-off in this coupled setting: pushing equivariance regularization toward deeper layers improves equivariance scores but degrades ImageNet-1k linear evaluation, motivating a layer-decoupled design. Motivated by this trade-off, we propose Soft Equivariance Regularization (SER), a plug-in regularizer that decouples where invariance and equivariance are enforced: we keep the base SSL objective unchanged on the final embedding, while softly encouraging equivariance on an intermediate spatial token map via analytically specified group actions $ρ_g$ applied directly in feature space. SER learns/predicts no per-sample transformation codes/labels, requires no auxiliary transformation-prediction head, and adds only 1.008x training FLOPs. On ImageNet-1k ViT-S/16 pretraining, SER improves MoCo-v3 by +0.84 Top-1 in linear evaluation under a strictly matched 2-view setting and consistently improves DINO and Barlow Twins; under matched view counts, SER achieves the best ImageNet-1k linear-eval Top-1 among the compared invariance+equivariance add-ons. SER further improves ImageNet-C/P by +1.11/+1.22 Top-1 and frozen-backbone COCO detection by +1.7 mAP. Finally, applying the same layer-decoupling recipe to existing invariance+equivariance baselinesimproves their accuracy, suggesting layer decoupling as a general design principle for combining invariance and equivariance.
研究の動機と目的
- 同じ最終表現に対して不変性と等変性を課す際のトレードオフを動機づけ、定量化する。
- ViT ベースの SSL において不変性と等変性を強制する箇所を分離するSERを提案する。
- 特徴空間で動作する、シンプルで拡張性のある正則化器を提供する。
- 層の分離が複数の不変性ベース SSL バックボーンの性能を改善することを示す。
- 本手法がロバスト性および転移ベンチマークへ一般化することを示す。
提案手法
- ViT に中間の空間トークンマップを挿入し、最終埋め込みは標準の不変 SSL 目的で訓練を続ける。
- 中間のトークンマップに解析的に指定された特徴空間作用 ρ_g(回転、反転、拡大等)を適用する。
- 局所的な幾何変換 g = g2 g1^{-1} を用いた空間位置ごとの patchwise NT-Xent 風コントラスト損失 L_equiv を定義する。
- 各バッチを基準の不変性を持つ b1 と、クロップなしの等変ビューを持つ b2(写真的ジッターを保持)に分割する。
- f = f^(2) ∘ f^(1) を訓練する;等変正則化層の後に CLS トークンを挿入し、等変性学習のために空間マップを保持する。
- 損失を組み合わせる: L = L_inv1 + L_inv2 + λ L_equiv。L_inv1/L_inv2 はそれぞれ b1/b2 に適用される標準 SSL 損失。

実験結果
リサーチクエスチョン
- RQ1層をまたいで不変性と等変性を分離すると、エンドツーエンドの等変 approaches に比べて ImageNet-1k 線形評価は改善されるか?
- RQ2層分離型 SER は頑健性と空間転送性(例: ImageNet-C/P、凍結バックボーンを用いた COCO)を改善しつつ、精度を維持または向上できるか?
- RQ3等変性正則化器は追加の変換ヘッドなしに、MoCo-v3、DINO、Barlow Twins など複数の不変SSLバックボーンで有益か?
- RQ4等変性をネットワークのどの層に課すべきか、等変性と識別力の最適なトレードオフのための地点はどこか?
- RQ5層分離戦略は他の不変+等変ベースラインを改善する一般的なデザイン原理として通用するか?
主な発見
- SER は厳密に一致した二視点設定(例: MoCo-v3)において、強力な不変ベースのSSL ベースラインを超えるImageNet-1k線形精度を一貫して向上させる。
- 中間の空間表現に等変性を課すと、頑健性の向上(例: ImageNet-C/P)を得られ、凍結バックボーンの COCO 検出精度も改善する。
- 等変性目的を中間層へ移すと、層分離で再適用した際に既存の不変+等変性手法(EquiMod、AugSelf など)の効果を高める。
- SER の利得は複数のバックボーン(MoCo-v3、DINO、Barlow Twins)でアーキテクチャ変更なし、計算オーバーヘッド最小で持続する。
- 等変性損失の層と [CLS] の挿入位置には最適点が存在する;等変性損失を深い層へ移し過ぎると線形評価が低下する。
- 層分離は SSL における不変性と等変性を組み合わせる一般的な設計原理として提案される。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。