Skip to main content
QUICK REVIEW

[論文レビュー] VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning

Adrien Bardes, Jean Ponce|arXiv (Cornell University)|May 11, 2021
Domain Adaptation and Few-Shot Learning参考文献 58被引用数 88
ひとこと要約

VICReg は、ネガティブペアや共有アーキテクチャを必要とせず、結合表現学習における崩壊を防ぐ三項ロス(分散、不変性、共分散)を導入します。

ABSTRACT

Recent self-supervised methods for image representation learning are based on maximizing the agreement between embedding vectors from different views of the same image. A trivial solution is obtained when the encoder outputs constant vectors. This collapse problem is often avoided through implicit biases in the learning architecture, that often lack a clear justification or interpretation. In this paper, we introduce VICReg (Variance-Invariance-Covariance Regularization), a method that explicitly avoids the collapse problem with a simple regularization term on the variance of the embeddings along each dimension individually. VICReg combines the variance term with a decorrelation mechanism based on redundancy reduction and covariance regularization, and achieves results on par with the state of the art on several downstream tasks. In addition, we show that incorporating our new variance term into other methods helps stabilize the training and leads to performance improvements.

研究の動機と目的

  • Negative samples や memory banks に依存せず、自己教師付き結合表現学習の崩壊を動機づけて対処する。
  • 各ブランチに独立して適用される三つの正則化子(分散、不変性、共分散)を用いた VICReg を提案する。
  • VICReg が ImageNet 線形および半教師付きタスクで競合的な性能を達成し、検出・セグメンテーションへ転移することを示す。
  • 多モーダル適用性と非対称アーキテクチャおよび入力モダリティに対する頑健性を示す。

提案手法

  • Siamese または two 変換を持つ非対称結合表現アーキテクチャを用いる。
  • ビューを f_theta でエンコードし、expander h_phi を介して z に写像する;三つの項で z と z' のロスを計算する。
  • 分散項 v(Z) は per-dimension の標準偏差を閾値(gamma)以上に保ち、崩壊を回避する;S(x, epsilon) のヒンジを用いる。
  • 共分散項 c(Z) はバッチ共分散行列の非対角成分の二乗を penalize することで埋め込み次元をデコリレートする。
  • 不変性項 s(Z, Z') は正規化なしで対応する埋め込み間の平均二乗距離を最小化する。
  • 総合ロス L = lambda * s + mu*(v(Z)+v(Z')) + nu*(c(Z)+c(Z')), で nu=1、実験では lambda=mu>1。
  • Expander のサイズ(8192)とバッチ設定(2048)は BYOL/Barlow Twins のプロトコルに従い;ImageNet で最大 1000 epoch の事前学習。

実験結果

リサーチクエスチョン

  • RQ1自己教師付き結合表現学習において、強力なアーキテクチャ的工夫やネガティブサンプルを必要とせず、分散・不変性・共分散の三重正則化目的が表現崩壊を防げるのか。
  • RQ2VICReg は ImageNet の線形および半教師付き評価で、対照学習、クラスタリング、情報最大化 SSL アプローチと比較してどの程度か。
  • RQ3各ブランチに独立して分散・共分散正則化を適用することで、効果的な多モーダルまたは非対称アーキテクチャを実現できるのか。
  • RQ4正則化項・アーキテクチャの選択(バッチ正規化、プレディクター、停止勾配、モーメント) が安定性と性能に及ぼす影響は。

主な発見

方法Top-1 (Linear)Top-5 (Linear)Top-1 (1% SSL)Top-5 (1% SSL)Top-1 (10% SSL)Top-5 (10% SSL)
SimCLR69.389.048.365.675.587.8
BYOL74.391.653.268.878.489.0
SwAV (w/ multi-crop)75.3-53.970.278.589.9
Barlow Twins73.291.055.069.779.289.3
VICReg (ours)73.291.154.869.579.489.5
  • VICReg は ImageNet 線形および半教師付きの結果で最先端手法に対して競合的な性能を達成。
  • 明示的な分散項は訓練を安定させ、ゼロ埋め込みへの縮小を防ぐのに寄与。
  • 共分散項は埋め込み次元をデコリレートし、冗長性を減らし情報量を改善。
  • 手法は非対称アーキテクチャと多モーダル設定を、重み共有やメモリーバンクを必要とせずサポート。
  • MS-COCO の多モーダル検索では、VICReg が画像からテキスト・テキストから画像タスクで VSE++ および Barlow Twins を上回る。
  • VICReg はエンコーダ/エクスパンダ設定と入力モダリティを跨いで頑健性を示し、他手法が苦戦する場面でも安定した性能を維持。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。