QUICK REVIEW

[論文レビュー] VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning

Adrien Bardes, Jean Ponce|arXiv (Cornell University)|May 11, 2021

Domain Adaptation and Few-Shot Learning被引用数 285

ひとこと要約

VICReg は、崩壊を防ぐための、共有重み、バッチ正規化、またはメモリーバンクを必要とせず、三つの項目—分散の保存、不変性、共分散のデコリレーション—を備えたシンプルでモジュール式の自己教師あり学習損失を導入します。

ABSTRACT

Recent self-supervised methods for image representation learning are based on maximizing the agreement between embedding vectors from different views of the same image. A trivial solution is obtained when the encoder outputs constant vectors. This collapse problem is often avoided through implicit biases in the learning architecture, that often lack a clear justification or interpretation. In this paper, we introduce VICReg (Variance-Invariance-Covariance Regularization), a method that explicitly avoids the collapse problem with a simple regularization term on the variance of the embeddings along each dimension individually. VICReg combines the variance term with a decorrelation mechanism based on redundancy reduction and covariance regularization, and achieves results on par with the state of the art on several downstream tasks. In addition, we show that incorporating our new variance term into other methods helps stabilize the training and leads to performance improvements.

研究の動機と目的

joint-embedding 自己教師あり学習における表現崩壊を動機づけ、対処する。
情報内容を維持するための軽量で非対比的な損失を三つの正則化項で提案する。
VICReg が異種のアーキテクチャと入力（マルチモーダル設定を含む）で機能することを示す。
分散項がトレーニングを安定化させ、下流タスクの性能を向上させることを示す。

提案手法

埋め込みに対する三項損失を定義する：不変性（2 つのビューの埋め込み間距離）、分散（崩壊を避けるための次元ごとのバッチ標準偏差に基づくヒンジ）、共分散（埋め込み次元をデコリレートするためのオフ対角共分散の罰則）。
（非対称である可能性のある）ジョイントエンベディングネットワークの各ブランチに対して、分散正則化と共分散正則化を個別に適用する。
共有重み、バッチ正規化、メモリーバンク、対比的ネガティブを必要としない；エンコーダの上に柔軟なエクスパンダーを備えたシーアムズ様の設定を用いる。
2 つのビューを画像ごとに作成するために確率的なデータ拡張を用い、エンコーダとエクスパンダーのパラメータを最適化する。
損失係数、ネットワークアーキテクチャ（ResNet-50 エンコーダ、8192 隠れユニットを持つ3層エクスパンダー）、最適化スケジュール（LARS、コサイン減衰）を含む実装の詳細を提供する。
マルチモーダル事前学習（画像-テキスト）への適用性を示し、下流タスク（ImageNet 線形/半教師付き、検出、セグメンテーション、検索）への転移を示す。

実験結果

リサーチクエスチョン

RQ1対照なしのジョイントエンベディング目的が、メモリーバンクや大きなバッチに依らず崩壊を防げるか。
RQ2明示的な分散の保存と共分散デコリレーションが、様々な下流タスクにおける最先端の自己教師あり表現と同等以上の性能を満たすか。
RQ3重み共有や同一アーキテクチャなしに、非対称またはマルチモーダルの埋め込み設定は VICReg の下で実現可能か。
RQ4分散正則化は VICReg や他の SSL 手法のトレーニング安定性を改善するか。
RQ5VICReg は ImageNet および転移タスクで、対比型およびクラスタリングベースの SSL 手法と比べてどのような性能か。

主な発見

手法	Linear Top-1	Linear Top-5	1% Top-1	1% Top-5	10% Top-1	10% Top-5
Supervised	76.5	-	25.4	56.4	48.4	80.4
MoCo (He et al. 2020)	60.6	-	-	-	-	-
PIRL (Misra & Maaten 2020)	63.6	-	-	-	-	57.2	83.8
CPC v2 (Hénaff et al. 2019)	63.8	-	-	-	-	-
CMC (Tian et al. 2019)	66.2	-	-	-	-	-
SimCLR (Chen et al. 2020a)	69.3	89.0	48.3	65.6	75.5	87.8
MoCo v2 (Chen et al. 2020c)	71.1	-	-	-	-	-
SimSiam (Chen & He 2020)	71.3	-	-	-	-	-
SwAV (Caron et al. 2020)	71.8	-	-	-	-	-
InfoMin (Tian et al. 2020)	73.0	91.1	-	-	-	-
Barlow Twins (Zbontar et al. 2021)	73.2	91.0	55.0	69.7	79.2	89.3
VICReg (ours)	73.2	91.1	54.8	69.5	79.4	89.5

VICReg はネガティブ項、メモリーバンク、正規化要件なしで ImageNet の線形および半教師付きの性能で競争力を示す。
ImageNet 線形評価では VICReg は Top-1(線形) 73.2%、Top-5 91.1% に達し、半教師付きの結果は約 69.5%(1%) および 89.5%(10%)。
VICReg は下流タスクでいくつかの最先端の自己教師あり手法と同等以上を一致または上回り、Places205、VOC07、iNaturalist、COCO 検出/セグメンテーションへの強い転移を示す。
分散項はノーム崩壊を明示的に防ぎトレーニングを安定化させ、共分散項は埋め込み次元をデコレラートする。一方で不変性項はビューを整合させる。
VICReg のモジュール式損失は非対称ブランチやマルチモーダデータ（例：画像-テキスト）にも良く機能し、他の SSL 手法と組み合わせたときトレーニングの安定性を改善できる場合がある。
重み共有の制約は VICReg に必要なく、ブランチは完全に独立可能で、クロスモダリティやモダリティ非依存の SSL を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。