QUICK REVIEW

[論文レビュー] Understanding Dimensional Collapse in Contrastive Self-supervised Learning

Jing Li, Pascal Vincent|arXiv (Cornell University)|Oct 18, 2021

Domain Adaptation and Few-Shot Learning参考文献 21被引用数 90

ひとこと要約

この論文は対照的自己監視学習における次元崩壊がなぜ発生するのかを分析し、表現空間を直接最適化するプロジェクターレス手法である DirectCLR を導入し、ImageNet における線形プローブ精度を改善する。

ABSTRACT

Self-supervised visual representation learning aims to learn useful representations without relying on human annotations. Joint embedding approach bases on maximizing the agreement between embedding vectors from different views of the same image. Various methods have been proposed to solve the collapsing problem where all embedding vectors collapse to a trivial constant solution. Among these methods, contrastive learning prevents collapse via negative sample pairs. It has been shown that non-contrastive methods suffer from a lesser collapse problem of a different nature: dimensional collapse, whereby the embedding vectors end up spanning a lower-dimensional subspace instead of the entire available embedding space. Here, we show that dimensional collapse also happens in contrastive learning. In this paper, we shed light on the dynamics at play in contrastive learning that leads to dimensional collapse. Inspired by our theory, we propose a novel contrastive learning method, called DirectCLR, which directly optimizes the representation space without relying on an explicit trainable projector. Experiments show that DirectCLR outperforms SimCLR with a trainable linear projector on ImageNet.

研究の動機と目的

対照的自己教師あり学習は埋め込みが全空間ではなく、低次元の部分空間を占める次元崩壊を示すことができる。
強い拡張と暗黙的正則化という2つのメカニズムを特定する。
DirectCLR を提案し、プロジェクタを介さず表現空間を直接最適化する。
DirectCLR は ImageNet で SimCLR と線形プロジェクターを用いたの場合を上回ることを示す。

提案手法

InfoNCE 損失の下での線形および2層線形ネットワークにおける対照学習ダイナミクスの理論分析を行い、重み更新を特徴づける。
勾配流の導出： ䷏ dot W = -G, G はデータと拡張の共分散を用いて表現。
拡張とデータの共分散を捉える PSD 行列の差として X を導入し、崩壊が起こるときの条件を示す。
強い拡張が埋め込みの共分散を低 rank に導くことで次元崩壊を引き起こすという証拠。
過剰パラメータ化されたネットワークにおける暗黙的正則化が低 rank の埋め込み空間を生み出すことを分析。
プロジェクタを介さず、表現の固定サブベクトルで学習し、InfoNCE 損失でそれを正規化することにより DirectCLR を提案。
アブレーション研究ではプロジェクタの性質（対角/低ランク）と線形プローブ精度への影響を示す。

実験結果

リサーチクエスチョン

RQ1対照的自己教師あり学習で負サンプルが存在するにもかかわらず、なぜ次元崩壊が起きるのか？
RQ2拡張とモデルダイナミクスが低 rank の埋め込み空間を誘導する仕組みは何か？
RQ3プロジェクタなしの対照的手法を設計して下流の性能を維持または向上させることはできるか？
RQ4DirectCLR は ImageNet における従来の SimCLR（訓練可能なプロジェクター付き）と比較してどうか？

主な発見

Method	Projector	Top-1 Accuracy
SimCLR	プロジェクターなし	51.5
SimCLR	学習可能な線形プロジェクター	61.1
DirectCLR	プロジェクターなし	62.7

対照学習では、埋め込みが全空間よりも低次元の部分空間を占めるとき次元崩壊が生じる。
強い拡張は重み行列のダイナミクスを介して埋め込み空間を低 rank に押しやすくする。
過剰パラメータ化されたネットワークにおける暗黙的正則化も低 rank の埋め込み解を生み出し、次元崩壊に寄与する。
DirectCLR はプロジェクタなしで表現のサブベクトルを InfoNCE で最適化し、ImageNet で線形プロジェクター付きの SimCLR と同等以上を達成する。
DirectCLR の実験では ImageNet（100 エポック、ResNet50 バックボーン）で線形プローブ精度が 62.7% に達し、SimCLR（訓練可能な線形プロジェクター付き）は 61.1%。
プロジェクタは対角または低ランクとして効果的にモデル化でき、表現空間の直接的最適化が現実的であることを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。