QUICK REVIEW

[論文レビュー] Whitening for Self-Supervised Representation Learning

Aleksandr Ermolov, Aliaksandr Siarohin|arXiv (Cornell University)|Jul 13, 2020

Domain Adaptation and Few-Shot Learning参考文献 61被引用数 43

ひとこと要約

フル特徴のホワイトニングを利用して球状の潜在分布を強制し、ネガティブ対を必要とせず正例のみに依存することでネガティブや非対称アーキテクチャを排除する自己教師付き損失（W-MSE）を提案します。

ABSTRACT

Most of the current self-supervised representation learning (SSL) methods are based on the contrastive loss and the instance-discrimination task, where augmented versions of the same image instance ("positives") are contrasted with instances extracted from other images ("negatives"). For the learning to be effective, many negatives should be compared with a positive pair, which is computationally demanding. In this paper, we propose a different direction and a new loss function for SSL, which is based on the whitening of the latent-space features. The whitening operation has a "scattering" effect on the batch samples, avoiding degenerate solutions where all the sample representations collapse to a single point. Our solution does not require asymmetric networks and it is conceptually simple. Moreover, since negatives are not needed, we can extract multiple positive pairs from the same image instance. The source code of the method and of all the experiments is available at: https://github.com/htdt/self-supervised.

研究の動機と目的

SSLにおける大規模なネガティブ集合への依存を減らす動機付け。
非退化で球状の潜在表現を生み出すホワイトニングベースの損失を導入する。
単一画像から複数の正例ペアを可能にし、SSL信号を改善する。
標準ベンチマーク全体でW-MSEが最先端SSL手法と競争力があることを示す。

提案手法

バッチ特徴をホワイトニングした後、正例間の距離を最小化するホワイトニングMSE（W-MSE）損失を定義する。
バックボーン特徴を潜在空間へ射影し、ホワイトニング変換を適用して球状分布（平均ゼロ、共分散が単位）を得て、正規化された正例ペアのMSEを計算する。
平均をCenteredし、W^T W = Sigma^{-1}（Sigmaはバッチ共分散）を満たすホワイトニング行列Wを用いたバッチレベルのホワイトニングを使用する。
標準 augmentationを通じて同一画像から複数の正例サンプルを収集し、d個の正例のすべてのペアを計算する。
サブバッチでのホワイトニングを計算して安定化させ、イテレーション間で結果を平均するバッチ分割を採用する。

実験結果

リサーチクエスチョン

RQ1ネガティブや非対称ネットワークを使わずに潜在特徴のホワイトニングが表現崩壊を回避できるか？
RQ2ホワイトニングベースのSSL損失は、標準ベンチマークにおけるコントラスト学習や他の最先端SSL損失と比較してどうか？
RQ3同一画像から複数の正例サンプルを活用することでW-MSEのSSL性能が向上するか？
RQ4SSLトレーニングにおけるホワイトニングを安定化させる実践的考慮事項（例：バッチ分割）は？

主な発見

W-MSEはさまざまな設定下でCIFAR-10, CIFAR-100, STL-10, Tiny ImageNet, ImageNet-100, ImageNetで最先端のSSL手法と一貫して競争力を保つ。
4つの正例を用いる（W-MSE 4）は、通常2つの正例を用いる（W-MSE 2）より精度が高い。
このアプローチは、ネガティブサンプルやモーメンタムネットワークなしで強力な線形およびk-NN分類性能を実現し、BYOLなどの競合法よりも早くウォームアップする。
ホワイトニングだけではコントラスト損失と組み合わせるとSSLの改善にはならず、効果的な対照学習にはネガティブが依然として必要。
W-MSE 4は100エポックのImageNet風評価で最先端の性能を達成し、よりシンプルさを維持しつつ長いトレーニング regimeに近い性能を発揮。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。