Skip to main content
QUICK REVIEW

[论文解读] Whitening for Self-Supervised Representation Learning

Aleksandr Ermolov, Aliaksandr Siarohin|arXiv (Cornell University)|Jul 13, 2020
Domain Adaptation and Few-Shot Learning参考文献 61被引用 43
一句话总结

提出一种自监督损失(W-MSE),使用完整特征 whitening 来强制球状潜在分布,并仅依赖正样本对,取消对负样本或非对称架构的需求。

ABSTRACT

Most of the current self-supervised representation learning (SSL) methods are based on the contrastive loss and the instance-discrimination task, where augmented versions of the same image instance ("positives") are contrasted with instances extracted from other images ("negatives"). For the learning to be effective, many negatives should be compared with a positive pair, which is computationally demanding. In this paper, we propose a different direction and a new loss function for SSL, which is based on the whitening of the latent-space features. The whitening operation has a "scattering" effect on the batch samples, avoiding degenerate solutions where all the sample representations collapse to a single point. Our solution does not require asymmetric networks and it is conceptually simple. Moreover, since negatives are not needed, we can extract multiple positive pairs from the same image instance. The source code of the method and of all the experiments is available at: https://github.com/htdt/self-supervised.

研究动机与目标

  • 推动在自监督学习(SSL)中减少对大量负样本集的依赖。
  • 引入一种基于 whitening 的损失,可产生非退化、球状的潜在表示。
  • 使得同一张图像可产生多个正样本对,以提升 SSL 信号。
  • 证明 W-MSE 在标准基准上与最先进的 SSL 方法具有竞争力。

提出的方法

  • 定义一个 whitening MSE(W-MSE)损失,在对批量特征进行 whitening 之后最小化正样本之间的距离。
  • 将骨干网络特征投影到潜在空间,应用 whitening 转换以获得球状分布(零均值、单位协方差),并对归一化的正样本对计算 MSE。
  • 使用批量级 whitening,进行均值化并使用满足 W^T W = Sigma^{-1}(Sigma 是批量协方差)的 whitening 矩阵 W。
  • 通过标准增强从同一图像收集多个正样本;在 d 个正样本之间计算所有正样本对。
  • 通过批切分来稳定 whitening,在子批次中计算 whitening,并在迭代之间对结果取均值。

实验结果

研究问题

  • RQ1是否通过潜在特征的 whitening 能在不使用负样本或非对称网络的情况下避免表示坍缩?
  • RQ2在标准基准上,基于 whitening 的 SSL 损失与对比学习及其他最先进的 SSL 损失相比如何?
  • RQ3是否利用同一图像的多个正样本可以提升 W-MSE 的 SSL 性能?
  • RQ4在 SSL 训练中稳定 whitening 的实际考虑因素(如批切分)有哪些?

主要发现

  • 在 CIFAR-10、CIFAR-100、STL-10、Tiny ImageNet、ImageNet-100 以及 ImageNet 的各种设置下,W-MSE 始终与最先进的 SSL 方法具有竞争力。
  • 使用四个正样本(W-MSE 4)通常比使用两个正样本(W-MSE 2)得到更高的准确性。
  • 该方法在没有负样本或动量网络的情况下实现了强烈的线性与 k-NN 分类性能,并且比 BYOL 等某些竞争方法更快热身。
  • 单独的 whitening 在与对比损失配对时并不能提升 SSL;仍然需要负样本以实现有效的对比学习。
  • W-MSE 4 在 100-epoch 的 ImageNet 风格评估中达到最先进的性能,且以较简单的训练过程接近更长训练周期的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。