Skip to main content
QUICK REVIEW

[论文解读] Understanding Self-supervised Learning with Dual Deep Networks

Yuandong Tian, Lantao Yu|arXiv (Cornell University)|Oct 1, 2020
Domain Adaptation and Few-Shot Learning参考文献 52被引用 35
一句话总结

本文建立了一个理论框架,展示对比自监督学习在双深度 ReLU 网络中如何通过协方差算子放大初始的随机选择性,从而通过数据增强实现分层特征的出现。

ABSTRACT

We propose a novel theoretical framework to understand contrastive self-supervised learning (SSL) methods that employ dual pairs of deep ReLU networks (e.g., SimCLR). First, we prove that in each SGD update of SimCLR with various loss functions, including simple contrastive loss, soft Triplet loss and InfoNCE loss, the weights at each layer are updated by a \emph{covariance operator} that specifically amplifies initial random selectivities that vary across data samples but survive averages over data augmentations. To further study what role the covariance operator plays and which features are learned in such a process, we model data generation and augmentation processes through a \emph{hierarchical latent tree model} (HLTM) and prove that the hidden neurons of deep ReLU networks can learn the latent variables in HLTM, despite the fact that the network receives \emph{no direct supervision} from these unobserved latent variables. This leads to a provable emergence of hierarchical features through the amplification of initially random selectivities through contrastive SSL. Extensive numerical studies justify our theoretical findings. Code is released in https://github.com/facebookresearch/luckmatters/tree/master/ssl.

研究动机与目标

  • 在没有强分布假设的前提下,推动对带深度 ReLU 网络的 SSL 的严格理解。
  • 展示双网络中的权重更新如何受协方差算子支配,该算子放大在数据增强中存活的随机初始选择性。
  • 证明在分层潜在树模型下,隐藏神经元在没有直接监督的情况下学习潜在变量。
  • 将 SSL 动态与学生-教师框架联系起来,并与监督学习分析进行比较。

提出的方法

  • 推导双深度 ReLU 网络中平方 L2 损失的梯度表达式,并确定在每一层支配更新的协方差算子。
  • 定义将自下而上的特征与自上而下雅可比矩阵连接起来的连接 K_l(x),并将梯度表示为基于 K_l 与网络权重的形式。
  • 证明在简单对比损失以及扩展损失如 soft Triplet 和 InfoNCE 下,梯度更新沿 PSD 协方差算子的特征模态被放大。
  • 将协方差算子形式化为对数据的增强平均期望,显示其对数据分布和增强的依赖。

实验结果

研究问题

  • RQ1双深度 ReLU SSL 模型中的梯度更新如何依赖于数据增强和损失函数?
  • RQ2协方差算子框架是否可以解释对比自监督学习下有意义的分层特征的出现?
  • RQ3数据生成模型和增强在塑造各层学习表征中的作用是什么?
  • RQ4尽管缺乏直接监督,隐藏单元是否与分层生成模型中的潜在变量对齐?

主要发现

  • SimCLR 形式的双网络中的梯度更新受 PSD 协方差算子支配,该算子放大在数据增强后仍存活的数据点上的初始选择性。
  • 这种放大机制在任意深度的 ReLU 网络的每一层,以及在多种损失函数(简单对比、soft Triplet、InfoNCE)下都起作用。
  • 在分层潜在树模型下,深度 ReLU 网络在中间层学习潜在变量表示,且不需要直接监督。
  • 增强平均的连接及其协方差驱动通过对比自监督学习出现分层特征。
  • 对于 L_simp 协方差算子是精确的,残差为零;对于 L_tri^τ 和 L_nce^τ,出现残差项 θ,但预计在训练过程中收缩,从而保持 PSD 放大。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。