Skip to main content
QUICK REVIEW

[論文レビュー] Understanding Self-supervised Learning with Dual Deep Networks

Yuandong Tian, Lantao Yu|arXiv (Cornell University)|Oct 1, 2020
Domain Adaptation and Few-Shot Learning参考文献 52被引用数 35
ひとこと要約

本論文は、対照的な自己教師付き学習を二重の深い ReLU ネットワークと共に用い、共分散演算子を介して初期のランダムな選択性を増幅し、データ拡張を通じて階層的特徴の出現を可能にする理論的枠組みを提案する。

ABSTRACT

We propose a novel theoretical framework to understand contrastive self-supervised learning (SSL) methods that employ dual pairs of deep ReLU networks (e.g., SimCLR). First, we prove that in each SGD update of SimCLR with various loss functions, including simple contrastive loss, soft Triplet loss and InfoNCE loss, the weights at each layer are updated by a \emph{covariance operator} that specifically amplifies initial random selectivities that vary across data samples but survive averages over data augmentations. To further study what role the covariance operator plays and which features are learned in such a process, we model data generation and augmentation processes through a \emph{hierarchical latent tree model} (HLTM) and prove that the hidden neurons of deep ReLU networks can learn the latent variables in HLTM, despite the fact that the network receives \emph{no direct supervision} from these unobserved latent variables. This leads to a provable emergence of hierarchical features through the amplification of initially random selectivities through contrastive SSL. Extensive numerical studies justify our theoretical findings. Code is released in https://github.com/facebookresearch/luckmatters/tree/master/ssl.

研究の動機と目的

  • 強い分布仮定を避けつつ、深い ReLU ネットワークを用いた SSL の厳密な理解を動機付ける。
  • デュアルネットワークにおける重み更新が、データ拡張を生き残るランダムな初期選択性を増幅する共分散演算子に支配されることを示す。
  • 階層的潜在木モデルの下で、指示がなくても隠れニューロンが潜在変数を学習することを実証する。
  • SSL のダイナミクスをスチューデント-ティーチャー枠組みに結びつけ、教師あり学習の分析と比較する。

提案手法

  • 勾配表現を二重深い ReLU ネットワークの二乗 L2 損失について導出し、各層で更新を支配する共分散演算子を同定する。
  • 下向き特徴と上向きヤコビ行列を結ぶ接続 K_l(x) を定義し、勾配を K_l とネットワーク重みによって表現する。
  • 単純な対照損失の下で、ソフト Triplet や InfoNCE のような拡張損失に対しても、勾配更新が PSD 共分散演算子の固有モードに沿って増幅されることを証明する。
  • 共分散演算子をデータの拡張平均化された期待として形式化し、データ分布と拡張に依存することを示す。

実験結果

リサーチクエスチョン

  • RQ1デュアル深層 ReLU SSL モデルにおける勾配更新は、データ拡張と損失関数にどう依存するか。
  • RQ2共分散演算子フレームワークは、対照的 SSL の下で意味のある階層的特徴の出現を説明できるか。
  • RQ3データ生成モデルと拡張が、層を横断する学習表現の形成にどのような役割を果たすか。
  • RQ4隠れユニットは直接的な監督がなくても階層的生成モデルの潜在変数と整合するか。

主な発見

  • SimCLR に類似したデュアルネットワークにおける勾配更新は、データ拡張を生き残る初期選択性を増幅する PSD 共分散演算子によって支配される。
  • この増幅機構は、任意に深い ReLU ネットワークの各層と、複数の損失関数(単純対照、soft Triplet、InfoNCE)に対して作用する。
  • 階層的 latent tree モデルの下で、深い ReLU ネットワークは直接の監督なしに中間層で潜在変数表現を学習する。
  • 拡張平均化された結合とその共分散は、対照的 SSL を通じた階層的特徴の出現を促進する。
  • L_simp では共分散演算子は残差ゼロで厳密だが、L_tri^τ および L_nce^τ では残差項 θ が現れるが、訓練中に縮小すると予想され、PSD 増幅を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。