[論文レビュー] Bootstrap your own latent: A new approach to self-supervised Learning
BYOL はオンラインおよびターゲットネットワークと、表現をブーストする移動平均ターゲットを導入し、ImageNet でネガティブペアなしの最先端性能を達成し、転移と半教師ありの性能も強力である。
We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches $74.3\%$ top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and $79.6\%$ with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub.
研究の動機と目的
- ラベル付きデータなしで高品質な画像表現の学習を動機づける。
- オンライン/ターゲットネットワークを用いたブートストラップ手法でターゲット表現を予測する。
- コントラスト学習法と比べて画像増強とバッチサイズに対する頑健性を示す。
- 線形評価、半教師あり、転移タスクでの強力な性能を示す。
提案手法
- オンライン(エンコーダ f_theta、プロジェクタ g_theta、予測子 q_theta)とターゲット(同じアーキテクチャ、重み xi)という二つのネットワークを導入する。
- ターゲットの重み xi はオンラインの重み theta の指数移動平均である(xi <- tau*xi + (1-tau)*theta)。
- オンラインブランチの予測子は異なる増強ビューからターゲットの射影を予測する;正規化された予測とターゲット射影の間のL2距離を最小化する。
- 損失 L_theta,xi = ||q_theta(z_theta) - stopgrad(z'_xi)||^2 をオンライン/ターゲットパスの入力を対称に増強して定義する。
- theta に関して L_BYOL_theta,xi = L_theta,xi + ~L_theta,xi を最小化することにより学習する(ステップ中 xi は固定)。
- SimCLR と同一の画像増強 T および T' を用い、ResNet バックボーンと MLP プロジェクタ(入力 2048 次元、隠れ層 4096 次元、出力 256 次元)を用いる。
実験結果
リサーチクエスチョン
- RQ1自己教師あり学習はネガティブペアを使わずに表現崩壊を防ぐことができるか。
- RQ2移動平均ターゲットによるブートストラップは表現の質と増強・バッチサイズへの頑健性にどのように影響するか。
- RQ3BYOL は ImageNet の線形評価、半教師あり学習、転移タスクにおいて従来手法と比べてどのような影響を与えるか。
主な発見
| Method | Architecture | Param. | Top-1 | Top-5 |
|---|---|---|---|---|
| BYOL (our) | ResNet-50 (2x) | 94 M | 78.6 | 94.2 |
| BYOL (our) | ResNet-200 (2x) | 250 M | 79.6 | 94.8 |
- ResNet-50 で ImageNet 線形評価のトップ1 精度 74.3%、より大きな ResNet (RESNET-200) で 79.6%。
- アーキテクチャを越えて線形評価で従来の自己教師付け法を上回る。
- 半教師ありおよび転移ベンチマークで最先端と同等またはそれを上回る。
- BYOL はバッチサイズや増強の選択に対して頑健であり、増強を減らした場合のパフォーマンス低下が SimCLR より小さい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。