QUICK REVIEW

[論文レビュー] Self-supervised Pretraining of Visual Features in the Wild

Priya Goyal, Mathilde Caron|arXiv (Cornell University)|Mar 2, 2021

Advanced Image and Video Retrieval Techniques参考文献 53被引用数 139

ひとこと要約

SEERはSwAVとRegNetY（1.3Bパラメータ）で1Bのランダム画像を事前学習し、ImageNetでトップ1 84.2%、10%のImageNetで77.9%の少数ショット転移を示す。

ABSTRACT

Recently, self-supervised learning methods like MoCo, SimCLR, BYOL and SwAV have reduced the gap with supervised methods. These results have been achieved in a control environment, that is the highly curated ImageNet dataset. However, the premise of self-supervised learning is that it can learn from any random image and from any unbounded dataset. In this work, we explore if self-supervision lives to its expectation by training large models on random, uncurated images with no supervision. Our final SElf-supERvised (SEER) model, a RegNetY with 1.3B parameters trained on 1B random images with 512 GPUs achieves 84.2% top-1 accuracy, surpassing the best self-supervised pretrained model by 1% and confirming that self-supervised learning works in a real world setting. Interestingly, we also observe that self-supervised models are good few-shot learners achieving 77.9% top-1 with access to only 10% of ImageNet. Code: https://github.com/facebookresearch/vissl

研究の動機と目的

大規模で未整理の画像コレクションに対する自己教師付き事前学習が競合的な視覚表現を生み出せることを実証する。
自己教師付き事前学習のスケーラビリティを高容量アーキテクチャ（RegNetY）で検証する。
ImageNetへの転移性能、低ショット学習、その他の下流タスクへの適用を評価する。
wildデータ上の自己教師付き事前学習と supervised/weakly supervised ベースラインを比較する。

提案手法

ラベルなしで特徴を学習するためにSwAVオンラインクラスタリング自己監視を使用する。
スケーラブルで高容量の事前学習のためにRegNetYアーキテクチャ（焦点はRegNetY-256GF）を採用する。
8,704-imageバッチサイズで512台V100 GPUを用いて1Bのランダム公開Instagram画像を学習する。
大規模学習を可能にする混合精度、勾配チェックポイント、SyncBatchNormを採用する。
1画像あたり6つのクロップと16Kプロトタイプ、Sinkhorn反復を用いたクラスタリング用の3層MLPヘッドを使用する。
事前学習済みモデルをImageNetで微調整し、標準のTop-1精度で評価する。

実験結果

リサーチクエスチョン

RQ1野生での膨大なランダムかつ未整理の画像から自己教師付き学習が高品質な視覚特徴を学習できるか？
RQ2野生での事前学習時にモデル容量（RegNetYスケール）が下流性能へどのように影響するか？
RQ3未整理データで事前学習した自己教師付きモデルは、ImageNetや他のベンチマークへ superviseまたは弱教師付きの同等モデルと同様に転移するか？
RQ4SEERは少数ショット転移の場面で有効か、データが限られた場合にベースラインと比較してどうなるか？
RQ5表現の品質に対するデータ規模と更新回数の影響はどうなるか？

主な発見

SEERはファインチューニング後のImageNetで84.2%のTop-1精度を達成し、従来の自己教師付きモデルを1ポイント上回る。
SEERはImageNetの10%のみを使った低データ微調整設定で77.9%のTop-1を達成し、強力な少数ショット転移を示す。
未整理データでの自己教師付き事前学習は、ImageNetの監督付き事前学習よりも競合的、または優れており、COCO検出/セグメンテーション（APBox +1.5–2、APMask +1–2）を含む下流タスクで優位性を示す。
モデル容量を増やすと、特に低ショット環境で転移性能の相対的な増加が大きくなる。
いくつかのタスク（iNaturalist、OpenImages、Places、VOC）で線形評価の際、SEERの自己教師付き特徴量が監督付きより優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。