[論文レビュー] MoPro: Webly Supervised Learning with Momentum Prototypes
MoProは、モメンタムプロトタイプを用いてノイズのあるラベルを修正し、分布外サンプルを検出・除去するウェブ監視型表現学習法で、WebVisionで最先端の結果を達成し、下流タスクへの転移も強力です。
We propose a webly-supervised representation learning method that does not suffer from the annotation unscalability of supervised learning, nor the computation unscalability of self-supervised learning. Most existing works on webly-supervised representation learning adopt a vanilla supervised learning method without accounting for the prevalent noise in the training data, whereas most prior methods in learning with label noise are less effective for real-world large-scale noisy data. We propose momentum prototypes (MoPro), a simple contrastive learning method that achieves online label noise correction, out-of-distribution sample removal, and representation learning. MoPro achieves state-of-the-art performance on WebVision, a weakly-labeled noisy dataset. MoPro also shows superior performance when the pretrained model is transferred to down-stream image classification and detection tasks. It outperforms the ImageNet supervised pretrained model by +10.5 on 1-shot classification on VOC, and outperforms the best self-supervised pretrained model by +17.3 when finetuned on 1\% of ImageNet labeled samples. Furthermore, MoPro is more robust to distribution shifts. Code and pretrained models are available at https://github.com/salesforce/MoPro.
研究の動機と目的
- 視覚表現学習における注釈スケーラビリティを、ウェブラベルデータを活用することで解決する。
- ウェブデータのラベルノイズとOODサンプルを扱う、ノイズに強く効率的な学習フレームワークを開発する。
- 弱くラベル付けされたウェブ画像を用いた分類・検出の下流転移性能を改善する。
提案手法
- エンコーダで画像を埋め込みに投影し、単位球面へ正規化する。
- モメンタム埋め込みとモメンタムプロトタイプを移動平均として更新を維持する。
- プロトタイプ対照学習損失とインスタンス対照学習損失を jointly 最適化し、偽ラベル上のクロスエントロピーロスを併用する。
- 分類器の予測とプロトタイプに基づく類似度を組み合わせてソフトな偽ラベルを生成し、ノイズ修正とOOD除去のルールでハード偽ラベルへ変換する。
- 偽ラベルごとに割り当てられた埋め込みサンプルの移動平均としてクラスプロトタイプを更新する。
- 引用特有の損失からOODサンプルを除去しつつ、インスタンス対照損失には残して分布内サンプルからの離反を促す。
実験結果
リサーチクエスチョン
- RQ1モメンタムプロトタイプは追加のクリーンラベルデータなしでオンラインのノイズウェブラベルを修正可能か。
- RQ2プロトタイプベースの修正とOODフィルタリングは弱教師あり表現学習と下流転移性能を改善するか。
- RQ3MoProは上流のウェブラベルデータと多様な下流タスクにおいて、教師あり・自己教師ありのベースラインと比較してどうか。
- RQ4MoProは分布シフトに対して頑健で、他の手法よりキャリブレーション性能が良いか。
主な発見
| Method | Architecture | WebVision Top-1 | WebVision Top-5 | ImageNet Top-1 | ImageNet Top-5 |
|---|---|---|---|---|---|
| MentorNet | InceptionResNet-V2 | 70.8 | 88.0 | 62.5 | 83.0 |
| CurriculumNet | Inception-V2 | 72.1 | 89.1 | 64.8 | 84.9 |
| CleanNet | ResNet-50 | 70.3 | 87.8 | 63.4 | 84.6 |
| CurriculumNet | ResNet-50 | 70.7 | 88.6 | 62.7 | 83.4 |
| SOM | ResNet-50 | 72.2 | 89.5 | 65.0 | 85.1 |
| Cross-Entropy (ours) | ResNet-50 | 72.4 | 89.0 | 65.7 | 85.1 |
| MoPro (ours) | ResNet-50 | 73.9 | 90.0 | 67.8 | 87.0 |
- MoProはウェブ監視型上流学習のWebVisionで最先端の性能を達成。
- MoProは画像分類と物体検出の下流表現学習を大幅に改善し、特定の設定でImageNet教師あり事前学習を上回る。
- 低ショット転移タスクでは、データと計算リソースが整えられた場合、自己教師あり手法を上回り教師ありベースラインに近づく。
- MoProは分布シフト(ImageNet-RおよびImageNet-A)下でより頑健で、ImageNet教師ありベースラインより良いキャリブレーションを示す。
- アブレーションでは、プロトタイプ損失、インスタンス損失、プロトタイプベース偽ラベルのそれぞれがMoProの gains に寄与していることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。