[論文レビュー] Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels
Co-teaching は二つのニューラルネットワークを同時に訓練し、各ミニバッチごとに小さな損失を持つ、潜在的にクリーンなサンプルを交換して互いに教え合い、極めてノイズの多いラベルの下で頑健に学習させる。
Deep learning with noisy labels is practically challenging, as the capacity of deep models is so high that they can totally memorize these noisy labels sooner or later during training. Nonetheless, recent studies on the memorization effects of deep neural networks show that they would first memorize training data of clean labels and then those of noisy labels. Therefore in this paper, we propose a new deep learning paradigm called Co-teaching for combating with noisy labels. Namely, we train two deep neural networks simultaneously, and let them teach each other given every mini-batch: firstly, each network feeds forward all data and selects some data of possibly clean labels; secondly, two networks communicate with each other what data in this mini-batch should be used for training; finally, each network back propagates the data selected by its peer network and updates itself. Empirical results on noisy versions of MNIST, CIFAR-10 and CIFAR-100 demonstrate that Co-teaching is much superior to the state-of-the-art methods in the robustness of trained deep models.
研究の動機と目的
- 現実世界のデータで訓練ラベルが高度に破損しているときのロバストな学習を動機づける。
- ノイズの多いラベルの記憶を抑制する単純な二重ネットワーク訓練パラダイムを提案する。
- 深層ネットワークの記憶化ダイナミクスを利用して、小さな損失のサンプリングによりクリーンなサンプルを優先する。
- 標準ベンチマークの合成ノイズ設定で方法の頑健性を実証する。
提案手法
- パラメータ w_f と w_g を持つ二つのネットワーク f および g を維持し、クロス更新型のミニバッチ制度で訓練する。
- 各ミニバッチにおいて、それぞれのネットワークは小さな損失インスタンスのサブセット(バッチの R(T)%)を潜在的にクリーンと見なす。
- 各ネットワークはピアネットワークが選択したデータを用いてパラメータを更新する(f は g の small-loss セットで更新され、g は f の small-loss セットで更新される)。
- R(T) は時間とともに増減しないスケジュールで、初期はほぼ1に近く、より多くのノイズ例を減らすように減衰する。
- 直観は memorization dynamics に依存する。深層ネットはまずクリーンで容易なパターンを学習し、徐々にノイズを記憶していくため、小さな損失のサンプルは初期にはクリーンである可能性が高い。
- 二つのネットワークは潜在的にノイズの多いインスタンスのクロスフィルタリングを可能にし、単一ネットワークまたは合意のみの手法と比較して誤差伝播を減らす。
実験結果
リサーチクエスチョン
- RQ1二つの共同訓練ネットワークが cross-updated small-loss サンプルを用いて、極端にノイズの多いラベルの下で頑健に学習できるか。
- RQ2クリーンデータからの学習とノイズの記憶を避けるバランスを取るために、small-loss サンプル率 R(T) をどのようにスケジュールすべきか。
- RQ3デュアルネットワークは、単一ネットワークや他のベースラインと比較して、 severely corrupted ラベル領域で利点を提供するか。
主な発見
- Co-teaching は、ノイズのある MNIST、CIFAR-10、CIFAR-100 に対して、 extreme ノイズ設定下で最先端のベースラインより頑健性を著しく向上させる。
- 45% のノイズ付きラベルの下で、Co-teaching は MNIST、CIFAR-10、CIFAR-100 で MentorNet や他のベースラインより高いテスト精度を達成する。
- ラベルの精度とクリーンサンプルの同定能力は、ベースラインと比較して Co-teaching で改善され、クリーンなインスタンスの識別がより良いことを示す。
- Co-teaching の有効性は、Pair flipping や Symmetry flipping など異なるノイズ構造を超えて持続し、事前訓練なしでゼロから学習しても強力さを保つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。