QUICK REVIEW

[論文レビュー] Iterative Learning with Open-set Noisy Labels

Yisen Wang, Weiyang Liu|arXiv (Cornell University)|Mar 31, 2018

Machine Learning and Data Classification参考文献 34被引用数 32

ひとこと要約

本稿では、学習に用いられるクラスに属さない真のラベルを持つ誤りラベル（オープンセットノイズラベル）を含むデータセットに対して、深層畳み込みニューラルネットワーク（CNN）を堅牢に学習する反復的学習フレームワークを提案する。ノイズラベル検出、対照的特徴学習のためのシameseネットワーク、損失重み付けの再重み付けモジュールを組み合わせることで、CIFAR-10、ImageNet、および実世界のWeb検索データセットにおいて最先端のモデルを上回る性能を達成し、20%のオープンセットノイズを含むImageNetで71.43%のTop-1精度を達成した。

ABSTRACT

Large-scale datasets possessing clean label annotations are crucial for training Convolutional Neural Networks (CNNs). However, labeling large-scale data can be very costly and error-prone, and even high-quality datasets are likely to contain noisy (incorrect) labels. Existing works usually employ a closed-set assumption, whereby the samples associated with noisy labels possess a true class contained within the set of known classes in the training data. However, such an assumption is too restrictive for many applications, since samples associated with noisy labels might in fact possess a true class that is not present in the training data. We refer to this more complex scenario as the extbf{open-set noisy label} problem and show that it is nontrivial in order to make accurate predictions. To address this problem, we propose a novel iterative learning framework for training CNNs on datasets with open-set noisy labels. Our approach detects noisy labels and learns deep discriminative features in an iterative fashion. To benefit from the noisy label detection, we design a Siamese network to encourage clean labels and noisy labels to be dissimilar. A reweighting module is also applied to simultaneously emphasize the learning from clean labels and reduce the effect caused by noisy labels. Experiments on CIFAR-10, ImageNet and real-world noisy (web-search) datasets demonstrate that our proposed model can robustly train CNNs in the presence of a high proportion of open-set as well as closed-set noisy labels.

研究の動機と目的

トレーニングセットに存在しない真のクラスを持つ誤りラベル（オープンセットノイズラベル）が存在する状況において、深層ニューラルネットワークを学習する課題に対処すること。この状況は、先行研究で無視されてきた。
ノイズの分布や構造に関する仮定に依存しない手法を開発し、実世界のデータ収集環境における堅牢な学習を可能にすること。
検出、特徴学習、損失再重み付けの共同最適化により、オープンセットおよびクローズドセットのノイズラベルが存在する状況でも表現学習と分類精度を向上させること。
クリーンラベルが入手できない実世界のノイズデータ（Web検索からのデータ）および大規模ベンチマーク（CIFAR-10、ImageNet）における有効性を実証すること。

提案手法

反復的フレームワークは、ノイズラベルの検出、対照的損失を用いたシameseネットワークによる判別的特徴学習（表現空間上でクリーンとノイズラベルのサンプルを分離）、予測された信頼度に基づくソフトマックス損失の再重み付けの繰り返しを実行する。
シameseネットワークは、クリーンとノイズラベルの表現が表現空間上で分離されるように制約を課し、真のラベル情報が不要な状態で特徴の判別性を向上させる。
再重み付けモジュールは、クリーンと予測されたサンプルに高い学習重みを、ノイズとマークされたサンプルに低い重みを割り当て、最適化中の誤ったラベルの影響を低減する。
ノイズラベル検出は反復的に行われ、モデルがより良い表現を学習するにつれて検出精度が向上する。
ノイズ率やパターンに関する事前仮定なしにエンドツーエンドで訓練されるため、複雑なノイズ構造を持つ実世界データに適している。
本手法は、合成ノイズ（クローズドセットおよびオープンセット）と実世界のWeb検索データの両方で評価され、標準ベンチマークおよび特徴転送評価が用いられている。

実験結果

リサーチクエスチョン

RQ1真のクラスが学習クラスに含まれないオープンセットノイズラベルに対して、ディープラーニングフレームワークが効果的に検出と影響低減を実行できるか？
RQ2ノイズラベル検出、特徴学習、損失再重み付けの反復的最適化が、複雑なラベルノイズが存在する状況でのモデル一般化性能をどのように向上させるか？
RQ3提案手法が、標準ベンチマークにおいてオープンセットおよびクローズドセットのノイズラベル設定の両方で、既存の最先端手法を上回る性能を示すか？
RQ4Web検索画像のような曖昧または誤ったラベルを持つ実世界のノイズデータから、モデルはどの程度堅牢な表現を学習できるか？

主な発見

200クラスのImageNetデータセットに20%のオープンセットノイズを含む状況で、Inception-v3を用いた本手法は71.43%のTop-1精度を達成し、2番目に良い手法（CNN-CRF）の67.23%を顕著に上回った。
同じベンチマークでResNet-50を用いた場合、本手法は70.29%のTop-1精度を達成し、次に良いベースライン（CNN-CRF）の66.54%を上回った。
クリーンテストセットが存在しない実世界のWeb検索データに対して、線形分類器のファインチューニングにおいてCIFAR-100で67.90%のTop-1精度を達成し、すべてのベースライン（CNN-CRF：63.94%）を上回った。
モデルは優れた一般化性能を示し、クローズドセットノイズラベルの状況でも最先端手法と同等またはそれ以上の性能を発揮した。これは、広範な適用可能性を示している。
アブレーションスタディにより、ノイズラベル検出、シamese対照的学習、再重み付けの3つの要素が性能向上に顕著に寄与することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。