Skip to main content
QUICK REVIEW

[論文レビュー] Identifying Mislabeled Data using the Area Under the Margin Ranking

Geoff Pleiss, Tianyi Zhang|arXiv (Cornell University)|Jan 28, 2020
Machine Learning and Data Classification参考文献 71被引用数 45
ひとこと要約

本論文は、個々のサンプルの学習ダイナミクスを追跡することで誤ラベルデータを識別するための Area Under the Margin (AUM) を提案し、追加クラスを持つ閾値サンプルを用いて誤ラベルデータと正しくラベル付けされたデータを分離し、識別された誤ラベルサンプルを除去したときのテストエラーを改善します。WebVision、CIFAR/Tiny ImageNet、実世界の弱監視データセットで効果を示します。

ABSTRACT

Not all data in a typical training set help with generalization; some samples can be overly ambiguous or outrightly mislabeled. This paper introduces a new method to identify such samples and mitigate their impact when training neural networks. At the heart of our algorithm is the Area Under the Margin (AUM) statistic, which exploits differences in the training dynamics of clean and mislabeled samples. A simple procedure - adding an extra class populated with purposefully mislabeled threshold samples - learns a AUM upper bound that isolates mislabeled data. This approach consistently improves upon prior work on synthetic and real-world datasets. On the WebVision50 classification task our method removes 17% of training data, yielding a 1.6% (absolute) improvement in test error. On CIFAR100 removing 13% of the data leads to a 1.2% drop in error.

研究の動機と目的

  • 深層ネットワークにおける誤ラベルデータが汎化性能に与える影響を動機づける。
  • 訓練ダイナミクスから誤ラベルサンプルを識別する、シンプルでプラグアンドプレイ可能な方法を提案する。
  • 各サンプルごとの指標としてAUM (Area Under the Margin) を導入する。
  • 信頼できる検証データなしに、追加クラスを用いた閾値サンプルを用いて誤ラベルデータを堅牢に分離する。
  • 合成データセットと実世界のベンチマークのデータをクリーンアップすることで改善を示す。

提案手法

  • Define the per-sample logit margin M^(t)(x,y) between the assigned logit and the highest other logit.
  • Compute AUM(x,y) as the average of margins across training epochs: AUM = (1/T) sum_t M^(t)(x,y).
  • Introduce an extra artificial class (c+1) and assign a subset of threshold samples to this class to create a reference AUM distribution for mislabeled data.
  • Train two networks up to the first learning-rate drop: once with the original data plus threshold samples, once with the threshold samples and the original data removed progressively based on AUM thresholds.
  • Use the 99th percentile AUM of threshold samples as the threshold α to identify mislabeled data: keep data with AUM > α, remove those with AUM ≤ α.
  • Repeat with different threshold samples to identify remaining mislabeled data.
  • Profile identification via precision/recall on synthetic noisy data and validate by training classifiers after removing flagged samples.

実験結果

リサーチクエスチョン

  • RQ1AUM は訓練ダイナミクスに基づいて、誤ラベルサンプルと正しくラベル付けされたサンプルを区別できるか。
  • RQ2追加クラスを持つ閾値サンプルを加えると、信頼できる検証データなしにデータセット依存の堅牢な閾値が得られ、誤ラベルデータを分離できるか。
  • RQ3AUM で識別されて除去されたサンプルを訓練後の分類器は、合成データセットと実世界のノイズデータセットのテスト精度を改善するか。
  • RQ4アーキテクチャ、データ拡張、およびさまざまなノイズレジームに対して手法は頑健か。

主な発見

  • AUM は誤ラベルサンプルと正しくラベル付けされたサンプルの間で異なる学習ダイナミクスを捉え、データ品質の信頼できるランキングを可能にする。
  • 追加クラスを用いた閾値サンプルの構築は、検証なしでAUM閾値を設定する実用的な方法を提供する。
  • 合成データと実世界のデータセットを横断して、AUM識別の誤ラベルサンプルを除去するとテストエラーが改善され、時にはオラクルクリーニング性能に近づく、または同等になる。
  • 本手法は、誤ラベルデータの識別において高い適合率と再現率を達成し、難易度の高いデータセットで従来手法のいくつかを上回る。
  • 実世界の弱アノテーションデータセット (WebVision50, Clothing100K, ImageNet規模) では、AUMベースのクリーニングにより誤りを削減しつつ、データの制御可能な割合を除去する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。