QUICK REVIEW

[論文レビュー] Error-Bounded Correction of Noisy Labels

Songzhu Zheng, Pengxiang Wu|arXiv (Cornell University)|Nov 19, 2020

Machine Learning and Data Classification被引用数 40

ひとこと要約

補足資料は、ティスバック条件の下でノイズ付きラベル補正の誤差境界を、合成の混合ガウスデータを用いて検証し、定数 C と lambda を推定し、LRT-Correction の性能を示す。

ABSTRACT

To collect large scale annotated data, it is inevitable to introduce label noise, i.e., incorrect class labels. To be robust against label noise, many successful methods rely on the noisy classifiers (i.e., models trained on the noisy training data) to determine whether a label is trustworthy. However, it remains unknown why this heuristic works well in practice. In this paper, we provide the first theoretical explanation for these methods. We prove that the prediction of a noisy classifier can indeed be a good indicator of whether the label of a training data is clean. Based on the theoretical result, we propose a novel algorithm that corrects the labels based on the noisy classifier prediction. The corrected labels are consistent with the true Bayesian optimal classifier with high probability. We incorporate our label correction algorithm into the training of deep neural networks and train models that achieve superior testing performance on multiple public datasets.

研究の動機と目的

多クラスのティスバック条件の下でノイズ付きラベルを補正する誤差境界フレームワークを動機づけ、検証する。
eta、tau、ノイズ付きeta が厳密に既知である合成実験を提供し、境界と補正性能を検証する。
ティスバック定数を推定し、誤差境界と補正境界の厳密性を示す。
制御されたノイズパターンの下で、LRT-Correction アルゴリズムがクリーンなラベルを密接に回復することを経験的に検証する。

提案手法

等確率の成分と既知のベイズラベルを持つ、10次元の合成混合ガウスデータセットを構築する。
事前定義された反転確率 tau01 および tau10 を用いて真の eta(x) とノイズ付きラベル分布を計算する。
t ∈ [0, 0.9] に対して log p_t を log t に回帰させることでティスバック定数 C と lambda を推定する。
定理1と系後 Corollary 1 の上限を評価するために、完璧なノイズ付き分類器 f = tilde{eta} を用いる。
合成データに対して LRT-Correction アルゴリズムを適用し、補正後ラベルをクリーンラベルと比較して Corollary 1 を検証する。
対称ノイズと非対称ノイズが補正性能と境界の厳密性に与える影響を議論する。

実験結果

リサーチクエスチョン

RQ1合成データ上でティスバック条件の定数 C と lambda を正確に推定してノイズラベル補正の誤差を境界づけることができるか。
RQ2制御された対称・非対称ノイズの下で LRT-Correction アルゴリズムが補正後ラベルをクリーンラベルに極めて近く一致させるか。
RQ3前提条件を満たす eta と f の場合、提供された誤差境界と補正境界はどれだけ厳密か。
RQ4完璧なノイズ付き分類器（f = tilde{eta}）を使用した場合の観測される境界と補正成功率への影響は何か。
RQ5ノイズ構造の変化（対称 vs 非対称）が正しく補正される確率と境界の挙動にどう影響するか。

主な発見

推定されたティスバック定数は C ≈ 0.58、lambda ≈ 1.27 で、高い信頼性を持つ（R^2 ≈ 0.904、p < 1e-4）。
誤差確率と ε の関係の境界は、合成設定の下で C[ε]^λ の形に一致する。
f = tilde{eta} が与えられた場合、補正ラベルはクリーンラベルに非常に近く、ノイズパターンの非対称性によって性能が制限される。
Corollary 1 は、合成データ下の経験的評価と一致する閉形式の補正誤差境界を提供する。
対称ノイズと非対称ノイズのシナリオを検討し、境界が有効なままで、制御された条件下で補正性能が境界予測に追従することを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。