QUICK REVIEW

[論文レビュー] Understanding and Utilizing Deep Neural Networks Trained with Noisy Labels

Pengfei Chen, Benben Liao|arXiv (Cornell University)|May 13, 2019

Machine Learning and Data Classification参考文献 27被引用数 139

ひとこと要約

この論文は、ラベルノイズが DNN の汎化性能に及ぼす影響を分析し、対称ノイズの下でテスト精度が二次関数となることを証明し、INCV+Co-teaching を提案してクリーンなサンプルを識別し堅牢なモデルを訓練する方法を提示する。CIFAR-10 と WebVision で最先端の結果を達成。

ABSTRACT

Noisy labels are ubiquitous in real-world datasets, which poses a challenge for robustly training deep neural networks (DNNs) as DNNs usually have the high capacity to memorize the noisy labels. In this paper, we find that the test accuracy can be quantitatively characterized in terms of the noise ratio in datasets. In particular, the test accuracy is a quadratic function of the noise ratio in the case of symmetric noise, which explains the experimental findings previously published. Based on our analysis, we apply cross-validation to randomly split noisy datasets, which identifies most samples that have correct labels. Then we adopt the Co-teaching strategy which takes full advantage of the identified samples to train DNNs robustly against noisy labels. Compared with extensive state-of-the-art methods, our strategy consistently improves the generalization performance of DNNs under both synthetic and real-world training noise.

研究の動機と目的

ノイズ付きラベルで訓練された深層ニューラルネットの汎化性能に対するラベルノイズの影響を定量化する。
対称ノイズおよび非対称ノイズの下で、テスト精度とノイズ比を関連づける理論フレームワークを提供する。
ノイズのあるデータセットからクリーンなラベルを識別する実用的なアルゴリズムを開発し、それを堅牢な訓練に組み込む。
既存手法と比較して、合成および実世界のノイズデータセット（CIFAR-10 と WebVision）で最先端の性能を示す。

提案手法

ノイズ遷移行列 T を用いて、分布に対する一般化を分析するためにノイズ付きラベルでのモデル訓練。
対称ノイズおよび非対称ノイズのテスト精度の式を導出する（例：Eq. 4–5 および関連する系註）。
分割した半分でクロストレーニングしてクリーンなサンプルを識別する Noisy Cross-Validation (NCV) を導入する（アルゴリズム1）。
クリーンなサブセットを逐次拡大しノイズを推定する Iterative Noisy Cross-Validation (INCV) を定義する（アルゴリズム2）。
INCVを強化されたCo-teaching フレームワーク（アルゴリズム3）と統合し、クリーンサブセットを重視した2つのネットワークを訓練し、候補サンプルの使用を制御する。

実験結果

リサーチクエスチョン

RQ1ラベルノイズ（対称ノイズと非対称ノイズ）は、定量的にどの程度DNNのテスト精度と汎化に影響を与えるか？
RQ2ノイズ付きラベルで訓練されたDNNのテスト精度をノイズ比の関数として表現できるか、そしてそれが経験的観察と一致するか？
RQ3ノイズデータセットからクリーン（正確な）サンプルを信頼性高く識別して学習を改善できるか？
RQ4Iterative Noisy Cross-ValidationとCo-teachingを組み合わせることで、合成データと実世界のノイズデータセットの頑健性と精度が向上するか？

主な発見

テスト精度は、対称ノイズ下でノイズ比の二次関数である。
ノイズ付きデータで訓練したDNNの予測は、ノイズ遷移行列 T によって特徴づけられる真のラベルと同じ分布に従う（分布における一般化）。
Noisy Cross-Validation (NCV) と Iterative NCV (INCV) は、クリーンなサンプルの高い割合を識別し、選択集合の有効ノイズを低減できる（LP と LR 指標）。
INCV強化のCo-teachingフレームワークは、対称・非対称ノイズを伴うCIFAR-10およびWebVision/ILSVRC12検証において、複数のベースラインと比較して優れたテスト精度を達成する。
実証結果は、ノイズ付き CIFAR-10 で訓練されたネットワークの混同行列において M ≈ T であることを示し、理論的予測を検証している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。