[論文レビュー] TRAINING DEEP NEURAL NETWORKS ON NOISY LABELS WITH BOOTSTRAPPING
本稿では、深層特徴埋め込みを用いて類似する入力間で予測の一貫性を強制することで、ラベルのノイズや不完全さに対して深層ニューラルネットワークのロバスト性を向上させるブートストラップ手法を提案する。本手法は、ラベルの汚染が生じるMNIST、Toronto Face Databaseにおける感情認識、ILSVRC2014におけるスケーラブルなオブジェクト検出において、アーキテクチャの変更なしに最先端の性能を達成する。
Current state-of-the-art deep learning systems for visual object recognition and detection use purely supervised training with regularization such as dropout to avoid overfitting. The performance depends critically on the amount of labeled examples, and in current practice the labels are assumed to be unambiguous and accurate. However, this assumption often does not hold; e.g. in recognition, class labels may be missing; in detection, objects in the image may not be localized; and in general, the labeling may be subjective. In this work we propose a generic way to handle noisy and incomplete labeling by augmenting the prediction objective with a notion of consistency. We consider a prediction consistent if the same prediction is made given similar percepts, where the notion of similarity is between deep network features computed from the input data. In experiments we demonstrate that our approach yields substantial robustness to label noise on several datasets. On MNIST handwritten digits, we show that our model is robust to label corruption. On the Toronto Face Database, we show that our model handles well the case of subjective labels in emotion recognition, achieving state-of-theart results, and can also benefit from unlabeled face images with no modification to our method. On the ILSVRC2014 detection challenge data, we show that our approach extends to very deep networks, high resolution images and structured outputs, and results in improved scalable detection.
研究の動機と目的
- ラベルのノイズや不完全さの下で性能が著しく低下するという深層学習における顕著な限界を解決すること。
- クリーンなラベルが不要な、汎用的かつアーキテクチャに依存しないロバスト性向上手法を開発すること。
- 実世界のビジョンタスクにおける主観的ラベリングを扱い、未ラベルデータの有効活用を可能にすること。
- 高解像度画像およびオブジェクト検出のような構造的出力へのロバストトレーニングを拡張すること。
提案手法
- 類似する深層特徴を持つ入力に対して同じ予測を促す一貫性目的関数を導入する。
- 入力間の類似度は、ネットワークから抽出された深層特徴空間におけるL2距離で測定する。
- 標準的な交差エントロピー損失に加え、一貫性正則化項を含む統合目的関数をエンドツーエンドで最適化する。
- 特徴が学習されたしきい値内にある入力ペair間で予測の一貫性を強制する。
- 既存モデルに変更を加えずに適用可能であり、ノイズのあるラベルに対する即時のロバスト性を実現する。
- 未ラベルデータは、明示的なデータ拡張やモデル再トレーニングを必要とせず、一貫性目的を通じて受動的に活用可能である。
実験結果
リサーチクエスチョン
- RQ1特徴ベースの一貫性正則化は、画像分類におけるラベルノイズに対して深層学習モデルのロバスト性を向上させ得るか?
- RQ2感情認識のような主観的または曖昧なラベルが生じるデータセットにおいて、本手法はどの程度の性能を示すか?
- RQ3本手法は高解像度画像やオブジェクト検出のような複雑な構造的出力にスケーラブルか?
- RQ4本手法は、アーキテクチャ的・トレーニング的変更なしに未ラベルデータの恩恵を享受できるか?
主な発見
- MNISTで50%のラベル汚染が生じる状況下でも、テスト誤差は1.8%にまで低下し、ベースラインモデルを著しく上回る。
- Toronto Face Databaseでは、主観的ラベリング下でも感情認識タスクで最先端の性能を達成した。
- ILSVRC2014の検出タスクにおいて、一般化性能が向上し、深層ネットワークおよび高解像度入力へのスケーラビリティを示した。
- トレーニングパイプラインの変更なしに、未ラベルの顔画像を有効活用し、性能向上を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。