Skip to main content
QUICK REVIEW

[論文レビュー] L_DMI: An Information-theoretic Noise-robust Loss Function

Yilun Xu, Peng Cao|arXiv (Cornell University)|Sep 8, 2019
Machine Learning and Data Classification参考文献 43被引用数 34
ひとこと要約

L_DMIを導入する。Determinant based Mutual Information (DMI) に基づくロスで、インスタンス独立のラベルノイズに対して理論的に頑健で、任意の分類器に適用しやすい。複数のデータセットとノイズパターンにおいて優れた性能を示す。

ABSTRACT

Accurately annotating large scale dataset is notoriously expensive both in time and in money. Although acquiring low-quality-annotated dataset can be much cheaper, it often badly damages the performance of trained models when using such dataset without particular treatment. Various methods have been proposed for learning with noisy labels. However, most methods only handle limited kinds of noise patterns, require auxiliary information or steps (e.g. , knowing or estimating the noise transition matrix), or lack theoretical justification. In this paper, we propose a novel information-theoretic loss function, $\mathcal{L}_{DMI}$, for training deep neural networks robust to label noise. The core of $\mathcal{L}_{DMI}$ is a generalized version of mutual information, termed Determinant based Mutual Information (DMI), which is not only information-monotone but also relatively invariant. \emph{To the best of our knowledge, $\mathcal{L}_{DMI}$ is the first loss function that is provably robust to instance-independent label noise, regardless of noise pattern, and it can be applied to any existing classification neural networks straightforwardly without any auxiliary information}. In addition to theoretical justification, we also empirically show that using $\mathcal{L}_{DMI}$ outperforms all other counterparts in the classification task on both image dataset and natural language dataset include Fashion-MNIST, CIFAR-10, Dogs vs. Cats, MR with a variety of synthesized noise patterns and noise amounts, as well as a real-world dataset Clothing1M. Codes are available at https://github.com/Newbeeer/L_DMI .

研究の動機と目的

  • 大規模でノイズの多いラベリングにおいて、クリーンデータやノイズ遷移情報に依存せずにロバストな学習を促進する。
  • 様々なノイズパターンに対する頑健性をサポートする一般化された相互情報量の測度(DMI)を定義・正当化する。
  • モデル出力とノイズ付きラベル間のネガティブDMIを最小化する実用的なロス関数L_DMIを提案する。
  • L_DMIがインスタンス独立のラベルノイズに対して頑健で、定数シフトまでクリーンデータでの訓練と同等であるという理論的保証を提供する。
  • 多様なノイズパターンを持つ画像および言語データセットでのL_DMIの実証的利点を示す。

提案手法

  • DMIを分類器の出力とラベルの結合分布行列の決定係数として定義する。
  • L_DMIをDMIの負の対数として定式化する:L_DMI = -log(DMI(h(X), tilde{Y})).
  • OおよびL行列を用いてバッチ統計から結合分布Q_{h(X), tilde{Y}}を推定し、U = (1/N) O Lとする。
  • ノイズ遷移情報を要求せず、DMIの比較的不変性特性を活用してノイズに対して頑健性を確保する。
  • ノイズ下でのロスのシフトが一定となり、分類器の品質の順序を保つことを示す理論的結果を提供する。

実験結果

リサーチクエスチョン

  • RQ1L_DMIはノイズ遷移行列にアクセスできなくても、インスタンス独立ラベルノイズに対する頑健性を理論的に保証できるか。
  • RQ2様々なノイズパターンとノイズレベルにもかかわらず、L_DMIを最適化することはクリーンラベル下での性能最適化と一致するか。
  • RQ3補助データなしで、異なるアーキテクチャやモダリティ(画像とテキスト)に対してL_DMIは適用可能か。
  • RQ4対角優勢/対角非優勢/実世界のノイズラベリングに対して、現行の頑健ロスとL_DMIをどのように比較するか。
  • RQ5合成ノイズおよび実世界のノイズ付きラベルで標準ベンチマークにおけるL_DMIの実証的利得はどの程度か。

主な発見

  • L_DMIは前述の仮定の下でインスタンス独立ラベルノイズに対して頑健であることが証明される。
  • ノイズデータでのL_DMIによる訓練は、ロスの一定のシフトまでクリーンデータでの訓練と同等である。
  • 経験的には、L_DMIはFashion-MNIST、CIFAR-10、Dogs vs. Cats、MR、Clothing1Mにおいて、 variedなノイズパターンと量の下でCE、FW、GCE、およびLCCNよりも優れている。
  • L_DMIは合成ノイズパターン(対角的に非優勢を含む)と実世界のノイズデータセットの両方で有利性を維持する。
  • Clothing1Mでは、比較手法の中で報告された中で最高の精度をL_DMIが達成している。
  • 本手法はアーキテクチャおよびデータドメインに依存しないことが示され、ResNet-50、ResNet-34、VGG-16、WordCNNで実証されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。