QUICK REVIEW

[論文レビュー] Are Anchor Points Really Indispensable in Label-Noise Learning?

Xiaobo Xia, Tongliang Liu|arXiv (Cornell University)|Jun 1, 2019

Machine Learning and Data Classification参考文献 46被引用数 142

ひとこと要約

この論文は、アンカーポイントに依存せずにラベルノイズ遷移行列を学習・改訂する T-Revision 法を提案し、ラベルノイズ下で分類器の整合性を改善する。

ABSTRACT

In label-noise learning, extit{noise transition matrix}, denoting the probabilities that clean labels flip into noisy labels, plays a central role in building extit{statistically consistent classifiers}. Existing theories have shown that the transition matrix can be learned by exploiting extit{anchor points} (i.e., data points that belong to a specific class almost surely). However, when there are no anchor points, the transition matrix will be poorly learned, and those current consistent classifiers will significantly degenerate. In this paper, without employing anchor points, we propose a extit{transition-revision} ($T$-Revision) method to effectively learn transition matrices, leading to better classifiers. Specifically, to learn a transition matrix, we first initialize it by exploiting data points that are similar to anchor points, having high extit{noisy class posterior probabilities}. Then, we modify the initialized matrix by adding a extit{slack variable}, which can be learned and validated together with the classifier by using noisy data. Empirical results on benchmark-simulated and real-world label-noise datasets demonstrate that without using exact anchor points, the proposed method is superior to the state-of-the-art label-noise learning methods.

研究の動機と目的

実データにおいてラベルノイズ学習で遷移行列を学習する際、しばしばアンカーポイントが利用できないという制約を動機づけ、対処する。
既存手法に内在する行列の逆対称を回避したリスク整合推定量を開発する。
遷移行列を分類器と共に初期化・改訂するための二段階の学習手順を提供する。
合成データと実世界のノイズデータセットで分類精度の改善を実証する。
提案学習枠組みの理論的一般化洞察を提供する。

提案手法

適合を整えるために遷移行列を反転する必要のないリスク整合推定量を導入し、クリーンとノイズの事後分布を一致させる。
推定ノイズ後分布が高く推定されるインスタンスを代理アンカーポイントとして用いて遷移行列 T_hat を初期化する。
T_hat を改訂するスラック行列 Delta T を導入し、T_hat + Delta T を形成、重み付きのリスク整合損失を最適化して分類器と共に学習する。
遷移行列の逆を用いずに、クリーンデータリスクをノイズデータの観点で表現するために重要度リウェイティングを使用する。
二段階の学習手順を採用: Stage 1 で P(barY|X) を推定し T_hat を初期化する; Stage 2 で f と Delta T を重み付け損失で学習する。
標準的な深層ネットワーク仮定の下で提案推定量の一般化境界を提供する。

実験結果

リサーチクエスチョン

RQ1トレーニング中に遷移行列を改訂することで、正確なアンカーポイントなしにラベルノイズ学習を統計的一貫性を持って行えるか。
RQ2行列の逆を回避するリスク整合推定量は遷移行列の効果的な調整を可能にし、ノイズ付きラベル下で分類性能を改善するか。
RQ3提案手法 T-Revision は、アンカーポイント依存法や他のベースラインと、合成データおよび実世界のノイズデータでどのように比較されるか。
RQ4提案推定量を用いて訓練された分類器の一般化に関する保証や界通常。

主な発見

アンカーポイントに依存する最先端手法と比較して、学習済み遷移行列を学習済みのスラック Delta T で更新する T-Revision アプローチは、優れた分類性能をもたらす。
行列の逆を必要としない提案リスク整合推定量は、ノイズデータとノイズバリデーションセットを用いた遷移行列の効果的な調整を示す。
MNIST, CIFAR-10, CIFAR-100, Clothing1M における実証的結果は、様々なノイズレベルと実世界のノイズ下で本手法がベースラインを上回ることを示す。
二段階の学習手順は、クリーンデータを必要とせずに遷移行列を改訂する実践的で計算効率の高い方法を提供する。
提案する深層ネットワークベースの推定量に対する理論的一般化境界が確立されており、n が大きくなるにつれて信頼性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。