QUICK REVIEW

[論文レビュー] On Symmetric Losses for Learning from Corrupted Labels

Nontawat Charoenphakdee, Jongyeong Lee|arXiv (Cornell University)|Jan 27, 2019

Machine Learning and Algorithms参考文献 42被引用数 36

ひとこと要約

本論文は、汚染ラベルの学習における対称的損失を分析し、BERとAUC最適化に有利な性質を証明し、凸界壁ヘッジ損失を提案し、実験的にロバスト性を検証する。

ABSTRACT

This paper aims to provide a better understanding of a symmetric loss. First, we emphasize that using a symmetric loss is advantageous in the balanced error rate (BER) minimization and area under the receiver operating characteristic curve (AUC) maximization from corrupted labels. Second, we prove general theoretical properties of symmetric losses, including a classification-calibration condition, excess risk bound, conditional risk minimizer, and AUC-consistency condition. Third, since all nonnegative symmetric losses are non-convex, we propose a convex barrier hinge loss that benefits significantly from the symmetric condition, although it is not symmetric everywhere. Finally, we conduct experiments to validate the relevance of the symmetric condition.

研究の動機と目的

事前情報なしで、汚染ラベルからの学習とBER/AUC最適化のために対称的損失の利用を動機づける。
対称的損失の理論的性質を確立する（分類較正性、過剰リスク、条件付きリスク最小化、AUC整合性）。
対称性の恩恵を受けつつ、扱いやすさを保つ凸のバリア・ヘッジ損失を導入する。
ラベル汚染下で対称的損失が非対称的損失よりも性能で上回ることを実証的に示す。

提案手法

ell(z)+ell(-z) が一定になる対称マージン損失を定義し、汚染ラベル下でのリスクを分析する。
BERとAUCのクリーンな代理リスクと汚染後の代理リスクの関係を導出し、対称性が過剰項を一定にすることを示す。
対称損失に対する分類較正条件を証明し、過剰リスクの境界を確立する。
バリア・ヘッジ損失を導入する。凸で非負、領域の一部で対称であり、ロバスト性の利点を活用する。
ラベル汚染下でBERとAUCタスクに対して、ゼロ一、ヒンジ、シグモイド、アンヘンジド、バリアなど複数の損失を比較する。

実験結果

リサーチクエスチョン

RQ1代理損失の対称性は、クリーンと汚染後のBERおよびAUCリスクの最小点を、クラスプライアの推定なしに同一に保つことを保証するか。
RQ2汚染ラベル下で、対称損失はBER/AUCの性能とロバスト性の点で非対称損失とどう異なるか。
RQ3近似対称性を満たす凸損失（バリア・ヘッジ）が、最適化に適しつつロバスト性を維持できるか。
RQ4この設定における対称的損失の基本的性質（分類較正、過剰リスク、AUC整合性）は何か。

主な発見

データセット	タスク	バリア	アンヘンジド	シグモイド	ロジスティック	ヒンジ	二乗	サベージ
spambase	BAC	82.3(0.8)	84.1(0.6)	80.9(0.6)	72.6(0.7)	74.7(0.7)	69.5(0.7)	73.6(0.6)
spambase	AUC	86.8(0.7)	90.9(0.4)	86.0(0.4)	79.2(0.8)	77.7(0.7)	80.1(0.8)
waveform	BAC	86.1(0.4)	87.1(0.6)	85.4(0.6)	75.8(0.7)	78.3(0.7)	69.2(0.6)	73.2(0.6)
waveform	AUC	92.2(0.4)	91.7(0.6)	90.9(0.6)	82.3(0.7)	79.8(0.9)	75.1(0.7)	80.1(0.6)
twonorm	BAC	96.2(0.3)	96.7(0.2)	95.4(0.4)	80.2(0.5)	82.8(0.9)	71.6(0.7)	75.9(0.6)
twonorm	AUC	99.1(0.1)	99.6(0.0)	98.0(0.2)	88.3(0.5)	83.9(0.7)	77.3(0.7)	82.7(0.5)
mushroom	BAC	93.4(0.8)	91.1(0.9)	94.4(0.7)	81.3(0.5)	84.5(1.0)	72.2(0.6)	79.5(0.8)
mushroom	AUC	98.4(0.2)	97.2(0.4)	97.8(0.3)	89.0(0.5)	82.2(0.6)	77.8(0.6)	88.1(0.7)

対称損失は、汚染されたリスクとクリーンなBER/AUCリスクに対して同一の最小点を与える（クラスプライアの推定は不要）。
非対称損失は過剰項を導入し、汚染後とクリーンなリスク間で最小点を移動させ得るが、対称性はBERとAUCにおいてこれらの項を排除する。
l(z)+l(-z) が一定で、かつ非増加の対称損失で、l'(0)<0 は分類較正され、AUC整合性を持つ、という十分条件。
バリア・ヘッジ損失は凸で非負、ある領域で対称であり、経験的にロバストであり、汚染下で標準的な対称損失を上回ることが多い。
実証結果は、対称損失（シグモイド、アンヘンジド、バリア）が、ラベル汚染がデータセットとモデル across 増加するにつれて多くの非対称損失を上回ることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。