Skip to main content
QUICK REVIEW

[论文解读] On Symmetric Losses for Learning from Corrupted Labels

Nontawat Charoenphakdee, Jongyeong Lee|arXiv (Cornell University)|Jan 27, 2019
Machine Learning and Algorithms参考文献 42被引用 36
一句话总结

该论文分析在标签被污染时的对称损失,证明它们在BER与AUC优化中的有利性质,提出一个凸界障 hinge 损失,并在经验上验证鲁棒性。

ABSTRACT

This paper aims to provide a better understanding of a symmetric loss. First, we emphasize that using a symmetric loss is advantageous in the balanced error rate (BER) minimization and area under the receiver operating characteristic curve (AUC) maximization from corrupted labels. Second, we prove general theoretical properties of symmetric losses, including a classification-calibration condition, excess risk bound, conditional risk minimizer, and AUC-consistency condition. Third, since all nonnegative symmetric losses are non-convex, we propose a convex barrier hinge loss that benefits significantly from the symmetric condition, although it is not symmetric everywhere. Finally, we conduct experiments to validate the relevance of the symmetric condition.

研究动机与目标

  • 在没有先验信息的情况下,动机性地使用对称损失来从被污染的标签中学习并进行 BER/AUC 优化。
  • 建立对称损失的理论性质(分类校准、超额风险、条件风险最小值、AUC 一致性)。
  • 引入一个凸的屏障 hinge 损失,既能从对称性中获益,又保持可处理。
  • 实证表明,在标签污染下,对称损失优于非对称损失。

提出的方法

  • 定义 ell(z)+ell(-z) 为常数的对称边距损失,并分析它们在污染标签下的风险。
  • 推导 BER 和 AUC 的干净与污染代理风险之间的关系,并证明对称性使超额项恒定。
  • 证明对称损失的分类校准条件并建立超额风险界。
  • 引入屏障 hinge 损失,一种凸的、非负的损失,在域的一个子集上对称,以利用鲁棒性优势。
  • 在标签污染下,将多种损失(零一、hinge、sigmoid、unhinged、barrier 等)用于 BER 和 AUC 任务进行比较。

实验结果

研究问题

  • RQ1代理损失的对称性是否在不估计类别先验的情况下,确保干净与污染 BER 与 AUC 风险的最小值相同?
  • RQ2在污染标签下,对称损失在 BER/AUC 性能和鲁棒性方面与非对称损失相比如何?
  • RQ3一个满足近似对称性的凸损失(屏障 hinge)能在保持鲁棒性的同时保持优化友好性吗?
  • RQ4在此设定下,对称损失的基本性质(校准、超额风险、AUC 一致性)是什么?

主要发现

数据集任务BarrierUnhingedSigmoidLogisticHingeSquaredSavage
spambaseBAC82.3(0.8)84.1(0.6)80.9(0.6)72.6(0.7)74.7(0.7)69.5(0.7)73.6(0.6)
spambaseAUC86.8(0.7)90.9(0.4)86.0(0.4)79.2(0.8)77.7(0.7)80.1(0.8)
waveformBAC86.1(0.4)87.1(0.6)85.4(0.6)75.8(0.7)78.3(0.7)69.2(0.6)73.2(0.6)
waveformAUC92.2(0.4)91.7(0.6)90.9(0.6)82.3(0.7)79.8(0.9)75.1(0.7)80.1(0.6)
twonormBAC96.2(0.3)96.7(0.2)95.4(0.4)80.2(0.5)82.8(0.9)71.6(0.7)75.9(0.6)
twonormAUC99.1(0.1)99.6(0.0)98.0(0.2)88.3(0.5)83.9(0.7)77.3(0.7)82.7(0.5)
mushroomBAC93.4(0.8)91.1(0.9)94.4(0.7)81.3(0.5)84.5(1.0)72.2(0.6)79.5(0.8)
mushroomAUC98.4(0.2)97.2(0.4)97.8(0.3)89.0(0.5)82.2(0.6)77.8(0.6)88.1(0.7)
  • 对称损失在污染与干净 BER 与 AUC 风险下给出相同的最小值(不需要估计类别先验)。
  • 非对称损失可能引入过多项,使污染风险与干净风险之间的最小值发生偏移;对称性消除了这些项,使 BER 和 AUC 的最小值保持不变。
  • 一个充分条件是:非增的对称损失且 l(z)+l(-z) 常数且 l'(0)<0,便同时具有分类校准和 AUC 一致性。
  • 屏障 hinge 损失是凸的、非负的,在域的一个区域对称,且经验鲁棒,在污染下通常优于标准的对称损失。
  • 经验结果表明,随着标签污染在不同数据集和模型中的增加,对称损失(sigmoid、unhinged、barrier)优于许多非对称损失。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。