Skip to main content
QUICK REVIEW

[论文解读] Learning with Average Top-k Loss

Yanbo Fan, Siwei Lyu|arXiv (Cornell University)|May 24, 2017
Machine Learning and Algorithms参考文献 4被引用 28
一句话总结

本文提出了一种新型聚合损失函数——平均top-k(ATk)损失,通过平均训练集中k个最大的个体损失来实现,在监督学习中推广了平均损失和最大损失,对异常值具有更强的鲁棒性,并能更好地适应类别不平衡或多模态数据分布,同时保持凸性以实现高效优化。实验结果表明,ATk损失在多种数据集上的二分类和回归任务中均表现出更优性能。

ABSTRACT

In this work, we introduce the {\em average top-$k$} (\atk) loss as a new aggregate loss for supervised learning, which is the average over the $k$ largest individual losses over a training dataset. We show that the \atk loss is a natural generalization of the two widely used aggregate losses, namely the average loss and the maximum loss, but can combine their advantages and mitigate their drawbacks to better adapt to different data distributions. Furthermore, it remains a convex function over all individual losses, which can lead to convex optimization problems that can be solved effectively with conventional gradient-based methods. We provide an intuitive interpretation of the \atk loss based on its equivalent effect on the continuous individual loss functions, suggesting that it can reduce the penalty on correctly classified data. We further give a learning theory analysis of \matk learning on the classification calibration of the \atk loss and the error bounds of \atk-SVM. We demonstrate the applicability of minimum average top-$k$ learning for binary classification and regression using synthetic and real datasets.

研究动机与目标

  • 为解决标准聚合损失函数的局限性——平均损失(对异常值敏感)和最大损失(对罕见的高损失样本敏感),在处理类别不平衡或多模态数据分布时的不足。
  • 提出一种新的聚合损失函数,结合平均损失和最大损失的优势,同时保持凸性以实现高效优化。
  • 通过ATk-SVM的分类校准性和误差界分析,为ATk损失提供理论依据。
  • 通过真实和合成数据集上的实证验证,证明最小ATk学习在二分类和回归任务中的有效性。

提出的方法

  • 提出平均top-k(ATk)损失,定义为训练集中k个最大个体损失的平均值,公式为 $\mathcal{L}_{\text{avt-}k}(L_{\bf z}(f)) = \frac{1}{k}\sum_{i=1}^{k}\ell_{[i]}(f)$。
  • 证明ATk损失在所有个体损失上均为凸函数,支持使用标准梯度方法进行高效优化。
  • 从直观角度解释ATk损失:通过聚焦于最困难的k个样本,降低对正确分类样本的惩罚。
  • 分析ATk损失的分类校准性,并基于基于间隔的泛化理论,推导ATk-SVM的误差界。
  • 在二分类和回归任务中,采用线性模型结合ATk损失,使用逻辑损失、合页损失、平方损失和绝对损失作为个体损失函数。
  • 通过交叉验证在每个数据集上选择最优k值,分类任务使用G-mean作为评估指标,回归任务使用MAE作为评估指标。

实验结果

研究问题

  • RQ1ATk损失能否有效平衡对异常值的鲁棒性与对类别不平衡或多模态数据分布的适应性?
  • RQ2ATk损失是否保持凸性,从而支持使用标准梯度方法进行高效优化?
  • RQ3在不同数据分布下,ATk学习与平均损失和最大损失相比,泛化性能如何?
  • RQ4ATk损失与分类校准之间存在何种理论关系?能否为ATk-SVM推导出误差界?
  • RQ5最优k值在不同数据集和损失函数之间是否稳定?与固定聚合损失相比,是否能提升性能?

主要发现

  • 在8个二分类数据集中的6个上,ATk损失实现了最佳G-mean表现,且在Monk、Australian和Titanic数据集上相比平均损失和最大损失具有统计显著性提升。
  • 在Spambase数据集上,ATk损失结合逻辑损失达到90.63%的G-mean,与平均损失的最佳结果持平但方差更低,且比最大损失高出1.16个百分点。
  • 在回归任务中,ATk损失将Sinc数据集的MAE降低至0.0806(平均损失为0.0816),在Cpusmall数据集上达到最低误差0.0627(平均损失为0.0634)。
  • 最优k值因数据集而异,Sinc数据集选择k=10,Abalone数据集选择k=5,表明其能自适应数据复杂度和噪声水平。
  • ATk学习结合合页损失在Phoneme数据集上达到70.41%的G-mean,与平均损失的最佳结果持平但方差更低,且显著优于最大损失(12.89% G-mean)。
  • 理论分析证实,ATk损失具有分类校准性,并为ATk-SVM提供了非平凡的误差界,支持其泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。