[论文解读] On the Consistency of AUC Pairwise Optimization
本文提出了一种AUC成对优化一致性的新充分条件,证明了指数损失、逻辑损失和距离加权损失在AUC上是一致的。通过遗憾界分析,进一步揭示了AdaBoost与RankBoost在样本无限大时的等价性,解决了排序与提升算法中长期存在的理论问题。
AUC (area under ROC curve) is an important evaluation criterion, which has been popularly used in many learning tasks such as class-imbalance learning, cost-sensitive learning, learning to rank, etc. Many learning approaches try to optimize AUC, while owing to the non-convexity and discontinuousness of AUC, almost all approaches work with surrogate loss functions. Thus, the consistency of AUC is crucial; however, it has been almost untouched before. In this paper, we provide a sufficient condition for the asymptotic consistency of learning approaches based on surrogate loss functions. Based on this result, we prove that exponential loss and logistic loss are consistent with AUC, but hinge loss is inconsistent. Then, we derive the $q$-norm hinge loss and general hinge loss that are consistent with AUC. We also derive the consistent bounds for exponential loss and logistic loss, and obtain the consistent bounds for many surrogate loss functions under the non-noise setting. Further, we disclose an equivalence between the exponential surrogate loss of AUC and exponential surrogate loss of accuracy, and one straightforward consequence of such finding is that AdaBoost and RankBoost are equivalent.
研究动机与目标
- 为解决由于AUC非凸性而广泛使用成对代理损失时AUC优化的理论不一致性问题。
- 阐明为何某些校准损失(如合页损失和绝对损失)尽管满足校准条件,却无法与AUC保持一致。
- 提出一种新的AUC一致性的充分条件,以区分校准与实际一致性在成对优化中的差异。
- 在可实现设定下,推导出指数损失和逻辑损失的遗憾界,建立AUC与准确率优化之间的联系。
- 通过代理损失等价性,理论上证明AdaBoost与RankBoost在样本无限大时的等价性。
提出的方法
- 引入广义校准作为成对代理损失优化中AUC一致性的必要但不充分条件。
- 基于实例对之间期望风险与条件风险的关系,提出一种新的AUC一致性充分条件。
- 利用不等式 $(ab - cd)^2 \leq a^2(b-d)^2 + d^2(a-c)^2$ 推导出关联AUC与准确率代理损失的遗憾界。
- 应用变换 $t_f^* = \frac{1}{2} \ln \left( \frac{E_x[\eta(x)e^{-f(x)}]}{E_x[(1-\eta(x))e^{f(x)}]} \right)$ 以对齐AUC与准确率的代理风险。
- 推导出遗憾界,表明AUC的成对指数代理损失在适当阈值化下等价于准确率的指数代理损失。
- 利用新提出的充分条件,证明了指数损失、逻辑损失、距离加权损失、$q$-范数合页损失以及一般合页损失的一致性。
实验结果
研究问题
- RQ1为何某些校准的代理损失(如合页损失和绝对损失)尽管满足校准条件,却无法与AUC保持一致?
- RQ2在满足校准条件之外,还需何种额外条件才能确保AUC成对优化中的一致性?
- RQ3AdaBoost与RankBoost在样本无限大的极限下是否可理论证明等价?
- RQ4AUC代理损失的遗憾界如何与基于准确率的损失遗憾界相关联?
- RQ5在新提出的充分条件下,哪些代理损失可被严格证明与AUC一致?
主要发现
- 广义校准是AUC一致性的必要条件但不充分,如合页损失和绝对损失虽经校准却仍不一致。
- 利用新提出的充分条件,证明了指数损失、逻辑损失和距离加权损失与AUC的一致性。
- 推导出$q$-范数合页损失和一般合页损失,并证明其与AUC一致。
- 为指数损失和逻辑损失建立了遗憾界,表明AUC的成对代理损失等价于准确率的指数代理损失。
- 通过遗憾界分析,正式证明了在样本无限大时AdaBoost与RankBoost的等价性。
- 理论发现启发了OPAUC算法的提出,该算法使用成对最小二乘损失实现AUC优化,具备单遍扫描效率与优越性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。