QUICK REVIEW

[论文解读] Stochastic Optimization of Areas Under Precision-Recall Curves with Provable Convergence

Qi Qi, Youzhi Luo|arXiv (Cornell University)|Apr 18, 2021

Imbalanced Data Classification Techniques被引用 23

一句话总结

本文提出SOAP（Stochastic Optimization of AUPRC），一种新颖的随机优化框架，用于在深度学习中最大化精确率-召回率曲线下方面积（AUPRC），并具有可证明的收敛性。通过将平均精确率（AP）重新表述为具有层级依赖内函数的非凸复合函数之和，该方法使自适应（Adam风格）与非自适应（SGD风格）算法均具备理论收敛保证，且在类别不平衡的图像与图数据集上优于先前方法。

ABSTRACT

Areas under ROC (AUROC) and precision-recall curves (AUPRC) are common metrics for evaluating classification performance for imbalanced problems. Compared with AUROC, AUPRC is a more appropriate metric for highly imbalanced datasets. While stochastic optimization of AUROC has been studied extensively, principled stochastic optimization of AUPRC has been rarely explored. In this work, we propose a principled technical method to optimize AUPRC for deep learning. Our approach is based on maximizing the averaged precision (AP), which is an unbiased point estimator of AUPRC. We cast the objective into a sum of {\\it dependent compositional functions} with inner functions dependent on random variables of the outer level. We propose efficient adaptive and non-adaptive stochastic algorithms named SOAP with {\\it provable convergence guarantee under mild conditions} by leveraging recent advances in stochastic compositional optimization. Extensive experimental results on image and graph datasets demonstrate that our proposed method outperforms prior methods on imbalanced problems in terms of AUPRC. To the best of our knowledge, our work represents the first attempt to optimize AUPRC with provable convergence. The SOAP has been implemented in the libAUC library at~\\url{https://libauc.org/}.

研究动机与目标

为解决深度学习中AUPRC缺乏系统性随机优化方法的问题，特别是针对高度类别不平衡的数据集。
开发一种直接优化平均精确率（AP）的方法，AP是AUPRC的无偏估计量，且在较弱条件下具备可证明收敛性。
通过将AP优化问题形式化为两级随机复合问题，克服AP优化中非凸、非光滑且难以处理的梯度挑战。
设计兼具自适应（Adam风格）与非自适应（SGD风格）的算法，其梯度估计误差可控，用于AP最大化。
在类别不平衡条件下，通过图像与图神经网络基准测试，实证验证该方法在AUPRC性能上的优越性。

提出的方法

该方法将平均精确率（AP）目标形式化为非凸复合函数之和，其中内函数依赖于外层的随机变量，从而支持随机优化。
提出一种新型梯度估计器，对每个正样本维护并更新两个标量变量，以估计在预测阈值处个体精确率得分的随机梯度。
利用随机复合优化的最新进展，推导出兼具收敛保证的自适应（SOAP-Adam）与非自适应（SOAP-SGD）算法。
使用代理损失替代AP中的指示函数，使目标函数适用于基于梯度的优化。
通过控制梯度估计误差并使用递归更新动量与方差项，实现在较弱条件下的收敛性。
该方法已在 https://libauc.org/ 的libAUC库中实现，便于实际部署。

实验结果

研究问题

RQ1我们能否设计一种随机优化算法，直接最大化AUPRC，并在深度学习模型中具备可证明收敛性？
RQ2在随机设置下，如何高效估计平均精确率（AP）目标的梯度，该目标为非凸且非光滑？
RQ3与标准准确率优化模型相比，模型架构与数据不平衡对AUPRC优化模型性能的影响如何？
RQ4所提出方法在不同小批量大小与高度不平衡数据分布下是否保持稳定性能？
RQ5自适应优化（Adam风格）能否在AUPRC最大化中有效应用，并具备理论收敛保证？

主要发现

所提出的SOAP方法在高度类别不平衡的数据集上，于图像与图神经网络基准测试中，持续优于先前方法，显著提升AUPRC性能。
SOAP在极端类别不平衡场景下优于现有AUPRC优化基线方法，展现出对数据偏斜的强鲁棒性。
该方法对小批量大小不敏感，在小批量设置下仍能保持高性能，这对数据有限的实际应用场景至关重要。
实证结果证实，通过SOAP优化AP可实现比标准交叉熵或基于准确率训练更好的泛化性能与更高的AUPRC。
理论分析在较弱假设下建立了SOAP自适应与非自适应变体的收敛性，使其成为深度学习中首个可证明收敛的AUPRC优化方法。
在libAUC中的实现支持实际应用，且该方法在多种深度学习架构与数据集上均表现出有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。