QUICK REVIEW

[论文解读] Selective Classification via Curve Optimization

Amr M. Alexandari, Avanti Shrikumar|arXiv (Cornell University)|Feb 20, 2018

Machine Learning and Data Classification被引用 1

一句话总结

本文提出了一种针对特定指标的拒绝对齐框架，利用校准的概率估计来优化类别不平衡数据集下的选择性分类，目标指标包括曲线下面积（AUC）、固定特异性下的敏感性以及加权Cohen's Kappa。该框架通过标签分布偏移适应技术，在分布偏移情况下仍能实现有效的拒绝对齐，在医学影像、自然语言处理、计算机视觉和基因组学基准测试中优于以top-k准确率为优化目标的方法。

ABSTRACT

In practical applications of machine learning, it is often desirable to identify and abstain on examples where the model's predictions are likely to be incorrect. Much of the prior work on this topic focused on out-of-distribution detection or performance metrics such as top-k accuracy. Comparatively little attention was given to metrics such as area-under-the-curve or Cohen's Kappa, which are extremely relevant for imbalanced datasets. Abstention strategies aimed at top-k accuracy can produce poor results on these metrics when applied to imbalanced datasets, even when all examples are in-distribution. We propose a framework to address this gap. Our framework leverages the insight that calibrated probability estimates can be used as a proxy for the true class labels, thereby allowing us to estimate the change in an arbitrary metric if an example were abstained on. Using this framework, we derive computationally efficient metric-specific abstention algorithms for optimizing the sensitivity at a target specificity level, the area under the ROC, and the weighted Cohen's Kappa. Because our method relies only on calibrated probability estimates, we further show that by leveraging recent work on domain adaptation under label shift, we can generalize to test-set distributions that may have a different class imbalance compared to the training set distribution. On various experiments involving medical imaging, natural language processing, computer vision and genomics, we demonstrate the effectiveness of our approach. Source code available at this https URL. Colab notebooks reproducing results available at this https URL.

研究动机与目标

为解决现有选择性分类方法在AUC和Cohen's Kappa等关键指标上优化不足的问题（这些指标在类别不平衡数据集中至关重要），而非仅依赖top-k准确率。
开发计算高效的、针对特定指标的拒绝对齐策略，利用校准的模型输出作为真实标签的代理。
通过标签分布偏移适应技术，使方法能够泛化到测试分布中类别不平衡程度与训练数据不同的情况。
在医学影像、自然语言处理、计算机视觉和基因组学等多样化领域中，验证该框架的有效性。
提供一种统一的方法，超越传统的基于准确率的评估标准，实现对多种性能指标的联合优化。

提出的方法

该框架利用校准的概率估计，估算若对某一示例进行拒绝对齐，目标指标（如AUC、Kappa）可能发生的变化，从而实现指标感知的决策。
通过从概率估计中推导出的解析公式，制定出针对特定特异性水平下敏感性、AUC以及加权Cohen's Kappa的拒绝对齐规则。
该方法依赖于一个假设：校准后的概率能反映真实的后验概率，从而在拒绝对齐下实现对指标的准确估计。
整合了近期在标签分布偏移适应方面的进展，使方法能够泛化到测试集类别分布与训练集不同的情况。
该方法作为后处理校准步骤实现，因此可应用于任何具备校准输出的预训练模型。
该框架支持基于阈值和曲线优化两种策略，从而在精确率、召回率与指标特定性能之间实现灵活权衡。

实验结果

研究问题

RQ1在类别不平衡的数据集中，能否有效优化选择性分类以实现AUC和Cohen's Kappa，而非依赖top-k准确率？
RQ2如何利用校准的概率估计来估算对单个示例拒绝对齐对任意指标的影响？
RQ3该框架能否泛化到测试分布中类别不平衡程度与训练数据不同的情况？
RQ4在真实世界数据集中，与基于top-k准确率的策略相比，基于指标特定的拒绝对齐在AUC和Kappa表现上表现如何？
RQ5所提出框架在多样化机器学习领域中的计算效率和实际可扩展性如何？

主要发现

所提方法在类别不平衡数据集上显著提升了加权Cohen's Kappa和AUC，相较于基于top-k准确率的拒绝对齐策略，即使所有示例均在分布内，效果依然显著。
与基线方法相比，该框架在固定特异性水平下实现了更高的敏感性，尤其在低资源和高度不平衡的设置中表现更优。
通过利用标签分布偏移适应，该方法能有效泛化到类别分布不同的测试集，且在各领域中均保持性能优势。
在医学影像、自然语言处理、计算机视觉和基因组学中的实验表明，该方法在指标特定性能上实现了持续提升，验证了其广泛适用性。
该方法仅引入极低的计算开销，因其作为后处理校准步骤运行于现有模型输出之上。
Colab笔记本和源代码已公开，支持可复现性，并可轻松集成至现有机器学习流程中。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。