QUICK REVIEW

[论文解读] Classification with Valid and Adaptive Coverage

Yaniv Romano, Matteo Sesia|arXiv (Cornell University)|Jun 3, 2020

Machine Learning and Data Classification参考文献 4被引用 24

一句话总结

该论文提出了一种用于多分类的新型置信推断方法，可在有限样本下保证边际覆盖性，同时自适应地提升条件覆盖性。通过引入基于类别概率排序的定制化符合度评分，该方法可与任意黑箱分类器配合使用，并在预测集大小和条件覆盖性方面优于现有方法，尤其在如神经网络等校准良好的模型上表现更优。

ABSTRACT

Conformal inference, cross-validation+, and the jackknife+ are hold-out methods that can be combined with virtually any machine learning algorithm to construct prediction sets with guaranteed marginal coverage. In this paper, we develop specialized versions of these techniques for categorical and unordered response labels that, in addition to providing marginal coverage, are also fully adaptive to complex data distributions, in the sense that they perform favorably in terms of approximate conditional coverage compared to alternative methods. The heart of our contribution is a novel conformity score, which we explicitly demonstrate to be powerful and intuitive for classification problems, but whose underlying principle is potentially far more general. Experiments on synthetic and real data demonstrate the practical value of our theoretical guarantees, as well as the statistical advantages of the proposed methods over the existing alternatives.

研究动机与目标

开发一种分类方法，确保多分类问题在有限样本下的边际覆盖性。
与现有的保留方法（如交叉验证+和自助法+）相比，提升条件覆盖性表现。
构建一个与任意黑箱分类器（包括神经网络和随机森林）兼容的灵活框架。
在保持统计有效性的前提下，使预测集尽可能小。
在合成数据和真实世界数据（尤其是MNIST）上实证验证该方法的性能。

提出的方法

提出一种基于类别概率排序的新型符合度评分，该评分在分类任务中直观且强大。
通过使用新符合度评分，将置信推断、交叉验证+和自助法+方法适配至分类任务。
采用广义逆函数构建随机化预测集，在条件覆盖约束下实现最优大小。
使用保留程序（如CV+、自助法+）校准预测集，确保边际覆盖性的保证。
实施数据分割策略，以实证验证方法的有效性并评估条件覆盖性。
支持确定性和随机化预测集，后者在覆盖约束下最小化预测集大小。

实验结果

研究问题

RQ1能否为多分类任务设计一种置信推断方法，以保证有限样本下的边际覆盖性？
RQ2如何使该方法适应复杂的数据分布，以提升条件覆盖性？
RQ3与现有方法相比，新型符合度评分能否改善预测集大小和条件性能？
RQ4该方法在包括神经网络和随机森林在内的多种分类器上是否保持有效性？
RQ5该方法在预测集大小和条件覆盖性方面，能在多大程度上逼近最优（oracle）水平？

主要发现

在MNIST数据上，该方法使用神经网络模型时，条件覆盖性接近90%，优于CQC-RF和HCC。
使用随机森林时，所有方法均出现覆盖不足，表明概率校准较差，但所提方法仍保持有效的边际覆盖性。
使用神经网络时，该方法生成的预测集大小与CQC-RF和HCC相当，同时实现了更优的条件覆盖性。
CV+表现出强劲的条件覆盖性，SC仅略逊一筹；相比之下，HCC、CQC和CQC-RF的条件覆盖性均未达到90%。
该方法在不同基础模型上表现稳健，当类别概率校准良好时，条件覆盖性显著提升。
该方法的Python实现包位于 https://github.com/msesia/arc，可实现所有实验的可复现性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。