[论文解读] Conformal Prediction Under Covariate Shift
本文通过使用加权非合规分数分布将一致性预测扩展到协变量漂移,当训练与测试协变量不同且似然比已知或可从未标注数据估计时,能够得到分布无关的预测区间。
We extend conformal prediction methodology beyond the case of exchangeable data. In particular, we show that a weighted version of conformal prediction can be used to compute distribution-free prediction intervals for problems in which the test and training covariate distributions differ, but the likelihood ratio between these two distributions is known---or, in practice, can be estimated accurately with access to a large set of unlabeled data (test covariate points). Our weighted extension of conformal prediction also applies more generally, to settings in which the data satisfies a certain weighted notion of exchangeability. We discuss other potential applications of our new conformal methodology, including latent variable and missing data problems.
研究动机与目标
- 在训练和测试协变量不同(协变量漂移)时,激发分布无关的预测区间的动机。
- 开发一个带权的一致性预测框架,利用似然比权重恢复类似可交换性的行为。
- 在带权可交换性下给出理论保证,并推导实际程序(包括带权分割一致性预测)。
- 在实际数据(翼型数据集)上实证展示该方法,并讨论从未标注数据估计权重的方法。
提出的方法
- 使用基础回归算法和分数函数定义非合规分数。
- 引入使用权重 w(X)=dP̃X/dPX 的非合规分数的加权经验分布。
- 在协变量漂移下证明基于加权分位数的覆盖保证(Corollary 1)。
- 给出一种带权分割一致性预测以提高计算效率的版本。
- 展示如何通过分类器从带标签/未带标签数据估计权重 w(x) 以处理未知的协变量漂移(等式(7)-(12))。
- 将带权可交换性视为可交换性的推广进行讨论,并给出支持引理(引理2-3)。
实验结果
研究问题
- RQ1在测试与训练协变量分布不同的情况下,一致性预测是否能提供有效的分布无关预测区间?
- RQ2如何对非合规分数组加权以反映协变量漂移并恢复类似可交换性的行为?
- RQ3如何从未标注数据实际估计测试与训练协变量分布之间的似然比?
- RQ4协变量漂移对覆盖率和区间长度的经验影响是什么?带权方法与未带权方法相比如何?
- RQ5所提出的加权方案是否可以高效实现(通过分割一致性)并扩展到带权可交换性?
主要发现
- 在协变量漂移下,普通的分割一致性预测在测试协变量非均匀偏移时低于覆盖率。
- 带权分割一致性预测在带有oracle权重时在协变量漂移下恢复名义覆盖率(约90%),由于有效样本量的原因区间略长。
- 带权一致性区间使用估计权重(逻辑回归或随机森林)实现接近名义覆盖率(约91%)。
- 带权下的有效样本量可以通过基于权重的公式来表征,解释覆盖率的变异性。
- 从带标签/未带标签数据估计似然比 w(x) 使带权一致性预测在协变量漂移下具有实际应用。
- 该框架扩展到超越协变量漂移的带权可交换性,具备一般理论保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。