Skip to main content
QUICK REVIEW

[论文解读] Flexible distribution-free conditional predictive bands using density estimators

Rafael Izbicki, Gilson T. Shimizu|arXiv (Cornell University)|Oct 12, 2019
Statistical Methods and Inference参考文献 17被引用 24
一句话总结

该论文提出了 Dist-split 和 CD-split 两种 conformal prediction 方法,可在不对特征与响应之间关系施加强假设的前提下实现渐近条件覆盖。通过利用条件密度估计和数据驱动的特征空间划分,CD-split 在保持强条件覆盖的同时,生成更小、更优的预测区域,在包含异方差性和多模态噪声的多种模拟场景中优于现有方法。

ABSTRACT

Conformal methods create prediction bands that control average coverage under no assumptions besides i.i.d. data. Besides average coverage, one might also desire to control conditional coverage, that is, coverage for every new testing point. However, without strong assumptions, conditional coverage is unachievable. Given this limitation, the literature has focused on methods with asymptotical conditional coverage. In order to obtain this property, these methods require strong conditions on the dependence between the target variable and the features. We introduce two conformal methods based on conditional density estimators that do not depend on this type of assumption to obtain asymptotic conditional coverage: Dist-split and CD-split. While Dist-split asymptotically obtains optimal intervals, which are easier to interpret than general regions, CD-split obtains optimal size regions, which are smaller than intervals. CD-split also obtains local coverage by creating a data-driven partition of the feature space that scales to high-dimensional settings and by generating prediction bands locally on the partition elements. In a wide variety of simulated scenarios, our methods have a better control of conditional coverage and have smaller length than previously proposed methods.

研究动机与目标

  • 开发能够实现渐近条件覆盖且不对特征与响应之间的依赖关系施加严格假设的 conformal prediction 方法。
  • 在传统局部覆盖方法因数据稀疏性而失效的高维设置中,实现有效的预测带。
  • 生成比现有方法更小且条件覆盖更准确的预测区域。
  • 引入一种数据驱动的特征空间划分策略,支持局部有效性并可扩展至高维。
  • 在回归和分类任务中展示基于密度的 conformal 方法的有效性。

提出的方法

  • Dist-split 使用条件密度估计构建预测带作为区间,在渐近条件覆盖下收敛至最优的 oracle 区间。
  • CD-split 采用一种新颖的数据驱动度量,将特征空间划分为局部邻域,实现可扩展至高维的局部 conformal 预测。
  • 两种方法均使用 split conformal inference,在 i.i.d. 假设下确保边际覆盖,并通过密度估计实现渐近条件覆盖。
  • 预测带由通过积分条件密度估计得到的估计条件累积分布函数推导得出。
  • 这些方法依赖快速、可扩展的条件密度估计器(如 FlexCode),以确保在大规模数据集上的计算可行性。
  • CD-split 的划分策略能动态适应数据密度,提升高维特征空间中的局部覆盖性能。

实验结果

研究问题

  • RQ1我们能否在不假设误差项独立或对称的前提下,构建实现渐近条件覆盖的预测带?
  • RQ2在数据稀疏性导致传统邻域方法失效的高维特征空间中,如何保持局部有效性?
  • RQ3我们能否在保持强覆盖保证的前提下,生成比基于区间的更小预测区域?
  • RQ4基于条件密度的数据驱动划分策略是否能在实际中提升局部和条件覆盖性能?
  • RQ5与现有 conformal prediction 方法相比,这些方法在覆盖准确性和预测带大小方面表现如何?

主要发现

  • 在所有模拟场景中,CD-split 对条件覆盖的控制表现最佳,显著优于现有方法,在保持覆盖接近名义上的 90% 水平方面表现突出。
  • 在大多数设置中,CD-split 生成的预测带平均尺寸最小,展现出在区域估计方面的卓越效率。
  • Dist-split 在条件覆盖控制和带宽大小方面始终排名第二,当更偏好区间形式的可解释性时,提供了一个强有力的备选方案。
  • 所提出的方法在无需假设误差独立性或对称性的情况下实现渐近条件覆盖,对异方差性和多模态噪声具有鲁棒性。
  • CD-split 有效扩展至分类任务,在条件覆盖方面优于 Probability-split,尽管平均预测带略大。
  • CD-split 中的数据驱动划分策略实现了高维设置下的可扩展局部覆盖,而传统方法因数据稀疏性而失效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。