[论文解读] Conformalized Quantile Regression
CQR 将保形预测与分位数回归相结合,产生有限样本、无分布假设的预测区间,能够自适应异方差性,且通常比竞争性的保形方法更短。
Conformal prediction is a technique for constructing prediction intervals that attain valid coverage in finite samples, without making distributional assumptions. Despite this appeal, existing conformal methods can be unnecessarily conservative because they form intervals of constant or weakly varying length across the input space. In this paper we propose a new method that is fully adaptive to heteroscedasticity. It combines conformal prediction with classical quantile regression, inheriting the advantages of both. We establish a theoretical guarantee of valid coverage, supplemented by extensive experiments on popular regression datasets. We compare the efficiency of conformalized quantile regression to other conformal methods, showing that our method tends to produce shorter intervals.
研究动机与目标
- 在回归中激励可靠的不确定性量化,且无需强分布假设。
- 开发一种方法,在保持有限样本、无分布假设覆盖的同时,使区间长度对局部变异性具有自适应性。
- 将任意分位数回归算法封装为产生保形预测区间的方法。
- 提供理论保证和实验证据,证明相对于现有保形方法的效率提升。
提出的方法
- 使用带有合适训练集和校准集的分割保形预测。
- 在合适的训练集上拟合两个条件分位数函数以获得下界和上界。
- 基于插件区间计算一致性分数,并通过这些分数的经验分位数进行校准。
- 通过用经过校准的一致性分位数(基于 E 的)调整插件分位数来构造最终区间。
- 在可交换性假设下证明有限样本覆盖率:P{Y_{n+1} ∈ C(X_{n+1})} ≥ 1 - α。
- 通过使用分位数回归替代均值回归来展示对异方差性的自适应性。
- 结合实际考量扩展:超参数调优、两维分位数输出,以及潜在的不对称保形化。
实验结果
研究问题
- RQ1在使用分位数回归来形成基础区间时,是否能够维持保形预测的保证?
- RQ2在跨数据集实现有限样本覆盖的同时,保形化分位区间是否达到更短的平均长度?
- RQ3就区间长度与覆盖率而言,CQR 与标准分割保形预测以及局部自适应保形预测相比如何?
- RQ4CQR 是否可以包裹多种分位数回归方法(如随机森林、神经网络)以获得实用、高效的预测区间?
主要发现
| 方法 | 平均长度 | 平均覆盖率 |
|---|---|---|
| Ridge | 3.06 | 90.03 |
| Ridge Local | 2.94 | 90.13 |
| Random Forests | 2.24 | 89.99 |
| Random Forests Local | 1.82 | 89.95 |
| Neural Net | 2.16 | 89.92 |
| Neural Net Local | 1.81 | 89.95 |
| CQR Random Forests | 1.41 | 90.33 |
| CQR Neural Net | 1.40 | 90.05 |
| Quantile Random Forests | 2.23 | 92.62 |
| Quantile Neural Net | 1.49 | 88.51 |
- 在十一组数据集上,CQR 的平均预测区间比标准保形预测和局部自适应保形预测更短。
- 所有基于保形的方法在90%的名义覆盖率下保持覆盖,而未保形化的基线在覆盖率上表现出变异。
- 平均而言,使用随机森林和神经网络的 CQR 获得显著更短的区间(例如 CQR RF 为 1.41、CQR NN 为 1.40 的平均长度),覆盖接近名义水平(约 90%)。
- 基于分位数的基线在未进行保形化时可能出现覆盖不足或过度覆盖,取决于调谐,凸显有限样本保证的价值。
- 两种变体(对称保形化 vs 非对称保形化)会影响区间长度,非对称通常略微增加长度但改善尾部保证。
- 该方法对不同的分位数回归骨干网络(例如分位数森林、分位数神经网络)具有灵活性,同时保持覆盖保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。