Skip to main content
QUICK REVIEW

[论文解读] An improper estimator with optimal excess risk in misspecified density estimation and logistic regression

Jaouad Mourtada, Stéphane Gaïffas|arXiv (Cornell University)|Dec 23, 2019
Machine Learning and Algorithms参考文献 108被引用 11
一句话总结

本文提出了样本最小最大预测器(SMP),这是一种用于条件密度估计和逻辑回归的非正规估计器,即使在模型误设情况下也能实现最优的额外风险。通过最小化一个新型的额外风险界(其规模为 d/n),SMP 在模型误设情形下优于 MLE 等同类估计器,并提供了无次优 log n 因子的非渐近保证,在逻辑回归中实现了 O((d + B²R²)/n) 的额外风险。

ABSTRACT

We introduce a procedure for conditional density estimation under logarithmic loss, which we call SMP (Sample Minmax Predictor). This estimator minimizes a new general excess risk bound for statistical learning. On standard examples, this bound scales as $d/n$ with $d$ the model dimension and $n$ the sample size, and critically remains valid under model misspecification. Being an improper (out-of-model) procedure, SMP improves over within-model estimators such as the maximum likelihood estimator, whose excess risk degrades under misspecification. Compared to approaches reducing to the sequential problem, our bounds remove suboptimal $\log n$ factors and can handle unbounded classes. For the Gaussian linear model, the predictions and risk bound of SMP are governed by leverage scores of covariates, nearly matching the optimal risk in the well-specified case without conditions on the noise variance or approximation error of the linear model. For logistic regression, SMP provides a non-Bayesian approach to calibration of probabilistic predictions relying on virtual samples, and can be computed by solving two logistic regressions. It achieves a non-asymptotic excess risk of $O((d + B^2R^2)/n)$, where $R$ bounds the norm of features and $B$ that of the comparison parameter; by contrast, no within-model estimator can achieve better rate than $\min({B R}/{\sqrt{n}}, {d e^{BR}}/{n} )$ in general. This provides a more practical alternative to Bayesian approaches, which require approximate posterior sampling, thereby partly addressing a question raised by Foster et al. (2018).

研究动机与目标

  • 开发一个在模型误设下依然有效的有限样本额外风险界。
  • 提出一种非正规估计器,使其在模型误设情形下优于 MLE 等同类估计器。
  • 消除现有基于序列预测的界中所含的次优 log n 因子。
  • 为概率校准提供一种非贝叶斯、计算高效的后验抽样替代方法。
  • 在逻辑回归中实现最优的额外风险率,且无需对噪声方差或近似误差施加条件。

提出的方法

  • 提出样本最小最大预测器(SMP),一种通过最小化新通用额外风险界定义的非正规估计器。
  • 通过将一个测试点加入训练集并求解两个逻辑回归,采用虚拟样本方法。
  • 在扩展数据集上通过 λ-正则化风险最小化定义预测器。
  • 利用损失函数的伪自洽性与正则化风险的强凸性,推导稳定性界。
  • 通过交换性与迹不等式控制风险差的期望。
  • 利用正则化风险的黑塞矩阵与矩阵凹性,以杠杆值为依据界定向额外风险。

实验结果

研究问题

  • RQ1非正规估计器是否能在模型误设的密度估计中实现最优额外风险?
  • RQ2与基于序列预测的方法相比,所提出的 SMP 估计器是否能消除额外风险界中的次优 log n 因子?
  • RQ3SMP 是否能为逻辑回归中的校准概率预测提供一种非贝叶斯替代方法,以替代后验抽样?
  • RQ4在一般模型误设下,SMP 在逻辑回归中的有限样本额外风险是多少?
  • RQ5在高斯线性模型中,杠杆值如何影响 SMP 的风险行为?

主要发现

  • 在逻辑回归中,SMP 实现了 O((d + B²R²)/n) 的额外风险,与模型正确设定下的最优速率一致。
  • 额外风险界以 d/n 的尺度缩放,并在模型误设下依然有效,而 MLE 的风险会退化。
  • 在高斯线性模型中,SMP 的风险由杠杆值决定,且几乎达到最优正确设定下的风险。
  • 该界消除了先前基于序列预测方法中存在的次优 log n 因子。
  • SMP 通过虚拟样本提供了一种非贝叶斯方法,用于校准的概率预测,避免了近似后验抽样。
  • 该方法在无需对线性模型中的噪声方差或近似误差施加假设的情况下,实现了最优额外风险。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。