QUICK REVIEW

[论文解读] Robust model selection in generalized linear models

Samuel Müller, A. H. Welsh|ArXiv.org|Nov 15, 2007

Advanced Statistical Methods and Models参考文献 19被引用 24

一句话总结

本文将稳健自助模型选择方法从线性模型扩展至广义线性模型（GLMs），提出一种偏差校正的m-out-of-n自助估计量，消除了对截距项和中心化协变量的需求。该方法在污染条件下提升了模型选择的一致性和性能，在模拟和真实数据中均优于AIC、BIC及非稳健估计量，尤其在使用稳健估计量（如Cantoni-Ronchetti估计量）时表现更优。

ABSTRACT

In this paper, we extend to generalized linear models (including logistic and other binary regression models, Poisson regression and gamma regression models) the robust model selection methodology developed by Mueller and Welsh (2005; JASA) for linear regression models. As in Mueller and Welsh (2005), we combine a robust penalized measure of fit to the sample with a robust measure of out of sample predictive ability which is estimated using a post-stratified m-out-of-n bootstrap. A key idea is that the method can be used to compare different estimators (robust and nonrobust) as well as different models. Even when specialized back to linear regression models, the methodology presented in this paper improves on that of Mueller and Welsh (2005). In particular, we use a new bias-adjusted bootstrap estimator which avoids the need to centre the explanatory variables and to include an intercept in every model. We also use more sophisticated arguments than Mueller and Welsh (2005) to establish an essential monotonicity condition.

研究动机与目标

将稳健模型选择方法从线性模型推广至广义线性模型（GLMs），包括逻辑回归、泊松回归和伽马回归。
开发一种结合稳健拟合与预测性能的模型选择准则，实现跨模型和估计量的比较。
在模型选择中消除对截距项和协变量中心化的依赖，提升方法的灵活性。
利用广义逆矩阵和迹分解，建立稳健估计量在GLMs中准则的渐近一致性。
通过模拟和一个关于树栖有袋类多样性的真实数据示例，展示有限样本下的性能表现。

提出的方法

使用稳健的惩罚对数似然函数衡量对观测数据的拟合优度，结合偏差校正的m-out-of-n自助估计量。
采用分层后的m-out-of-n自助方法估计样本外预测误差，提升稳定性和稳健性。
应用偏差校正的自助估计量：$\widehat{\beta}^{c*}_{\alpha,m} - \mathbb{E}_*(\widehat{\beta}^{c*}_{\alpha,m} - \widehat{\beta}^{c}_{\alpha})$，以避免对协变量中心化和截距项的依赖。
利用广义逆矩阵分解稳健估计量的渐近方差，简化基于迹的相合性证明。
将稳健拟合与预测损失整合为统一的模型选择准则$M_n(\alpha)$，并在模型子集$\alpha$上进行优化。
以Cantoni-Ronchetti（2001）的稳健估计量为关键示例，其扩展方法适用于其他稳健估计量。

实验结果

研究问题

RQ1稳健自助模型选择能否从线性模型推广至广义线性模型（GLMs）？
RQ2在不牺牲一致性的前提下，如何在稳健模型选择中消除对截距项和协变量中心化的需求？
RQ3与标准自助方法相比，所提出的偏差校正自助估计量是否能提升有限样本下的性能？
RQ4能否为GLMs中一大类稳健估计量建立该模型选择准则的相合性？
RQ5在存在污染或异常值的情况下，该方法与AIC、BIC及非稳健估计量相比表现如何？

主要发现

在污染条件下，采用Cantoni-Ronchetti估计量的稳健模型选择准则对真实模型的选择概率达到71%，而最大似然估计量则为0%。
即使真实模型仅包含三个非零系数，该方法仍保持高选择准确性，在模拟研究中优于AIC和BIC。
偏差校正的自助估计量消除了对协变量中心化或模型中必须包含截距项的要求，显著提升了方法的适用范围。
通过广义逆矩阵和迹分解，建立了理论相合性，其证明框架比Müller和Welsh（2005）更具普遍性。
在关于袋鼠类多样性的真实数据示例中，该方法识别出雄性袋鼠和栖息地为关键预测变量，与后向选择和稳健性考量一致。
图1中的解路径显示，最小$M_n(\alpha)$出现在两个预测变量时，证实了模型的稳定性和选择效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。