QUICK REVIEW

[論文レビュー] Robust model selection in generalized linear models

Samuel Müller, A. H. Welsh|ArXiv.org|Nov 15, 2007

Advanced Statistical Methods and Models参考文献 19被引用数 24

ひとこと要約

この論文は、線形モデルから一般化線形モデル（GLMs）へのロバストブートストラップモデル選択を拡張し、切片と中心化された共変量の必要性を排除するバイアス補正付きm-out-of-nブートストラップ推定量を導入する。この手法は、外れ値の影響を受ける状況下でもモデル選択の一貫性と性能を向上させ、シミュレーションおよび実データにおいてAIC、BIC、非ロバスト推定量を上回る。特に、Cantoni-Ronchetti推定量などのロバスト推定量を用いる場合に顕著である。

ABSTRACT

In this paper, we extend to generalized linear models (including logistic and other binary regression models, Poisson regression and gamma regression models) the robust model selection methodology developed by Mueller and Welsh (2005; JASA) for linear regression models. As in Mueller and Welsh (2005), we combine a robust penalized measure of fit to the sample with a robust measure of out of sample predictive ability which is estimated using a post-stratified m-out-of-n bootstrap. A key idea is that the method can be used to compare different estimators (robust and nonrobust) as well as different models. Even when specialized back to linear regression models, the methodology presented in this paper improves on that of Mueller and Welsh (2005). In particular, we use a new bias-adjusted bootstrap estimator which avoids the need to centre the explanatory variables and to include an intercept in every model. We also use more sophisticated arguments than Mueller and Welsh (2005) to establish an essential monotonicity condition.

研究の動機と目的

線形モデルからのロバストモデル選択を一般化線形モデル（GLMs）に拡張すること。具体的には、ロジスティック回帰、ポisson回帰、ガンマ回帰を含む。
ロバストな適合度と予測性能を統合したモデル選択基準を開発し、異なるモデルおよび推定量間での比較を可能にすること。
モデル選択における切片と共変量の中心化の必要性を排除し、手法の柔軟性を高めること。
一般化逆行列とトレース分解を用いて、GLMsにおけるロバスト推定量の基準の漸近的一致性を確立すること。
シミュレーションおよび実データ例（樹木に生息する有袋類の多様性）を通じて、有限標本における性能を示すこと。

提案手法

観測データに対する適合度を測るため、バイアス補正付きm-out-of-nブートストラップ推定量を組み込んだロバストな罰則付き損失関数を用いる。
外れ値に対する安定性とロバスト性を高めるために、後期層別m-out-of-nブートストラップを用いて予測誤差を推定する。
中心化や切片の制約を回避するため、バイアス補正付きブートストラップ推定量 $\widehat{\beta}^{c*}_{\alpha,m} - \mathbb{E}_*(\widehat{\beta}^{c*}_{\alpha,m} - \widehat{\beta}^{c}_{\alpha})$ を適用する。
一般化逆行列を用いてロバスト推定量の漸近的分散を分解し、トレースに基づく一貫性証明を簡略化する。
ロバストな適合度と予測損失を統合した統一されたモデル選択基準 $M_n(\alpha)$ を構築し、モデルサブセット $\alpha$ に対して最適化する。
Cantoni-Ronchetti（2001）のロバスト推定量を主な例として用い、他のロバスト推定量への応用も可能である。

実験結果

リサーチクエスチョン

RQ1ロバストブートストラップモデル選択を線形モデルから一般化線形モデル（GLMs）に一般化できるか？
RQ2モデル選択において切片と共変量の中心化の必要性を排除しながら、一貫性を損なわずに実現できるか？
RQ3提案されたバイアス補正付きブートストラップ推定量は、標準的ブートストラップ手法と比較して有限標本における性能を向上させるか？
RQ4GLMsにおける広範なロバスト推定量のクラスに対して、モデル選択基準の一貫性を確立できるか？
RQ5外れ値や汚染が存在する状況下で、提案手法はAIC、BIC、非ロバスト推定量と比較して優れているか？

主な発見

Cantoni-Ronchetti推定量を用いたロバストモデル選択基準は、汚染下で真のモデルの選択確率が71%に達したのに対し、最尤推定量では0%であった。
真のモデルに非ゼロ係数をもつ変数が3つしか含まれない場合でも、シミュレーション研究においてAICやBICを上回る高い選択精度を維持した。
バイアス補正付きブートストラップ推定量により、共変量の中心化やすべてのモデルに切片を含める必要がなくなり、手法の適用範囲が広がった。
一般化逆行列とトレース分解を用いた理論的一致性の確立により、MüllerとWelsh（2005）のものよりもより一般的な証明フレームワークが得られた。
実データ例（ポッソウの多様性）では、ステージと生息環境が主要な予測変数として選ばれ、バックワード選択とロバストネスの観点からも整合的であった。
図1の解パスから、最小の $M_n(\alpha)$ が2つの予測変数で達成されていることが確認され、モデルの安定性と選択効率が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。