Skip to main content
QUICK REVIEW

[論文レビュー] Regularization in regression: comparing Bayesian and frequentist methods in a poorly informative situation

Gilles Celeux, Mohammed El Anbari|arXiv (Cornell University)|Oct 2, 2010
Statistical Methods and Inference参考文献 36被引用数 53
ひとこと要約

本稿は、n が p 略大である高次元線形回帰において、非情報的事前分布のもとでベイズ的および頻度的正則化手法を比較する。本稿は、g のチューニングを必要としない2つのキャリブレーションフリーな階層的Zellner g-事前分布(NIMSおよびHG-2)を提案し、シミュレーションおよび実データを用いた実験で、ベイズ的手法がLasso やリッジ回帰などの頻度的代替手法に比べ、予測誤差が低く、変数選択の簡潔性に優れていることを示している。

ABSTRACT

Using a collection of simulated an real benchmarks, we compare Bayesian and frequentist regularization approaches under a low informative constraint when the number of variables is almost equal to the number of observations on simulated and real datasets. This comparison includes new global noninformative approaches for Bayesian variable selection built on Zellner's g-priors that are similar to Liang et al. (2008). The interest of those calibration-free proposals is discussed. The numerical experiments we present highlight the appeal of Bayesian regularization methods, when compared with non-Bayesian alternatives. They dominate frequentist methods in the sense that they provide smaller prediction errors while selecting the most relevant variables in a parsimonious way.

研究の動機と目的

  • n ≈ p であり、情報が乏しい状況におけるベイズ的および頻度的正則化手法の性能を評価すること。
  • 高次元線形モデルにおける非情報的事前分布が、変数選択および予測精度に与える影響を調査すること。
  • g のチューニングを必要としないキャリブレーションフリーな階層的Zellner g-事前分布(NIMSおよびHG-2)の妥当性と実用性を評価すること。
  • ベイズ的および頻度的アプローチの間で、モデル選択の簡潔性と予測性能を比較すること。
  • 低サンプルサイズ・高次元設定における客観的ベイズ手法の頑健性および競争力について、実証的証拠を提供すること。

提案手法

  • g-事前分布をベースラインとして用い、g に敏感な感度を低減するため、階層的および非情報的形に拡張する。
  • 2つのキャリブレーションフリーな事前分布を提案:NIMS(非情報的マージナル選択)およびHG-2(帰無モデルを除く階層的g-事前分布)。
  • ベイズ的手法ではモデル平均化を適用し、予測誤差を計算することで、頑健性およびMSE性能を向上させる。
  • 頻度的正則化手法(Lasso、リッジ回帰、Dantzig選択子)のチューニングに10分割交差検証を用いる。
  • 繰り返し訓練・テスト分割(25回)を実施したシミュレーションおよび実データ実験(ボディファットおよびオゾンデータセット)を実施する。
  • 予測平均二乗誤差(MSE)、変数選択頻度、モデルの簡潔性を指標として手法を評価する。

実験結果

リサーチクエスチョン

  • RQ1n ≈ p であり、事前情報が乏しい状況において、ベイズ的および頻度的正則化手法の予測精度および変数選択の観点での比較は?
  • RQ2g のチューニングを必要としないキャリブレーションフリーな階層的g-事前分布(NIMSおよびHG-2)は、従来のg-事前分布に代わる頑健で客観的な代替手段となり得るか?
  • RQ3ベイズ的手法は、予測誤差を低く保ちながら、関連する変数をどれほど効果的に選択できるか?
  • RQ4提案された客観的事前分布(NIMSおよびHG-2)は、既存のベイズ的および頻度的アプローチと比較して、実世界のデータセットでどの程度の性能を示すか?
  • RQ5低情報的状況におけるベイズ正則化手法の予測性能に、モデル平均化が及ぼす影響は?

主な発見

  • ベイズ正則化手法は、両方のシミュレーションおよび実データセットにおいて、頻度的手法に比べて一貫して低い予測平均二乗誤差(MSE)を達成している。
  • ベイズ的手法はより簡潔である。平均してより少ない変数を選択しており、繰り返し分割における変数選択の一貫性が高くなっている。
  • NIMSおよびHG-2のキャリブレーションフリー事前分布は、競争力があり、チューニングされたg-事前分布の代替として実用的である。
  • ボディファットデータセットでは、ベイズ的手法が平均して3〜4つの変数を選択したが、頻度的手法は5つを選択し、25回の分割でMSEのばらつきはなかった。
  • オゾンデータセットでは、ベイズ手法および情報量基準(AIC/BIC)が約3つの変数を選択したが、正則化手法は5つを選択し、MSEの差は無視できるほど小さかった。
  • ベイズ手法におけるモデル平均化は、予測性能を向上させ、直接的に交差検証誤差を最小化しないにもかかわらず、競争力のある性能を発揮している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。