QUICK REVIEW

[論文レビュー] A Hierarchical Bayesian Framework for Constructing Sparsity-inducing Priors

Anthony Lee, François Caron|arXiv (Cornell University)|Sep 9, 2010

Statistical Methods and Inference参考文献 21被引用数 37

ひとこと要約

本稿では、高次元回帰における変数選択のためのスパarsity誘導型事前分布を構築する階層ベイズ枠組みを提案する。この枠組みにより、一般化され、かつ適応的・反復的重み付け$β$-ノルム正則化法にベイズ的解釈を与えるEMアルゴリズムによるMAP推定が可能となる。主な貢献は、標準Lassoと比較して推定精度を向上させ、バイアスを低減する柔軟で事前分布に基づくアプローチである。

ABSTRACT

Variable selection techniques have become increasingly popular amongst statisticians due to an increased number of regression and classification applications involving high-dimensional data where we expect some predictors to be unimportant. In this context, Bayesian variable selection techniques involving Markov chain Monte Carlo exploration of the posterior distribution over models can be prohibitively computationally expensive and so there has been attention paid to quasi-Bayesian approaches such as maximum a posteriori (MAP) estimation using priors that induce sparsity in such estimates. We focus on this latter approach, expanding on the hierarchies proposed to date to provide a Bayesian interpretation and generalization of state-of-the-art penalized optimization approaches and providing simultaneously a natural way to include prior information about parameters within this framework. We give examples of how to use this hierarchy to compute MAP estimates for linear and logistic regression as well as sparse precision-matrix estimates in Gaussian graphical models. In addition, an adaptive group lasso method is derived using the framework.

研究の動機と目的

高次元変数選択に用いられる最先端の正則化最適化手法の原理的解釈を提供する統一的ベイズ枠組みの構築。
階層的事前分布を用いて非凸正則化を導入することで、標準Lassoと比較して推定バイアスを低減すること。
係数に関する事前知識や変数のグループ化を、整合的な確率的構造に自然に組み込むこと。
単一の階層的事前分布枠組み内でグループlassoと適応的lassoの両方を一般化すること。
反復的重み付け$β$-ノルム最小化に対応する、計算的に扱いやすいMAP推定手順をEMアルゴリズムで提供すること。

提案手法

各係数$\beta_j$が局所的分散$\sigma_j^2$を伴うスケール混合正規分布として周辺分布を持つ階層的事前分布を用いる。$\sigma_j^2$は一般化逆ガウス(GIG)分布に従う。
$\bm{\beta}$の同時事前分布は、階層構造により構築される：$\beta_j | \sigma_j^2 \sim N(0, \sigma_j^2)$、かつ$\sigma_j^2$はハイパーパrameter $a_j, b_j$ を持つGIG分布に従う。
この階層構造により、MAP推定において非凸かつスパarsityを促進する正則化が誘導され、$q=1$のときには再重み付け$\ell_1$-ノルムまたは適応的lassoに等価となる。
期待値最大化(EM)アルゴリズムが導出され、$\bm{\beta}$と重み$w_j^{(t)} = (a_j + 1)/(b_j + |\beta_j^{(t)}|)$を反復的に更新することで、反復的重み付け$\ell_1$-最小化に帰着する。
グループスパarsityへの自然な拡張は、係数のグループに共通のハイパーパrameterを割り当てることにより実現され、適応的グループlassoが可能となる。
ガウスグラフィカルモデルでは、同じ階層構造を精度行列の要素に適用し、$\Omega_{ij}$に適応的$\ell_1$-正則化を施したMAP推定器が得られる。

実験結果

リサーチクエスチョン

RQ1階層ベイズ枠組みは、適応的lassoや反復的重み付け$\ell_1$-最小化といった人気のある正則化最適化手法を統一的にベイズ的解釈可能にするか？
RQ2係数に関する事前知識や変数のグループ化を、スパarsity誘導型事前分布に自然に組み込む方法は何か？
RQ3提案された階層的事前分布は、標準Lassoと比較して、誤検出率および見逃し率の観点から、より優れた変数選択性能を示すか？
RQ4この枠組みは、適応的正則化を施したガウスグラフィカルモデルにおけるスパース精度行列推定に拡張可能か？
RQ5ハイパーパrameter選択（例：$a_j, b_j$）は、推定精度およびモデル選択の一貫性にどのような影響を及えるか？

主な発見

サンプルサイズ$n=80$のロジスティック回帰において、ハイパーパrameterが$(a,b)=(2,0.5)$のHALは99.2%の正しくモデル選択された率を達成したのに対し、標準Lassoでは62.1%にとどまった。
$(a,b)=(2,0.1)$かつ$a_2=b_2=a_5=b_5=2$のHALは、性能が著しく劣り（0%正しく）、ハイパーパrameter選択への感受性が顕著に現れた。
サンプルサイズ$n=40$のガウスグラフィカルモデルにおいて、$(a,b)=(1,0.075)$のHALは平均誤差2.594、エッジ回復率65.4%を達成し、Lassoの平均誤差4.676、回復率23.9%を上回った。
誤検出と見逃しの両方をバランスさせるようにハイパーパrameterを調整したHALは、Lassoと比較して誤差と誤分類率の両方を顕著に低減した。
階層枠組みを用いて適応的グループlassoを成功裏に導出し、グループ単位の縮小を可能にし、モデル選択性能を向上させた。
階層構造から導出されたEMアルゴリズムは、反復的重み付け$\ell_1$-最小化アルゴリズムと完全に一致し、広く用いられるヒューリスティック手法にベイズ的根拠を与えた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。