Skip to main content
QUICK REVIEW

[論文レビュー] High-Dimensional Bayesian Regularised Regression with the BayesReg Package

Enes Makalic, Daniel F. Schmidt|arXiv (Cornell University)|Nov 21, 2016
Statistical Methods and Inference被引用数 37
ひとこと要約

この論文では、lasso やホースシューベ、ホースシューベ+ などの縮小事前分布を用いた高次元ベイズ正則化回帰を実行する、無料でオープンソースの MATLAB および R ツールボックスである bayesreg を紹介する。この手法は、潜在変数表現を用いた効率的なギブスサンプリングを採用しており、rstanarm や monomvn といった既存のツールに比べて、特に $ p \gg n $ の高次元設定において最大 40 倍の高速性能を達成する。線形回帰およびロジスティック回帰に対応し、正規分布または重たい尾を持つ誤差モデルを用いることができる。

ABSTRACT

Bayesian penalized regression techniques, such as the Bayesian lasso and the Bayesian horseshoe estimator, have recently received a significant amount of attention in the statistics literature. However, software implementing state-of-the-art Bayesian penalized regression, outside of general purpose Markov chain Monte Carlo platforms such as STAN, is relatively rare. This paper introduces bayesreg, a new toolbox for fitting Bayesian penalized regression models with continuous shrinkage prior densities. The toolbox features Bayesian linear regression with Gaussian or heavy-tailed error models and Bayesian logistic regression with ridge, lasso, horseshoe and horseshoe$+$ estimators. The toolbox is free, open-source and available for use with the MATLAB and R numerical platforms.

研究の動機と目的

  • スタンのような汎用 MCMC プラットフォームを超えた、効率的で専用のソフトウェアの不足に取り組む。
  • 高次元回帰($ p \gg n $)における最新の縮小事前分布(例:ホースシューベ、lasso)の計算的に効率的な実装を提供する。
  • R および MATLAB で、柔軟な誤差モデル(正規分布、重たい尾)と複数の縮小事前分布を用いたベイズ線形回帰およびロジスティック回帰を可能にする。
  • 既存ツールの制限(例:収束が遅い、数値的不安定性、フルランクの設計行列に限定されるなど)を克服する。

提案手法

  • 回帰係数にガウススケール混合事前分布を用いた階層ベイズモデルを採用し、局所的およびグローバルな縮小パラメータによりスパarsityを実現する。
  • ホースシューベおよびその他の縮小事前分布を再パラメータ化するための潜在変数表現を用い、条件付き事後分布の更新により効率的なギブスサンプリングを可能にする。
  • データ拡張を用いたギブスサンプリングにより、回帰係数、分散成分、ハイパーパrameterを同時にサンプリングし、計算の安定性を確保する。
  • 同じ縮小事前分布を用いて、正規誤差またはスルーデント分布誤差を伴う線形回帰と、潜在変数拡張によるロジスティック回帰を両方サポートする。
  • 直接的な行列逆行列計算を回避する効率的なサンプリングアルゴリズムを実装し、$ p \gg n $ の設定へのスケーラビリティを実現する。
  • R および MATLAB 向けにモジュール化され、プラットフォームに依存しないコードを提供し、高次元推論に最適化された数値ルーチンを備える。

実験結果

リサーチクエスチョン

  • RQ1高次元設定において、汎用 MCMC プラットフォーム(例:Stan)を上回る性能を発揮する、専用で効率的なソフトウェアツールボックスを設計できるか?
  • RQ2bayesreg の実装は、rstanarm や monomvn といった既存ツールと比較して、計算性能および収束速度においてどのように異なるか?
  • RQ3縮小事前分布の潜在変数表現は、高次元回帰におけるサンプリング効率および数値的安定性をどの程度向上できるか?
  • RQ4このツールボックスは、ホースシューベ、lasso、ホースシューベ+ などの複数の縮小事前分布と、正規分布や重たい尾の誤差モデルを、線形回帰およびロジスティック回帰の両方でサポートできるか?
  • RQ5高次元ベイズ縮小回帰における、従来のサンプリング手法(例:スライスサンプリング、NUTS)の実用的限界は何か? それらはどのように克服できるか?

主な発見

  • bayesreg は、$ n = 1,000, p = 1,000 $ の条件下でホースシューベ事後分布からのサンプリングにおいて、monomvn パッケージに比べ最大 40 倍の高速性能を達成した。
  • bayesreg の MATLAB 版は、ベイズホースシューベ回帰の 2,000 個の事後サンプルを約 0.15 秒で計算できるのに対し、rstanarm では約 40 秒を要した。
  • bayesreg のギブスサンプリングアプローチは、直接的な行列逆行列計算を回避するため、$ p \gg n $ の状況でも数値的不安定性を避けることができる。
  • 既存ツールに比べ、より広範なモデルをサポートする。具体的には、ベイズロジスティック回帰や重たい尾の誤差モデルを含み、多くの既存実装には存在しない。
  • 潜在変数再パラメータ化により、グループ化変数モデル(例:遺伝子経路)への容易な拡張が可能である。これに対して、楕円スライスサンプリングはフルランクの設計行列を必要とする。
  • 実装は、ホースシューベおよびホースシューベ+ 事前分布を用いた Stan の NUTS でよく見られる発散遷移を回避する、強固な事後分布収束を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。