[論文レビュー] How many needles in the haystack? Adaptive inference and uncertainty quantification for the horseshoe
この論文は、スパースな高次元正規平均モデルにおける馬蹄(horseshoe)事前分布の下で、信頼集合と周辺区間の性質を検討し、既知のスパarsityを仮定せずに階層ベイズと経験ベイズのアプローチを比較している。スパarsityが正しく指定されている場合には、これらの手法が最適なサイズと良好な頻度的被覆性を達成することを示しているが、全パラメータ空間全体においては過剰に縮小(over-shrinkage)が生じるため、誠実な推論(honesty)に失敗しており、不確実性の定量化が有効であるパラメータの部分集合を同定している。
We investigate the credible sets and marginal credible intervals resulting from the horseshoe prior in the sparse multivariate normal means model. We do so in an adaptive setting without assuming knowledge of the sparsity level (number of signals). We consider both the hierarchical Bayes method of putting a prior on the unknown sparsity level and the empirical Bayes method with the sparsity level estimated by maximum marginal likelihood. We show that credible balls and marginal credible intervals have good frequentist coverage and optimal size if the sparsity level of the prior is set correctly. By general theory honest confidence sets cannot adapt in size to an unknown sparsity level. Accordingly the hierarchical and empirical Bayes credible sets based on the horseshoe prior are not honest over the full parameter space. We show that this is due to over-shrinkage for certain parameters and characterise the set of parameters for which credible balls and marginal credible intervals do give correct uncertainty quantification. In particular we show that the fraction of false discoveries by the marginal Bayesian procedure is controlled by a correct choice of cut-off.
研究の動機と目的
- スパースな多変量正規平均モデルにおける馬蹄事前分布から導かれる信頼集合および周辺区間の頻度的被覆性とサイズ特性を評価すること。
- 真のスパarsityレベルが未知である状況において、馬蹄事前分布を用いた階層ベイズおよび経験ベイズ手法が、適応的に誠実な不確実性の定量化を提供できるかを調査すること。
- 全パラメータ空間全体において誠実さに欠けるにもかかわらず、信頼区間が正しい被覆性を保つパラメータの集合を同定すること。
- 周辺ベイズ的手法におけるカットオフの選択が、誤発見率(false discovery rate)にどのように影響するかを特定すること。
提案手法
- スパースな多変量正規平均モデルを採用し、既知のスパarsityを仮定せずに、馬蹄事前分布の下での信頼集合および周辺区間の適応的設定を分析する。
- 階層ベイズアプローチを用いて、未知のスパarsityレベルに事前分布を置くことで、完全なベイズ推論を可能にする。
- 経験ベイズ法を用いて、最大周辺尤度推定によりスパarsityレベルを推定し、適応的推論を達成する。
- 両手法における信頼球および周辺区間の頻度的被覆性とサイズを評価する理論的分析を実施する。
- 馬蹄事前分布下で過剰に縮小(over-shrinkage)が生じるパラメータの集合を同定する。
- 周辺事後確率におけるカットオフ閾値を導入し、誤発見の割合を制御することで、不確実性の定量化と関連付ける。
実験結果
リサーチクエスチョン
- RQ1スパarsityレベルが正しく指定された場合、馬蹄事前分布に基づく信頼集合および周辺区間は最適なサイズと良好な頻度的被覆性を達成するか?
- RQ2スパarsityが未知である状況において、馬蹄事前分布を用いた階層ベイズおよび経験ベイズ手法は、全パラメータ空間全体で適応的に誠実な不確実性の定量化を提供できるか?
- RQ3スパarsityが未知である状況において、馬蹄事前分布が誠実な被覆性に失敗する原因は何か?また、どのパラメータが過剰に縮小(over-shrinkage)の影響を最も強く受けるか?
- RQ4周辺ベイズ的手法におけるカットオフの選択が、誤発見率および不確実性の定量化の正確性にどのように影響するか?
- RQ5馬蹄事前分布からの信頼区間が有効であり、適切にキャリブレーションされたまま保たれるパラメータの集合は何か?
主な発見
- スパarsityレベルが事前分布と一致する場合、馬蹄事前分布に基づく信頼球および周辺信頼区間は最適なサイズと良好な頻度的被覆性を達成する。
- 正しいスパarsity下では最適なサイズと被覆性を達成するが、階層ベイズおよび経験ベイズの信頼集合は、特定のパラメータにおいて過剰に縮小(over-shrinkage)が生じるため、全パラメータ空間全体で誠実さに欠ける。
- 信号でないがノイズレベルに近いパラメータでは過剰に縮小が生じ、結果として被覆性が不足し、不確実性の定量化が無効になる。
- 周辺ベイズ的手法における誤発見の割合は、適切なカットオフの選択により制御可能であり、これにより一部のパラメータに対して有効な不確実性の定量化が保証される。
- 信頼区間が有効であるパラメータの集合が同定され、馬蹄事前分布下では誠実な推論が可能なのはパラメータ空間の適切な部分集合に限られることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。