QUICK REVIEW

[論文レビュー] A Bayesian Multiple Testing Paradigm for Model Selection in Inverse Regression Problems

Debashis Chatterjee, Sourabh Bhattacharya|arXiv (Cornell University)|Jan 1, 2020

Statistical Methods in Clinical Trials参考文献 24被引用数 1

ひとこと要約

本稿は、逆回帰問題におけるモデルおよび変数選択のための新しいベイズ多重仮説検定フレームワークを導入し、混合モデル内に逆参照分布を埋め込むことで、真のモデルからのKullback-Leibler発散を最小化するモデルを漸近的に選択する。この手法は、誤り発見率および誤り非発見率がほとんど確実に0に収束することを保証し、従来の擬似ベイズ因子と比較して、従属および誤指定されたデータを含むパラメトリックおよびノンパラメトリックな設定において、シミュレーションスタディで優れた性能を示す。

ABSTRACT

In this article, we propose a novel Bayesian multiple testing formulation for model and variable selection in inverse setups, judiciously embedding the idea of inverse reference distributions proposed by Bhattacharya (2013) in a mixture framework consisting of the competing models. We develop the theory and methods in the general context encompassing parametric and nonparametric competing models, dependent data, as well as misspecifications. Our investigation shows that asymptotically the multiple testing procedure almost surely selects the best possible inverse model that minimizes the minimum Kullback-Leibler divergence from the true model. We also show that the error rates, namely, versions of the false discovery rate and the false non-discovery rate converge to zero almost surely as the sample size goes to infinity. Asymptotic α-control of versions of the false discovery rate and its impact on the convergence of false non-discovery rate versions, are also investigated. Our simulation experiments involve small sample based selection among inverse Poisson log regression and inverse geometric logit and probit regression, where the regressions are either linear or based on Gaussian processes. Additionally, variable selection is also considered. Our multiple testing results turn out to be very encouraging in the sense of selecting the best models in all the non-misspecified and misspecified cases.

研究の動機と目的

観測された応答変数と共変量から、観測されない共変量を推定する逆回帰問題において、モデル選択のための統計的手法が不足しているという問題に対処すること。
理論的根拠が明確で、計算的に実行可能なベイズ多重仮説検定フレームワークを構築し、競合するモデルの混合モデルに逆参照分布を統合すること。
本手法の漸近的整合性を確立し、真のモデルからのKullback-Leibler発散を最小化する最良のモデルがほとんど確実に選択されることを示すこと。
小標本における逆ポisson対数線形回帰、逆幾何的ロジット／プロビット回帰、および変数選択に関するシミュレーション実験を通じて、既存の擬似ベイズ因子手法と比較して本手法の優位性を示すこと。
逆回帰設定における誤り発見率（FDR）の漸近的制御と、それによる誤り非発見率（FNR）収束への影響を調査すること。

提案手法

Bhattacharya（2013）が以前に提案した逆参照分布を、競合するパラメトリックおよびノンパラメトリックモデルを含む混合モデルフレームワークに埋め込むことで、ベイズ多重仮説検定の枠組みを構築する。
重要度再サンプリングMCMCを用いて、事後分布を近似し、モデル比較のための乖離尺度（例：T1, T2）を計算する。
乖離尺度の事後確率に基づく多重仮説検定ルールを定義し、観測された乖離に対して高い事後確率を持つモデルを採択する。
妥当性の高い、計算的に効率的な事後推定をモデル比較および選択に用いるために、1つずつ除外する交差検証（leave-one-out cross-validation）を適用する。
Shalizi（2009）の理論的道具を用いて、従属データおよびモデル誤指定の下でも、事後分布の一貫性を保証する。
誤り発見率（FDR）の漸近的制御を確立し、標本サイズが増加するにつれて、FDRおよび誤り非発見率（FNR）がほとんど確実に0に収束することを示す。

実験結果

リサーチクエスチョン

RQ1逆回帰問題において、漸近的に一貫したモデル選択を保証するベイズ多重仮説検定フレームワークを開発することは可能か？
RQ2本手法は、小標本における逆回帰設定におけるモデルおよび変数選択の正確性において、擬似ベイズ因子と比較してどのように異なるか？
RQ3提案された多重仮説検定手順下での誤り発見率（FDR）および誤り非発見率（FNR）の漸近的挙動はいかなるものか？
RQ4モデル誤指定および従属構造を持つデータに対して、本手法は強い理論的保証を維持するのか？
RQ5本手法は、逆回帰問題において、パラメトリックおよびノンパラメトリックモデルを統合的に扱えるか？

主な発見

提案された多重仮説検定手順は、真のモデルからのKullback-Leibler発散を最小化するモデルを、確率1で漸近的に選択する。
標本サイズが増加するにつれて、誤り発見率（FDR）および誤り非発見率（FNR）の両方がほとんど確実に0に収束し、大標本における高い選択正確性を保証する。
逆ポアソン対数線形回帰および逆幾何的ロジット／プロビット回帰を含むシミュレーション実験において、本手法はすべてのケースで最良のモデルを一貫して選択し、擬似ベイズ因子を上回った。
キリノミドおよび花粉古気候データセットにおいて、本手法はゼロインflated Multinomial-Dirichletモデルにディリクレ過程応答関数を組み合わせたモデルを最良のモデルとして正しく同定した。これは、既知のデータ特性と整合的であった。
乖離尺度（T1, T2）のための逆参照分布において、観測値がすべてのケースで95%最高事後密度信用区間内に含まれており、事後確率は0.95を著しく上回っていた。
本手法はモデル誤指定および依存構造に対して頑健であり、競合モデルが複雑または過パrameterizedであっても、強力な性能を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。