QUICK REVIEW

[论文解读] A Bayesian Multiple Testing Paradigm for Model Selection in Inverse Regression Problems

Debashis Chatterjee, Sourabh Bhattacharya|arXiv (Cornell University)|Jan 1, 2020

Statistical Methods in Clinical Trials参考文献 24被引用 1

一句话总结

本文提出了一种新颖的贝叶斯多重检验框架，用于逆回归问题中的模型与变量选择，通过在混合模型中嵌入逆参考分布，渐近地选择使Kullback-Leibler散度最小化的模型。该方法确保了虚假发现率与虚假非发现率以概率1收敛至零，在参数与非参数设置下，针对依赖与模型误设的数据，模拟研究结果优于伪贝叶斯因子。

ABSTRACT

In this article, we propose a novel Bayesian multiple testing formulation for model and variable selection in inverse setups, judiciously embedding the idea of inverse reference distributions proposed by Bhattacharya (2013) in a mixture framework consisting of the competing models. We develop the theory and methods in the general context encompassing parametric and nonparametric competing models, dependent data, as well as misspecifications. Our investigation shows that asymptotically the multiple testing procedure almost surely selects the best possible inverse model that minimizes the minimum Kullback-Leibler divergence from the true model. We also show that the error rates, namely, versions of the false discovery rate and the false non-discovery rate converge to zero almost surely as the sample size goes to infinity. Asymptotic α-control of versions of the false discovery rate and its impact on the convergence of false non-discovery rate versions, are also investigated. Our simulation experiments involve small sample based selection among inverse Poisson log regression and inverse geometric logit and probit regression, where the regressions are either linear or based on Gaussian processes. Additionally, variable selection is also considered. Our multiple testing results turn out to be very encouraging in the sense of selecting the best models in all the non-misspecified and misspecified cases.

研究动机与目标

为解决逆回归问题中缺乏模型选择统计方法的问题，其中未观测到的协变量需从观测到的响应变量与协变量中推断。
开发一种理论基础扎实、计算上可行的贝叶斯多重检验框架，将逆参考分布整合进竞争模型的混合模型中。
建立该方法的渐近一致性，证明其以概率1选择使Kullback-Leibler散度最小化的最优模型。
通过小样本逆泊松对数回归、逆几何对数几率/对数正态回归及变量选择的模拟实验，证明该方法在模型与变量选择中的准确性优于现有伪贝叶斯因子方法。
研究在逆回归设置下，虚假发现率（FDR）的渐近控制及其对虚假非发现率（FNR）收敛性的影响。

提出的方法

通过将Bhattacharya（2013）先前提出的逆参考分布嵌入涵盖竞争参数与非参数模型的混合模型框架中，构建贝叶斯多重检验范式。
使用重要性重抽样MCMC近似后验分布并计算模型比较的差异度量（如T1、T2）。
基于差异度量的后验概率定义多重检验规则，其中对观测差异度量具有高后验概率的模型被选中。
应用留一法交叉验证，构建稳定且计算高效的后验估计，用于模型比较与选择。
采用Shalizi（2009）的理论工具，确保在一般条件下（包括依赖数据与模型误设）的后验一致性。
建立虚假发现率（FDR）的渐近控制，并证明随着样本量增加，FDR与虚假非发现率（FNR）均以概率1收敛至零。

实验结果

研究问题

RQ1能否开发一种贝叶斯多重检验框架，确保在逆回归问题中实现渐近一致的模型选择？
RQ2在小样本逆回归设置下，所提出方法在模型与变量选择准确性方面与伪贝叶斯因子相比如何？
RQ3在所提出的多重检验程序下，虚假发现率（FDR）与虚假非发现率（FNR）的渐近行为如何？
RQ4该方法在模型误设与依赖数据结构下是否仍保持强理论保证？
RQ5该方法能否在统一框架下有效处理参数与非参数模型用于逆回归？

主要发现

所提出的多重检验程序以概率1渐近选择使Kullback-Leibler散度最小化的模型。
随着样本量增加，虚假发现率（FDR）与虚假非发现率（FNR）均以概率1收敛至零，确保了大样本中的高选择准确性。
在涉及逆泊松对数回归与逆几何对数几率/对数正态回归的模拟实验中，该方法在所有情况下均一致选中最佳模型，优于伪贝叶斯因子。
对于水蚤与花粉古气候数据集，该方法正确识别出零膨胀的多项式-狄利克雷模型（响应函数为狄利克雷过程）为最佳模型，与已知数据特征一致。
所有情况下，差异度量（T1、T2）的逆参考分布均在其95%后验密度可信区间内包含观测值，且后验概率显著高于0.95。
该方法对模型误设与依赖结构具有鲁棒性，在竞争模型复杂或过度参数化时仍保持优异性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。