[论文解读] Bayesian model choice and information criteria in sparse generalized linear models
本文在高维稀疏广义线性模型中建立了贝叶斯模型选择与扩展贝叶斯信息准则(EBIC)的渐近等价性,其中协变量数量 $ p $ 随样本量 $ n $ 增长。在特定先验下,证明了两种方法均以趋于1的概率一致选择最小的真实模型,为EBIC提供了频率学派的合理性,并在稀疏高维设定下给出了拉普拉斯近似的一致误差界。
We consider Bayesian model selection in generalized linear models that are high-dimensional, with the number of covariates p being large relative to the sample size n, but sparse in that the number of active covariates is small compared to p. Treating the covariates as random and adopting an asymptotic scenario in which p increases with n, we show that Bayesian model selection using certain priors on the set of models is asymptotically equivalent to selecting a model using an extended Bayesian information criterion. Moreover, we prove that the smallest true model is selected by either of these methods with probability tending to one. Having addressed random covariates, we are also able to give a consistency result for pseudo-likelihood approaches to high-dimensional sparse graphical modeling. Experiments on real data demonstrate good performance of the extended Bayesian information criterion for regression and for graphical models.
研究动机与目标
- 在 $ p \gg n $ 但仅有少数协变量真正活跃的高维稀疏广义线性模型中,建立贝叶斯模型选择的一致性。
- 证明在特定先验下,扩展贝叶斯信息准则(EBIC)与贝叶斯模型选择渐近等价。
- 为高维稀疏模型中边际似然的拉普拉斯近似建立一致误差界。
- 将一致性结果扩展至高维稀疏图模型中的伪似然方法,包括伊辛模型。
- 展示EBIC在真实数据中对回归和图模型的实证性能。
提出的方法
- 采用 $ p \to \infty $ 随 $ n \to \infty $ 的渐近框架,且活跃协变量数量保持稀疏。
- 对边际似然积分应用拉普拉斯近似,围绕最大似然估计(MLE)进行二阶展开。
- 推导拉普拉斯近似中余项的一致界,该界对所有考虑的模型均成立。
- 证明在指定先验下,真实模型的后验概率收敛于1。
- 利用集中不等式和矩阵集中不等式,控制对数似然的海塞矩阵在观测块中的表现。
- 应用切尔诺夫不等式,证明足够多的块满足模型一致性的矩条件与有界性条件。
实验结果
研究问题
- RQ1在高维稀疏GLM中,贝叶斯模型选择是否随着 $ n \to \infty $ 一致识别出最小的真实模型?
- RQ2在特定先验下,扩展贝叶斯信息准则(EBIC)是否与贝叶斯模型选择渐近等价?
- RQ3能否为高维稀疏模型中边际似然的拉普拉斯近似建立一致误差界?
- RQ4该一致性结果是否可扩展至高维稀疏图模型中的伪似然方法?
- RQ5EBIC在真实数据中对回归和图模型的实证表现如何?
主要发现
- 在指定先验下,贝叶斯模型选择以趋于1的概率一致选择最小的真实模型,当 $ n \to \infty $ 时。
- 在高维稀疏设定下,扩展贝叶斯信息准则(EBIC)与贝叶斯模型选择渐近等价。
- 为高维稀疏模型中边际似然的拉普拉斯近似建立了统一误差界,余项在概率上有界。
- 在贝叶斯与EBIC程序下,最小真实模型被选择的概率趋于1。
- 真实数据上的实证实验表明,EBIC在回归和图模型设定中表现优异。
- 一致性结果可扩展至高维稀疏伊辛模型中的伪似然方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。