Skip to main content
QUICK REVIEW

[论文解读] Log-Linear Bayesian Additive Regression Trees for Categorical and Count Responses

Jared S. Murray|arXiv (Cornell University)|Jan 5, 2017
Bayesian Methods and Mixture Models参考文献 23被引用 24
一句话总结

本文将贝叶斯加法回归树(BART)扩展至对分类和计数响应变量的对数线性模型,包括多项式逻辑回归和零膨胀过度分散计数数据。通过开发新颖的数据增广策略和校准的先验分布,作者实现了在非高斯似然下的高效MCMC抽样,展示了在非高斯设定下更高的灵活性和鲁棒性。

ABSTRACT

We introduce Bayesian additive regression trees (BART) for log-linear models including multinomial logistic regression and count regression with zero-inflation and overdispersion. BART has been applied to nonparametric mean regression and binary classification problems in a range of settings. However, existing applications of BART have been limited to models for Gaussian data, either observed or latent. This is primarily because efficient MCMC algorithms are available for Gaussian likelihoods. But while many useful models are naturally cast in terms of latent Gaussian variables, many others are not -- including models considered in this paper. We develop new data augmentation strategies and carefully specified prior distributions for these new models. Like the original BART prior, the new prior distributions are carefully constructed and calibrated to be flexible while guarding against overfitting. Together the new priors and data augmentation schemes allow us to implement an efficient MCMC sampler outside the context of Gaussian models. The utility of these new methods is illustrated with examples and an application to a previously published dataset.

研究动机与目标

  • 将BART从高斯似然扩展至处理分类和计数响应变量。
  • 为非高斯模型开发高效的MCMC抽样策略,这些模型不适用潜变量高斯假设。
  • 构建灵活但受正则化约束的先验分布,以防止对数线性模型中的过拟合。
  • 使BART的非参数回归能力适用于多项式逻辑和零膨胀过度分散计数模型。
  • 通过真实数据应用和与现有方法的比较,展示该方法的实用性。

提出的方法

  • 为对数线性模型(包括多项式和具有零膨胀与过度分散的计数响应)引入新的数据增广方案。
  • 设计用于树结构和节点参数的校准先验分布,以在保持灵活性的同时防止过拟合。
  • 通过在吉布斯抽样算法中嵌入新先验分布,将BART框架适配至非高斯似然。
  • 利用从增广数据中推导出的条件后验分布,迭代更新树结构和参数。
  • 在树参数上采用分层先验结构,以在高维设定下确保收缩性和稳定性。
  • 实现一种高效的MCMC抽样器,通过新增广和先验方案联合更新树和参数。

实验结果

研究问题

  • RQ1BART能否扩展至多项式逻辑和计数回归等非高斯响应模型?
  • RQ2为实现非高斯BART模型中高效MCMC抽样,需要哪些数据增广和先验设定策略?
  • RQ3新先验如何在保持灵活性的同时防止对数线性模型中的过拟合?
  • RQ4扩展后的BART模型在分类和计数数据上的性能与现有方法相比如何?
  • RQ5该方法能否处理计数响应中的零膨胀和过度分散等复杂数据特征?

主要发现

  • 所提出的方法成功将BART扩展至对数线性模型,实现了对分类和计数结果的非参数建模。
  • 新的数据增广和先验分布使得在传统BART方法不适用的非高斯设定下实现高效MCMC抽样成为可能。
  • 校准后的先验能有效控制过拟合,同时在多种响应类型中保持模型灵活性。
  • 该方法在先前发表的数据集上表现出色,对复杂响应分布的拟合和预测准确性均有提升。
  • 该框架支持对零膨胀和过度分散计数数据的建模,这些在现实应用中十分常见。
  • 尽管似然模型复杂,该方法仍保持计算上的可行性与可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。