Skip to main content
QUICK REVIEW

[论文解读] Flexible modeling of nonnegative continuous data: Box-Cox symmetric regression and its zero-adjusted extension

Rodrigo M. R. de Medeiros, Francisco F. Queiroz|arXiv (Cornell University)|Jan 13, 2026
Statistical Methods and Bayesian Inference被引用 0
一句话总结

本论文将 Box-Cox 对称回归形式化,并为含零值的正数据引入零调整扩展(ZABCS),发展最大似然估计与诊断方法,并提供一个 R 包及教育支出数据的应用。

ABSTRACT

The Box-Cox symmetric distributions constitute a broad class of probability models for positive continuous data, offering flexibility in modeling skewness and tail behavior. Their parameterization allows a straightforward quantile-based interpretation, which is particularly useful in regression modeling. Despite their potential, only a few specific distributions within this class have been explored in regression contexts, and zero-adjusted extensions have not yet been formally addressed in the literature. This paper formalizes the class of Box-Cox symmetric regression models and introduces a new zero-adjusted extension suitable for modeling data with a non-negligible proportion of observations equal to zero. We discuss maximum likelihood estimation, assess finite-sample performance through simulations, and develop diagnostic tools including residual analysis, local influence measures, and goodness-of-fit statistics. An empirical application on basic education expenditure illustrates the models' ability to capture complex patterns in zero-inflated and highly skewed nonnegative data. To support practical use, we developed the new BCSreg R package, which implements all proposed methods.

研究动机与目标

  • 将正数据的 Box-Cox 对称回归模型类别形式化。
  • 引入零调整 Box-Cox 对称分布及相关回归模型。
  • 开发诊断方法,包括残差与影响度量,用于模型评估。
  • 提供实现所提方法的 R 包(BCSreg),并结合数据进行说明。
  • 在一个零膨胀的支出数据集上展示该方法,以捕捉偏态和零值特征。

提出的方法

  • 定义 Box-Cox 对称(BCS)分布,其密度生成函数为 r,Z 为在截断区间上标准正态的变换变量。
  • 通过在零处混合一点质量实现零调整的 BCS(ZABCS),与 BCS 连续部分相结合。
  • 将 BCS 回归形式化为两个可链接分量的模型:μ 为位置参数,σ 为离散度,通过 d1 与 d2 链接;包含 λ 作为偏斜参数。
  • 将零调整的 BCS 回归形式化为通过 GLM 风格参数 α 的离散零分量与 Y>0 的连续 BCS 分量的模型。
  • 推导最大似然估计,给出离散(零)和连续部分的可分离两阶段估计过程。
  • 提出通过 AIC 进行模型选择,以及用于选择密度生成参数 ζ 的辅助度量 Υζ,并给出基于残差的诊断(分位数残差、Pearson 残差、随机分位数残差)。
Figure 1: Distribution of positive education expenditures. The main panel shows the density histogram for individuals with positive expenditures only, while the inset bar chart reports the proportion of individuals with zero and positive education expenditure.
Figure 1: Distribution of positive education expenditures. The main panel shows the density histogram for individuals with positive expenditures only, while the inset bar chart reports the proportion of individuals with zero and positive education expenditure.

实验结果

研究问题

  • RQ1如何将基于 Box-Cox 对称分布的回归模型正式化为一个广泛的类别?
  • RQ2如何将 BCS 模型扩展以容纳非零概率较高的情况(ZABCS)?
  • RQ3如何估计参数并评估 BCS 与 ZABCS 回归模型的拟合?
  • RQ4哪些诊断和残差分析对评估 BCS 与 ZABCS 模型有效?
  • RQ5这些模型在有限样本和实际数据应用中表现如何?

主要发现

  • ZABCS 框架通过将 GLM 风格的零分量与 BCS 连续部分相结合来容纳零值,从而实现离散和连续部件的可分离似然。
  • 在满足正则性条件下,最大似然估计量具有一致性与渐近正态性,且采用两阶段估计策略。
  • 有限样本模拟显示偏差和 RMSE 随样本量降低,且覆盖率改善,特别是在零概率较小的情况下。
  • 对基础教育支出的实证应用显示,该模型能够捕捉高度偏斜、厚尾且存在大量零值的正数据特征(样本 4,232 户中约 93% 为零)。
  • 一个实现所提方法以拟合 BCS 与 ZABCS 回归模型的 R 包(BCSreg)。
  • 该框架包含现有模型,如 BCNO、BCT、BCPE 及对数对称回归,在相应选择 λ 与 r 时可作为特例。
Flexible modeling of nonnegative continuous data: Box-Cox symmetric regression and its zero-adjusted extension

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。