[论文解读] Flexible modeling of nonnegative continuous data: Box-Cox symmetric regression and its zero-adjusted extension
本论文将 Box-Cox 对称回归形式化,并为含零值的正数据引入零调整扩展(ZABCS),发展最大似然估计与诊断方法,并提供一个 R 包及教育支出数据的应用。
The Box-Cox symmetric distributions constitute a broad class of probability models for positive continuous data, offering flexibility in modeling skewness and tail behavior. Their parameterization allows a straightforward quantile-based interpretation, which is particularly useful in regression modeling. Despite their potential, only a few specific distributions within this class have been explored in regression contexts, and zero-adjusted extensions have not yet been formally addressed in the literature. This paper formalizes the class of Box-Cox symmetric regression models and introduces a new zero-adjusted extension suitable for modeling data with a non-negligible proportion of observations equal to zero. We discuss maximum likelihood estimation, assess finite-sample performance through simulations, and develop diagnostic tools including residual analysis, local influence measures, and goodness-of-fit statistics. An empirical application on basic education expenditure illustrates the models' ability to capture complex patterns in zero-inflated and highly skewed nonnegative data. To support practical use, we developed the new BCSreg R package, which implements all proposed methods.
研究动机与目标
- 将正数据的 Box-Cox 对称回归模型类别形式化。
- 引入零调整 Box-Cox 对称分布及相关回归模型。
- 开发诊断方法,包括残差与影响度量,用于模型评估。
- 提供实现所提方法的 R 包(BCSreg),并结合数据进行说明。
- 在一个零膨胀的支出数据集上展示该方法,以捕捉偏态和零值特征。
提出的方法
- 定义 Box-Cox 对称(BCS)分布,其密度生成函数为 r,Z 为在截断区间上标准正态的变换变量。
- 通过在零处混合一点质量实现零调整的 BCS(ZABCS),与 BCS 连续部分相结合。
- 将 BCS 回归形式化为两个可链接分量的模型:μ 为位置参数,σ 为离散度,通过 d1 与 d2 链接;包含 λ 作为偏斜参数。
- 将零调整的 BCS 回归形式化为通过 GLM 风格参数 α 的离散零分量与 Y>0 的连续 BCS 分量的模型。
- 推导最大似然估计,给出离散(零)和连续部分的可分离两阶段估计过程。
- 提出通过 AIC 进行模型选择,以及用于选择密度生成参数 ζ 的辅助度量 Υζ,并给出基于残差的诊断(分位数残差、Pearson 残差、随机分位数残差)。

实验结果
研究问题
- RQ1如何将基于 Box-Cox 对称分布的回归模型正式化为一个广泛的类别?
- RQ2如何将 BCS 模型扩展以容纳非零概率较高的情况(ZABCS)?
- RQ3如何估计参数并评估 BCS 与 ZABCS 回归模型的拟合?
- RQ4哪些诊断和残差分析对评估 BCS 与 ZABCS 模型有效?
- RQ5这些模型在有限样本和实际数据应用中表现如何?
主要发现
- ZABCS 框架通过将 GLM 风格的零分量与 BCS 连续部分相结合来容纳零值,从而实现离散和连续部件的可分离似然。
- 在满足正则性条件下,最大似然估计量具有一致性与渐近正态性,且采用两阶段估计策略。
- 有限样本模拟显示偏差和 RMSE 随样本量降低,且覆盖率改善,特别是在零概率较小的情况下。
- 对基础教育支出的实证应用显示,该模型能够捕捉高度偏斜、厚尾且存在大量零值的正数据特征(样本 4,232 户中约 93% 为零)。
- 一个实现所提方法以拟合 BCS 与 ZABCS 回归模型的 R 包(BCSreg)。
- 该框架包含现有模型,如 BCNO、BCT、BCPE 及对数对称回归,在相应选择 λ 与 r 时可作为特例。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。