Skip to main content
QUICK REVIEW

[论文解读] Models as Approximations, Part I: A Conspiracy of Nonlinearity and Random Regressors in Linear Regression

Andreas Buja, Richard A. Berk|arXiv (Cornell University)|Apr 6, 2014
Advanced Statistical Methods and Models参考文献 33被引用 17
一句话总结

本文表明,线性回归模型本质上对非线性和随机回归变量敏感,挑战了回归变量为固定且辅助性变量的假设。它主张标准误必须具备模型稳健性——使用异方差性和非线性一致性估计量(如sandwich估计量或xy自展法)——以确保有效推断,因为在模型设定错误下,传统标准误可能与真实抽样变异性任意偏离。

ABSTRACT

In the early 1980s Halbert White inaugurated a model-robust'' form of statistical inference based on the estimator'' of standard error. This estimator is known to be heteroskedasticity-consistent, but it is less well-known to be nonlinearity-consistent'' as well. Nonlinearity, however, raises fundamental issues because in its presence regressors are not ancillary, hence can't be treated as fixed. The consequences are deep: (1)~population slopes need to be re-interpreted as statistical functionals obtained from OLS fits to largely arbitrary joint $\xy$~distributions; (2)~the meaning of slope parameters needs to be rethought; (3)~the regressor distribution affects the slope parameters; (4)~randomness of the regressors becomes a source of sampling variability in slope estimates; (5)~inference needs to be based on model-robust standard errors, including sandwich estimators or the $\xy$~bootstrap. In theory, model-robust and model-trusting standard errors can deviate by arbitrary magnitudes either way. In practice, significant deviations between them can be detected with a diagnostic test.

研究动机与目标

  • 挑战回归模型中回归变量为固定且辅助性变量的常规假设,尤其是在存在非线性时。
  • 揭示回归变量的随机性与非线性如何从根本上改变OLS中斜率参数的解释。
  • 论证依赖模型的标准误可能产生任意偏差,因此需要采用模型稳健的替代方法。
  • 确立非线性一致性推断在实践中实现有效统计推断的必要性。

提出的方法

  • 通过将回归变量视为随机变量而非固定常数,推导非线性的影响。
  • 将总体斜率重新解释为X与Y联合分布的统计泛函,而非结构参数。
  • 应用sandwich估计量(Huber-White标准误)以处理异方差性和非线性。
  • 使用xy自展法联合重采样X和Y,捕捉由随机回归变量引起的抽样变异性。
  • 证明模型稳健标准误是必要的,因为传统标准误在模型设定错误下可能与真实变异性任意偏离。
  • 提出一种诊断检验,用于检测模型信任型标准误与模型稳健型标准误之间的显著差异。

实验结果

研究问题

  • RQ1当回归变量为随机而非固定时,非线性如何影响OLS斜率参数的解释?
  • RQ2在存在非线性和随机回归变量的情况下,传统标准误在多大程度上具有误导性?
  • RQ3在模型设定错误下,模型稳健标准误(如sandwich估计量)能否一致地估计抽样变异性?
  • RQ4X与Y的联合分布对线性回归中估计斜率参数有何影响?
  • RQ5如何检测模型信任型标准误与模型稳健型替代标准误之间存在显著差异?

主要发现

  • 在线性回归中,总体斜率必须重新解释为X与Y联合分布的统计泛函,而非结构参数。
  • 回归变量的随机性在斜率估计中引入了额外的抽样变异性,而这种变异性未被假设X固定的传统标准误所捕捉。
  • 模型稳健标准误(如sandwich估计量或xy自展法)是必要的,因为在非线性下,传统标准误可能与真实抽样变异性任意偏离。
  • 模型信任型标准误与模型稳健型标准误之间的差异在大小和方向上可能任意大,从而使传统推断失效。
  • 存在一种诊断检验,可用于检测模型信任型标准误与模型稳健型标准误之间的显著差异,使研究者能够评估传统推断的可靠性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。