Skip to main content
QUICK REVIEW

[论文解读] Data analysis recipes: Fitting a model to data

David W. Hogg, Jo Bovy|arXiv (Cornell University)|Aug 27, 2010
Advanced Statistical Methods and Models参考文献 8被引用 193
一句话总结

本文提出了一种统计上严谨的、基于生成模型的方法,用于对具有普遍性、异方差性和协方差不确定性的数据拟合直线,同时处理异常值和内在离散。该方法倡导通过边缘化处理多余参数和未观测到的真实值进行贝叶斯推断,从而证明正交距离回归的合理性,并拒绝在假设不成立时使用诸如普通最小二乘法或主成分分析等非正式方法。

ABSTRACT

We go through the many considerations involved in fitting a model to data, using as an example the fit of a straight line to a set of points in a two-dimensional plane. Standard weighted least-squares fitting is only appropriate when there is a dimension along which the data points have negligible uncertainties, and another along which all the uncertainties can be described by Gaussians of known variance; these conditions are rarely met in practice. We consider cases of general, heterogeneous, and arbitrarily covariant two-dimensional uncertainties, and situations in which there are bad data (large outliers), unknown uncertainties, and unknown but expected intrinsic scatter in the linear relationship being fit. Above all we emphasize the importance of having a "generative model" for the data, even an approximate one. Once there is a generative model, the subsequent fitting is non-arbitrary because the model permits direct computation of the likelihood of the parameters or the posterior probability distribution. Construction of a posterior probability distribution is indispensible if there are "nuisance parameters" to marginalize away.

研究动机与目标

  • 为解决科学数据分析中标准最小二乘拟合的普遍误用问题,特别是当诸如 x 方向不确定度可忽略或 y 方向噪声为高斯分布等假设被违反时。
  • 通过构建数据生成过程的生成模型,建立一种原则性、非任意的线性拟合框架。
  • 通过贝叶斯后验计算,实现在异方差不确定性、异常值和内在离散存在情况下的稳健推断。
  • 通过用统计上合理且可辩护的程序替代启发式方法,促进模型拟合中的共识并减少任意性。
  • 证明拟合直线在许多情况下可能是不必要或不合理的,但当确实需要时,应通过明确定义的概率模型完成。

提出的方法

  • 构建一个生成模型,假设每个观测数据点 $(x_i, y_i)$ 是从以位于直线 $y = m x + b$ 上的真实点 $(x_i^*, y_i^*)$ 为中心的二元正态分布中抽取的。
  • 对每个点使用完整的协方差矩阵 $\boldsymbol{S}_i$ 建模 x 和 y 方向的不确定性,以允许异方差性和相关性。
  • 引入一个内在离散参数 $V_y$,以解释在测量误差之外 y 方向未解释的方差,该参数与观测不确定性以平方和方式相加。
  • 通过在未观测到的真实位置 $x_i^*$ 上积分,计算参数 $(m, b, V_y)$ 的似然函数,从而实现对多余参数的边缘化。
  • 使用马尔可夫链蒙特卡洛(MCMC)或类似方法从后验分布中抽样,实现完整的不确定性量化和模型比较。
  • 证明当内在离散为各向同性且真实位置在直线上按适当不确定性加权投影时,正交距离回归是该方法的一个特例。

实验结果

研究问题

  • RQ1当 x 和 y 均具有不可忽略、异方差且相关的不确定性时,拟合直线的正确统计方法是什么?
  • RQ2如何可靠地估计并纳入模型中的潜在线性关系中的内在离散?
  • RQ3为何标准最小二乘法和主成分分析方法在现实世界的数据拟合场景中常常无效或具有误导性?
  • RQ4如何在一个一致的概率框架内处理异常值和未知不确定性?
  • RQ5生成模型在将任意拟合过程转化为原则性、非任意的推断过程方面起什么作用?

主要发现

  • 标准加权最小二乘拟合仅在 x 不确定度可忽略且 y 不确定度已知且为高斯分布时有效——这些条件在实践中很少满足。
  • 使用生成模型拟合直线可直接计算参数的后验概率分布,从而实现对多余参数(如真实 $x_i^*$ 和 $V_y$)的边缘化。
  • 当内在离散为各向同性且按投影不确定性正确加权时,该方法可证明正交距离回归是有效方法。
  • 通过将 $V_y$ 与观测不确定性以平方和方式相加,可估计内在离散 $V_y$,从而避免减去方差(可能导致负估计值)的陷阱。
  • 主成分分析不适用于具有测量不确定性的数据拟合直线,因为它拟合的是观测数据,而非潜在的真实关系。
  • 对未观测到的真实位置进行边缘化,可实现缺失数据的重建,并为任何单个数据点的真实值提供原则性估计方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。