Skip to main content
QUICK REVIEW

[论文解读] Testing Consistency of Two Histograms

F. C. Porter|ArXiv.org|Apr 2, 2008
Advanced Statistical Methods and Models参考文献 5被引用 30
一句话总结

本文评估了多种统计检验方法,用于判断两个直方图是否来自同一基础分布。通过蒙特卡洛模拟比较卡方检验、似然比检验、柯尔莫哥洛夫-斯米尔诺夫检验、Cramér-von Mises检验、安德森-达尔林检验以及两样本BDM检验,发现没有一种检验在所有情况下都表现最优;卡方检验和似然比检验在检测局部形状差异方面表现最佳,而基于累积分布的检验(KS、CVM、AD)对振荡型备择假设无效。

ABSTRACT

Several approaches to testing the hypothesis that two histograms are drawn from the same distribution are investigated. We note that single-sample continuous distribution tests may be adapted to this two-sample grouped data situation. The difficulty of not having a fully-specified null hypothesis is an important consideration in the general case, and care is required in estimating probabilities with ``toy'' Monte Carlo simulations. The performance of several common tests is compared; no single test performs best in all situations.

研究动机与目标

  • 评估各种两样本拟合优度检验在判断两个直方图是否来自同一分布时的表现。
  • 评估当原假设未完全指定时,蒙特卡洛模拟的可靠性。
  • 识别在不同备择分布下,哪些检验统计量对检测直方图形状偏离最有效。
  • 根据预期的偏离性质(如局部与全局、振荡与单调)提供检验选择的指导。

提出的方法

  • 将单样本连续分布检验(如卡方检验、柯尔莫哥洛夫-斯米尔诺夫检验、安德森-达尔林检验)适配至两样本分组数据(直方图)场景。
  • 使用‘玩具’数据进行蒙特卡洛模拟,以估计在各种备择分布下的第一类和第二类错误率。
  • 在原假设下相等均值的前提下,采用卡方检验统计量 $ T = \sum_{i=1}^{k} \frac{(u_i - v_i)^2}{\sigma_i^2} $,其中 $ \sigma_i^2 = \mu_i + \nu_i $。
  • 通过 $ \ln \lambda = \sum_{i=1}^{k} \left[ (u_i + v_i) \ln \left( \frac{u_i + v_i}{2} \right) - u_i \ln u_i - v_i \ln v_i \right] $ 应用似然比检验。
  • 通过在已知备择分布下模拟数据来评估每种检验的功效,例如具有不同振幅的锯齿形模式。
  • 所有计算和基于模拟的p值估计均使用R统计软件完成。

实验结果

研究问题

  • RQ1当真实分布存在局部差异时,哪种统计检验在检测直方图形状差异方面功效最高?
  • RQ2当备择分布具有局部振荡特征时,基于累积分布函数的检验(如KS、CVM、AD)表现如何?
  • RQ3在两样本直方图检验中,当原假设未完全指定时,使用蒙特卡洛模拟会带来何种影响?
  • RQ4在何种条件下,似然比检验在检测直方图不一致性方面优于其他检验?
  • RQ5是否存在一种普遍最优的检验方法用于比较两个直方图?还是其表现取决于预期偏离的性质?

主要发现

  • 卡方检验和似然比检验在检测每箱一个计数背景上的50%锯齿形振荡时表现出最高功效(分别为47.8%和49.6%)。
  • 基于累积分布的检验——KS、CVM和AD——表现较差,在相同备择假设下拒绝原假设的概率仅为1.0%至1.2%,相当于从原假设中随机抽样。
  • BDM检验表现出中等功效(50%锯齿形时为33.6%),优于KS、CVM和AD,但劣于卡方检验和似然比检验。
  • 常被认为有争议的 $ \ln \mathbf{L} $ 检验功效较低(50%锯齿形时为10.0%),在此情境下表现不优于其他检验。
  • 没有一种检验在所有备择假设下始终表现更优;其表现严重依赖于偏离的性质(如局部与全局、振荡与单调)。
  • 模拟必须仔细验证,尤其是在原假设未完全指定时,因为朴素的蒙特卡洛方法可能导致误导性的第一类错误率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。