QUICK REVIEW

[论文解读] The Two-Way Likelihood Ratio (G) Test and Comparison to Two-Way Chi Squared Test

Jesse Hoey|arXiv (Cornell University)|Jun 21, 2012

Algorithms and Data Compression参考文献 1被引用 25

一句话总结

本文提出双向似然比（G）检验作为比较两个多项分布时优于卡方检验的替代方法。推导出G统计量为两倍对数似然比，表明其在大样本下近似卡方分布，但在稀疏数据中保持更高精度，并强调必须对模型复杂度进行校正以避免过拟合。

ABSTRACT

This paper presents a derivation of the Two-Way Likelihood Ratio (G) Test and Comparison to the Two-Way Chi Squared Test

研究动机与目标

将双向G检验统计量推导为 $ G = 2 \times \text{sum over bins of } O_i \times \log(O_i / E_i) $，其中 $ O_i $ 为观测频数，$ E_i $ 为期望频数。
将似然比表示为 $ L = R \cdot D_{KL}(r_i \| p_i) + S \cdot D_{KL}(s_i \| p_i) $，其中 $ p_i = (R_i + S_i)/(R + S) $，将其与Kullback-Leibler散度联系起来。
使用泰勒展开证明当观测频数与期望频数接近时 $ G \approx \chi^2 $，但当偏差较大或数据稀疏时G更精确。
通过前向算法计算似然值，将G统计量应用于隐马尔可夫模型等动态模型，并使用公式（3）计算比值。
建议将 $ G $ 与 $ 2\nu $ 比较，其中 $ \nu $ 为自由度，以评估显著性（例如，$ G > 2\nu $ 意味着 $ p < 0.05 $）。
警告：使用最大似然参数估计而非完整的贝叶斯积分可能导致过拟合，因此必须对模型复杂度进行校正。

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。