Skip to main content
QUICK REVIEW

[论文解读] Optimal nonparametric testing of Missing Completely At Random and its connections to compatibility

Thomas B Berrett, Richard J. Samworth|arXiv (Cornell University)|May 17, 2022
Advanced Statistical Methods and Models被引用 1
一句话总结

本文通过将问题与 Fréchet 类相容性及线性规划联系起来,为完全随机缺失(MCAR)开发了最优非参数检验。它引入了一个不相容性指数 R(PS) 以量化可检测性,证明该检验在对数因子范围内达到极小极大分离速率,并通过线性规划实现精确计算,相关实现已集成于 R 包 MCARtest 中,适用于 MCAR 假设下的离散数据。

ABSTRACT

Given a set of incomplete observations, we study the nonparametric problem of testing whether data are Missing Completely At Random (MCAR). Our first contribution is to characterise precisely the set of alternatives that can be distinguished from the MCAR null hypothesis. This reveals interesting and novel links to the theory of Fr\'echet classes (in particular, compatible distributions) and linear programming, that allow us to propose MCAR tests that are consistent against all detectable alternatives. We define an incompatibility index as a natural measure of ease of detectability, establish its key properties, and show how it can be computed exactly in some cases and bounded in others. Moreover, we prove that our tests can attain the minimax separation rate according to this measure, up to logarithmic factors. Our methodology does not require any complete cases to be effective, and is available in the R package MCARtest.

研究动机与目标

  • 识别在 MCAR 原假设下可被统计检测到的备择假设集合。
  • 建立 MCAR 检验与 Fréchet 类及分布相容性理论之间的精确联系。
  • 开发一种具有有限样本第一类错误控制且对所有可检测备择假设一致的非参数检验。
  • 定义并计算不相容性指数 R(PS),作为 MCAR 违背可检测性的度量。
  • 证明所提出的检验在对数因子范围内达到极小极大分离速率。

提出的方法

  • 该方法利用 Kellerer(1984)的对偶定理刻画联合分布的相容性,从而实现对不相容性的检验。
  • 将不相容性指数 R(PS) 表述为在可行集上对线性泛函的上确界,可通过线性规划实现精确计算。
  • 对于离散数据,检验统计量基于观测模式下的经验边缘分布得出,具有精确的第一类错误控制。
  • 该方法利用计算几何算法推导出 R(PS) 的解析表达式,尤其在二值情况下具有高度可操作性。
  • 提出一种离散化方案以近似连续设置,并在箱尺寸缩小过程中提供收敛性保证。
  • 该检验已实现在 R 包 MCARtest 中,支持在各种配置下对 R(PS) 进行精确计算与边界估计。

实验结果

研究问题

  • RQ1在存在不完全数据的情况下,哪些 MCAR 的备择假设是可被统计检测到的?
  • RQ2如何通过形式化的不相容性度量来量化 MCAR 违背的可检测性?
  • RQ3能否构建一种具有有限样本第一类错误控制且对所有可检测备择假设一致的非参数 MCAR 检验?
  • RQ4检测 MCAR 违背的最优分离速率是什么?该检验能否达到这一速率?
  • RQ5不相容性指数 R(PS) 与检测的极小极大速率之间有何关系?

主要发现

  • 可检测的 MCAR 备择假设集合恰好对应于在 Fréchet 意义下观测边缘分布不相容的情形。
  • 不相容性指数 R(PS) 定义为线性泛函的上确界,作为可检测性的自然度量。
  • 可通过线性规划实现 R(PS) 的精确计算,当精确计算不可行时,也可获得其边界。
  • 所提出的检验在对数因子范围内达到极小极大分离速率,通过 d=3 及特定字母表大小下的极小极大下界得到证明。
  • 当 d=3 且 |X1|=r, |X2|=s, |X3|=2 时,该检验在 r、s 及样本量方面达到最优分离速率,对数因子范围内成立。
  • 该方法无需依赖完整案例,已实现在 R 包 MCARtest 中,支持 R(PS) 的精确与近似计算。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。