Skip to main content
QUICK REVIEW

[论文解读] What does it mean for data to be `observed' or `missing'?

John C. Galati|arXiv (Cornell University)|Nov 9, 2018
Sensory Analysis and Statistical Methods被引用 1
一句话总结

本文指出了标准缺失数据记号中存在数学上的不一致,其中 Yobs 和 Ymis 被模糊地用于表示观测/缺失数据以及可观测与不可观测值的混合。作者提出使用四符号记号系统(Yobs、Ymis、Robs、Rmis),明确区分数据值与其缺失模式,从而解决随机建模中的冲突,并实现对多种缺失模式的一致比较。

ABSTRACT

In statistical modelling of incomplete data, missingness is encoded as a relation between datasets Y and response patterns R. The partitioning of Y into observed and missing components is often denoted Yobs and Ymis. We point out a mathematical defect in this notation which results from two different mathematical relationships between Y and R not being distinguished, (Yobs, Ymis, R) in which Yobs values are always observed, and Ymis values are always missing, and the overlaying of a missingness pattern onto the marginal distribution for Y, denoted (Yobs, Ymis). With the latter, Yobs and Ymis each denote mixtures of observable and unobservable data. This overlaying of the missingness pattern onto Y creates a link between the mathematics and the meta-mathematics which violates the stochastic relationship encoded in (Y, R). Additionally, in the theory there is a need to compare partitions of Y according to different missingness patterns simultaneously. A simple remedy for these problems is to use four symbols instead of two, and to make the dependence on the missingness pattern explicit. We explain these and related issues.

研究动机与目标

  • 识别在统计模型中用于表示观测与缺失数据的标准记号(Yobs, Ymis)中的数学缺陷。
  • 澄清当前标准记号中混淆的数据值与其缺失模式之间的区别。
  • 解决当缺失模式被叠加到 Y 的边缘分布上时,违反 (Y, R) 中编码的随机依赖关系而引发的不一致。
  • 通过显式表达模式依赖性,实现对不同缺失模式下数据子集的一致比较。
  • 提出一种正式且无歧义的记号系统,以保持缺失数据模型中随机关系的完整性。

提出的方法

  • 引入四个不同的符号——Yobs、Ymis、Robs、Rmis——以明确区分数据值与其缺失状态。
  • 区分联合模型 (Yobs, Ymis, R),其中值被确定性地观测或缺失,与边缘模型 (Yobs, Ymis),其中各成分是可观测与不可观测数据的混合。
  • 使用随机关系 (Y, R) 明确定义缺失机制,确保依赖结构得以保留。
  • 使用显式的模式依赖记号,允许对不同数据子集中的多种缺失模式进行并行比较。
  • 用结构化框架替代模糊的记号 (Yobs, Ymis),将数据生成过程与缺失模式分离。
  • 证明将缺失模式叠加到 Y 的边缘分布上会扭曲 Y 与 R 之间的随机关系,而新记号可防止此类扭曲。

实验结果

研究问题

  • RQ1在标准记号中,将数据值与其缺失模式混淆会引发何种数学不一致?
  • RQ2为何将缺失模式叠加到 Y 的边缘分布上会违反 (Y, R) 中编码的随机关系?
  • RQ3为何必须区分确定性缺失(Yobs, Ymis, R)与概率性混合(Yobs, Ymis)?
  • RQ4四符号记号系统如何提升在不同缺失模式下比较数据子集的一致性?
  • RQ5为保持涉及不完整数据的统计模型完整性,需对记号进行哪些正式修改?

主要发现

  • 标准记号 (Yobs, Ymis) 将数据值与其缺失状态混淆,当将缺失模式叠加到边缘分布上时,会引发数学上的不一致。
  • 将缺失模式叠加到 Y 上,会在数据与其缺失机制之间产生虚假关联,违反由 (Y, R) 定义的随机关系。
  • 使用四个符号(Yobs、Ymis、Robs、Rmis)可明确分离数据值与其缺失模式,从而消除歧义并保持模型完整性。
  • 所提出的记号系统通过显式表达模式依赖性,使在不同缺失模式下对数据子集的一致比较成为可能。
  • 该重构确保了 Y 与 R 之间随机依赖关系的保留,避免了统计推断中的扭曲。
  • 本文表明,现有记号掩盖了数据生成过程中根本性的区别,而新框架则清晰阐明了这些区别。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。