QUICK REVIEW

[论文解读] Stop or Continue Data Collection: A Nonignorable Missing Data Approach for Continuous Variables

Thaís Paiva, Jerome P. Reiter|arXiv (Cornell University)|Sep 1, 2017

Statistical Methods and Bayesian Inference参考文献 56被引用 10

一句话总结

本文提出了一种针对连续变量的非忽略缺失数据方法，用于指导调查中何时停止或继续数据收集的决策。该方法使用多元正态分布的混合模型来模拟受访者的数据，并通过调整分量概率来模拟在各种非忽略缺失机制下的非响应者分布，从而实现敏感性分析，评估停止规则中成本与准确性的权衡。其主要贡献是提出了一种基于插补的、原则性的自适应调查设计方法，能够有效处理非忽略的非响应问题。

ABSTRACT

We present an approach to inform decisions about nonresponse follow-up sampling. The basic idea is (i) to create completed samples by imputing nonrespondents’ data under various assumptions about the nonresponse mechanisms, (ii) take hypothetical samples of varying sizes from the completed samples, and (iii) compute and compare measures of accuracy and cost for different proposed sample sizes. As part of the methodology, we present a new approach for generating imputations for multivariate continuous data with nonignorable unit nonresponse. We fit mixtures of multivariate normal distributions to the respondents’ data, and adjust the probabilities of the mixture components to generate nonrespondents’ distributions with desired features. We illustrate the approaches using data from the 2007 U.S. Census of Manufactures.

研究动机与目标

解决在存在非忽略非响应情况下的调查数据收集停止决策挑战。
开发一种可在数据收集过程中实时评估收集成本与数据准确性之间权衡的方法。
为多变量连续数据在非忽略缺失情况下的敏感性分析提供一种灵活的、基于插补的框架。
使调查机构能够基于预测的准确性和成本，做出知情的、自适应的后续跟进决策。

提出的方法

将有限混合多元正态分布拟合到受访者的观测数据，以建模复杂的多变量分布。
在保持位置参数（µk）和尺度参数（Σk）不变的前提下，调整混合分量概率（πk），以模拟不同非忽略缺失机制下的非响应者分布。
采用模式混合模型方法，在对缺失机制的不同假设下，为非响应者生成多重插补数据。
通过评估在不同调整后的分量概率下生成的多个插补数据集中的推断结果，执行敏感性分析。
从已完成的数据集中抽取不同规模的虚拟样本，计算不同停止点的准确性和成本指标。
应用效用度量如 θ(s)δ、τ(s)δ 和 ρ(s)δ，以量化准确性并辅助停止决策。

实验结果

研究问题

RQ1调查机构如何在平衡成本与数据准确性的情况下，确定停止数据收集的最佳时机？
RQ2当缺失机制非随机（非忽略）时，非忽略非响应对停止规则决策有何影响？
RQ3如何在非忽略缺失条件下，对多变量连续数据有效开展敏感性分析？
RQ4在不同非响应机制下，从非响应者中收集额外数据所能带来的准确性提升相对有多大？
RQ5在不同跟进水平下，效用度量如 θ(s)δ、τ(s)δ 和 ρ(s)δ 如何指导停止决策？

主要发现

在 MAR 情况下，收集 25% 的非响应者可使准确度量 θ(s)δ 从 0.300 降低至 0.219，收集 50% 可进一步降低至 0.199。
在非忽略非响应且非响应者倾向于低值的情况下，收集 25% 或 50% 的非响应者可使 θ(s)δ 从超过 1.0 降低至与 MAR 情况相当的水平。
在非忽略非响应且非响应者倾向于高值的情况下，也观察到类似的显著准确性提升，θ(s)δ 从超过 1.0 降至接近 MAR 水平。
当跟进比例超过 50% 后，进一步收集数据带来的准确性提升呈边际递减趋势，表明成本可能超过收益。
效用度量 θ(s)δ、τ(s)δ 和 ρ(s)δ 一致表明，在所有情景下，超过 50% 跟进比例的停止决策均不太可能具有成本效益。
该方法在制塑品和塑料制品行业均表现出稳健性能，定性结论在各行业中保持一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。