Skip to main content
QUICK REVIEW

[論文レビュー] Stop or Continue Data Collection: A Nonignorable Missing Data Approach for Continuous Variables

Thaís Paiva, Jerome P. Reiter|arXiv (Cornell University)|Sep 1, 2017
Statistical Methods and Bayesian Inference参考文献 56被引用数 10
ひとこと要約

本稿では、連続変数の無作為でない欠損データアプローチを提案し、アンケートにおけるデータ収集の停止または継続の意思決定を支援する。本手法は、回答者のデータを多変量正規分布の混合モデルでモデル化し、さまざまな非無作為欠損のシナリオ下で非応答者を模擬するために、成分確率を調整する。これにより、停止ルールにおけるコストと正確性のトレードオフを評価する感度分析が可能になる。主な貢献は、非無作為非応答を考慮した、原理的で多重代入に基づく適応的調査設計手法の確立である。

ABSTRACT

We present an approach to inform decisions about nonresponse follow-up sampling. The basic idea is (i) to create completed samples by imputing nonrespondents’ data under various assumptions about the nonresponse mechanisms, (ii) take hypothetical samples of varying sizes from the completed samples, and (iii) compute and compare measures of accuracy and cost for different proposed sample sizes. As part of the methodology, we present a new approach for generating imputations for multivariate continuous data with nonignorable unit nonresponse. We fit mixtures of multivariate normal distributions to the respondents’ data, and adjust the probabilities of the mixture components to generate nonrespondents’ distributions with desired features. We illustrate the approaches using data from the 2007 U.S. Census of Manufactures.

研究の動機と目的

  • 非無作為非応答を伴うアンケートにおけるデータ収集の停止時期を決定する課題に対処すること。
  • 収集コストとデータの正確性のトレードオフを、収集過程においてリアルタイムに評価する手法を開発すること。
  • 多変量連続データにおける非無作為欠損の下で、感度分析を実施するための柔軟な、多重代入に基づくフレームワークを提供すること。
  • 調査機関が予測された正確性とコストに基づき、フォローアップ作業に関する情報に基づいた適応的意思決定を可能にすること。

提案手法

  • 回答者の観測データに有限混合多変量正規分布をフィットさせ、複雑な多変量分布をモデル化する。
  • 位置(µk)およびスケール(Σk)パラメータを固定したまま、混合成分確率(πk)を調整することで、さまざまな非無作為欠損メカニズム下での非応答者の分布を模擬する。
  • パターン混合モデルアプローチを用いて、欠損メカニズムに関する異なる仮定の下で非応答者に対する複数の多重代入を生成する。
  • 異なる調整済み成分確率の下で生成された複数の代入データセットを用いて、感度分析を実施し、推論を評価する。
  • 完了済みデータセットから抽出したサイズの異なる仮想サンプルを用いて、さまざまな停止ポイントにおける正確性とコスト指標を計算する。
  • 正確性を定量化し、停止意思決定を支援するため、θ(s)δ、τ(s)δ、ρ(s)δなどのユーティリティ指標を適用する。

実験結果

リサーチクエスチョン

  • RQ1調査機関は、コストと正確性のバランスを考慮しながら、データ収集をいつ停止すべきかをどのように特定できるか?
  • RQ2非応答が完全に無作為でない場合、非無作為非応答が停止ルール意思決定に与える影響は何か?
  • RQ3多変量連続データにおいて非無作為欠損の下で、効果的な感度分析をどのように実施できるか?
  • RQ4さまざまな非応答メカニズム下で、非応答者からの追加データ収集によって正確性がどの程度向上するか?
  • RQ5θ(s)δ、τ(s)δ、ρ(s)δといったユーティリティ指標は、フォローアップの異なる水準において、停止意思決定にどのように寄与するか?

主な発見

  • MARシナリオでは、非応答者の25%のデータ収集で正確性指標θ(s)δが0.300から0.219に低下し、50%では0.199にまで低下した。
  • 非応答者が低値傾向にある非無作為非応答の下では、非応答者の25%または50%の収集で、θ(s)δが1.0を超える水準からMARシナリオと同等の水準にまで低下した。
  • 非応答者が高値傾向にある非無作為非応答の下でも、同様に顕著な正確性の向上が観察され、θ(s)δは1.0を超える水準から近似MAR水準まで低下した。
  • 50%以上のフォローアップを超過すると、正確性の向上は次第に鈍り、コストが利益を上回る可能性が高くなる。
  • θ(s)δ、τ(s)δ、ρ(s)δのユーティリティ指標は、すべてのシナリオにおいて50%以上のフォローアップでの停止が費用対効果に乏しいと一貫して示した。
  • 本手法は、建材およびプラスチック製品産業の両方で堅実な性能を示し、産業間で質的結論が一貫していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。