Skip to main content
QUICK REVIEW

[論文レビュー] A logic-based resampling with matching approach to multiple imputation of missing data

Chinchin Wang, Tyrel Stokes|arXiv (Cornell University)|Apr 14, 2020
Statistical Methods and Bayesian Inference被引用数 1
ひとこと要約

本論文は、データ制約によりモデルベース手法が不適切となる状況において、欠損データの複数代入のための論理的リサンプリング・マッチング(RWM)手法を提案する。欠損値を含むレコードを類似した観測済みレコードにマッチングし、観測データの頻度に基づいて確率を割り当て、これらのマッチング先からランダムにサンプリングすることで、RWMは複数のデータセットにわたり妥当な代入値を生成する。これにより、パラメトリックモデルに依存せずに、堅牢な統計的分析が可能となる。

ABSTRACT

Researchers often use model-based multiple imputation to handle missing at random data to minimize bias while making the best use of all available data. However, there are sometimes constraints within the data that make model-based imputation difficult and may result in implausible values. In these contexts, we explore the advantages of employing a logic-based resampling with matching (RWM) approach for multiple imputation. This approach is similar to random hot deck imputation and allows for more plausible imputations when model-based approaches are not feasible. We illustrate RWM imputation for missing pain, activity frequency, and sport data using The Childhood Health, Activity, and Motor Performance School Study Denmark (CHAMPS-DK). We match records with missing data to several observed records, generate probabilities for matched records using observed data, and sample from these records based on the probability of each occurring. Because imputed values are generated randomly, multiple complete datasets can be created. They are then analyzed and averaged in the same way as model-based multiple imputation. This approach can be extended to other datasets as an alternative when model-based approaches are infeasible, specifically where there are constraints between covariates.

研究の動機と目的

  • データ制約(変数間の論理的関係など)により妥当なパラメトリックモデリングが困難な場合に、モデルベースの複数代入法の限界を克服すること。
  • 現実的な代入値を生成しつつ、データ制約および論理的関係を保持する手法を開発すること。
  • パラメトリック仮定が破綻している、もしくは非現実的な値が生成される状況において、モデルベース代入の実用的代替手段を提供すること。
  • CHAMPS-DK研究の実世界の健康および行動データを用いて、RWM手法の実用性と有効性を示すこと。
  • リサンプリングとマッチングを通じて複数代入を可能にし、標準的な複数代入分析ワークフローと互換性を保つこと。

提案手法

  • 共変数に基づいて、欠損値を含むレコードと論理的・統計的に類似した観測済みレコードを同定する。
  • 観測データの頻度を用いて、各潜在的マッチング先に確率を割り当て、より類似度の高いレコードが高い選択確率を持つようにする。
  • 割り当てられた確率に従い、マッチングされたレコードからランダムに代入値を抽出することで、代入間での確率的変動を確保する。
  • マッチングとサンプリングのプロセスを繰り返すことで、複数の完全なデータセットを生成し、複数代入に必要なばらつきを保持する。
  • 得られたデータセットを別々に分析し、標準的な複数代入プーリング規則に従って結果を統合する。
  • 特に変数間の論理的制約(相互に排他的なカテゴリーや範囲制約など)を持つデータに特に適している。

実験結果

リサーチクエスチョン

  • RQ1データ制約が妥当なパラメトリックモデリングを不可能にする状況において、論理的リサンプリング・マッチング手法が、モデルベース手法よりもより妥当な代入値を生成できるか。
  • RQ2RWM手法は、従来のモデルベース手法と比較して、代入プロセス中に論理的関係やデータ制約をどのように保持するか。
  • RQ3複雑な依存構造を示す欠損データの状況下で、RWM手法は統計的効率性を維持し、バイアスを低減する程度はどの程度か。
  • RQ4非連続的または制約付き変数を含む実世界の健康および行動データに、RWM手法を効果的に適用できるか。
  • RQ5欠損がランダム(MAR)メカニズム下で、RWMの性能はモデルベース代入と比較して、カバレッジおよび推定精度の観点でどの程度優れているか。

主な発見

  • RWM手法は、パラメトリックモデルに依存せずに、観測データのパターンを活用することで、妥当な代入値を効果的に生成した。
  • 代入値はデータの論理的構造によって制約されるため、非現実的または一貫性のない値が生成されるリスクが低減された。
  • マッチングされたレコードからランダムにサンプリングすることで、複数の完全なデータセットを生成可能となり、標準的な複数代入分析が可能になった。
  • 特に、変数間の論理的依存関係などのデータ制約により、モデルベース代入が失敗する状況において、本手法は特に有効であった。
  • 標準的な複数代入ワークフローと互換性を保ったまま、妥当な統計的推論がプールされた結果に基づいて可能となった。
  • CHAMPS-DKデータへの実応用により、痛み、活動頻度、スポーツ参加状況の欠損データに対するRWMの実用性が実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。