Skip to main content
QUICK REVIEW

[論文レビュー] Semiparametric Inference for Non-monotone Missing-Not-at-Random Data: the No Self-Censoring Model

Daniel Malinsky, Ilya Shpitser|arXiv (Cornell University)|Sep 4, 2019
Statistical Methods and Inference参考文献 36被引用数 21
ひとこと要約

本稿では、『自己遮断なし』仮定(自己の欠損状態が直接的にその変数自身の欠損状態に影響を与えないこと)の下で、非単調な未観測欠損(MNAR)データに対する半パラメトリック推定量を提案する。オッズ比パラメータ化と影響関数に基づく推定を用いることで、常に観測される共変量が存在する場合に、半パラメトリック効率性と二重ロバスト性を達成し、モデルの誤指定に対しても一貫性と効率性のある推論が可能になる。

ABSTRACT

We study the identification and estimation of statistical functionals of multivariate data missing non-monotonically and not-at-random, taking a semiparametric approach. Specifically, we assume that the missingness mechanism satisfies what has been previously called "no self-censoring" or "itemwise conditionally independent nonresponse," which roughly corresponds to the assumption that no partially-observed variable directly determines its own missingness status. We show that this assumption, combined with an odds ratio parameterization of the joint density, enables identification of functionals of interest, and we establish the semiparametric efficiency bound for the nonparametric model satisfying this assumption. We propose a practical augmented inverse probability weighted estimator, and in the setting with a (possibly high-dimensional) always-observed subset of covariates, our proposed estimator enjoys a certain double-robustness property. We explore the performance of our estimator with simulation experiments and on a previously-studied data set of HIV-positive mothers in Botswana.

研究の動機と目的

  • 非単調で欠損が原因でない(MNAR)パターンを示す多変量データにおける統計的関数の同定と推定の課題に対処すること。
  • 『自己遮断なし』仮定の下で同定と半パラメトリック効率性を確立すること。この仮定では、各変数の欠損状態が、他のすべての変数と欠損状態のインジケータを条件として、その自身の欠損状態インジケータとは条件付き独立である。
  • 扱いやすい尤度の指定が可能になるように、連鎖密度のオッズ比パラメータ化を活用した実用的で効率的な推定量の開発。
  • 高次元の常に観測される共変量が存在する状況での二重ロバスト性の実証。これにより、モデルの誤指定に対する感受性が低下する。
  • シミュレーション研究とボツワナのHIV陽性母親を対象とした応用を通じて、手法の妥当性を検証すること。

提案手法

  • 著者らは、部分的に観測される変数が自らの欠損状態を直接決定しないことを保証する『自己遮断なし』仮定を採用する。
  • 柔軟かつ整合的な全データ分布のモデリングを可能にするために、連鎖密度のオッズ比パラメータ化(Chen, 2007, 2010)を用いる。
  • 非パラメトリックな全データモデルの下で、影響関数(IF)アプローチを用いて半パラメトリック効率推定量を導出する。
  • 提案された推定量は、アウトカム回帰モデルと欠損確率モデルを組み合わせた増強逆確率重み付け(AIPW)推定量である。
  • この手法により二重ロバスト性が保証される:アウトカムモデルまたは欠損モデルのどちらか一方が正しく指定されていれば推定量は一貫性を示す。特に高次元の常に観測される共変量が利用可能な場合に有効である。
  • 理論的結果として、効率的影響関数の導出と、正則性条件の下での√n-一貫性および漸近正規性の証明が含まれる。

実験結果

リサーチクエスチョン

  • RQ1『自己遮断なし』仮定の下で、非単調MNARデータにおいて、関心のある関数が非パラメトリックに同定可能か?
  • RQ2このモデルにおける推定の半パラメトリック効率限界は何か? そして、それが達成可能か?
  • RQ3高次元の常に観測される共変量が存在する状況で、提案された増強逆確率重み付け推定量が二重ロバスト性を達成するか?
  • RQ4既存の手法と比較して、モデルの誤指定下における有限標本での推定量の性能はいかがなものか?
  • RQ5複雑な欠損パターンを示す実世界のデータ(例:縦断的HIVコhort研究)に、この手法を実用的に適用可能か?

主な発見

  • 『自己遮断なし』仮定により、非単調MNAR設定下で欠損パターンの確率および関心のあるパラメータの非パラメトリック同定が可能になる。
  • モデルの半パラメトリック効率限界が導出され、影響関数に基づく推定量によって達成可能であることが示された。
  • 提案された増強逆確率重み付け推定量は、半パラメトリックに効率的であり、常に観測される共変量が存在する場合には二重ロバスト性を達成する。
  • シミュレーション実験では、推定量が良好な有限標本性能を示し、モデルの誤指定に対してもロバストであることが確認された。
  • ボツワナのHIVコhort研究において、複雑な欠損パターン下でも、この手法は重要なパラメータを効果的に推定でき、標準的なMARベースのアプローチを上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。