Skip to main content
QUICK REVIEW

[論文レビュー] A Framework for Understanding Selection Bias in Real-World Healthcare Data

Ritoban Kundu, Xu Shi|arXiv (Cornell University)|Apr 10, 2023
Advanced Causal Inference Techniques被引用数 3
ひとこと要約

本稿では、電子カルテ(EHR)およびバイオバンクからの実世界の医療データにおいて選択バイアスを診断・是正するための有向非巡回グラフ(DAG)ベースのフレームワークを提案する。4つの分散公式を伴う逆確率重み付け(IPW)手法を導入し、シミュレーションおよびミシガン・ゲノミクス・イニシアチブからの実世界の事例を通じて、これらの手法が、ナード分析や集団ベースのSEER推定値と比較して、生物学的性別とがんの関連性を推定する際の選択バイアスを効果的に低減できることを示している。

ABSTRACT

Using administrative patient-care data such as Electronic Health Records (EHR) and medical/ pharmaceutical claims for population-based scientific research has become increasingly common. With vast sample sizes leading to very small standard errors, researchers need to pay more attention to potential biases in the estimates of association parameters of interest, specifically to biases that do not diminish with increasing sample size. Of these multiple sources of biases, in this paper, we focus on understanding selection bias. We present an analytic framework using directed acyclic graphs for guiding applied researchers to dissect how different sources of selection bias may affect estimates of the association between a binary outcome and an exposure (continuous or categorical) of interest. We consider four easy-to-implement weighting approaches to reduce selection bias with accompanying variance formulae. We demonstrate through a simulation study when they can rescue us in practice with analysis of real world data. We compare these methods using a data example where our goal is to estimate the well-known association of cancer and biological sex, using EHR from a longitudinal biorepository at the University of Michigan Healthcare system. We provide annotated R codes to implement these weighted methods with associated inference.

研究の動機と目的

  • 大規模な実世界医療データにおける選択バイアスの増大する課題に対処するため、特に選択確率が不明な非確率標本において、選択バイアスの影響を解明すること。
  • 有向非巡回グラフ(DAG)を用いた、因果的根拠に基づいた実用的フレームワークを開発し、観察的EHR研究における選択バイアスの原因を診断・理解すること。
  • 選択バイアスの低減を目的とした、4つの実装可能な逆確率重み付け(IPW)戦略とそれに伴う分散推定を提案すること。
  • シミュレーション研究およびミシガン・ゲノミクス・イニシアチブからの実世界データ例を通じて、これらの手法の性能を評価すること。
  • 研究者がこれらの手法を実務で活用できるように、アノテート済みのRコードおよび推論ツールを提供することにより、後続の解析の妥当性を向上させること。

提案手法

  • 実世界データにおける選択バイアスのメカニズムをモデル化・診断するため、有向非巡回グラフ(DAG)を用いる。特に非確率標本において有効である。
  • 4つの逆確率重み付け(IPW)アプローチを提案する:(1) 結果ベースの重み付け、(2) 暴露ベースの重み付け、(3) 暴露・結果の併用重み付け、(4) ポストストラティフィケーション重み付け。
  • 各IPW手法の解析的分散公式を導出することで、妥当な統計的推論および仮説検定を可能にする。
  • 多様なデータ生成メカニズムの下で、各手法のバイアス低減性能を評価するため、シミュレーション研究を実施する。
  • ミシガン・ゲノミクス・イニシアチブ(MGI)の実EHRデータセットを用い、生物学的性別とがんの関連性を推定し、SEER集団ベースの推定値と比較する。
  • すべての4つのIPW手法を実装するオープンソースのRコードをGitHubに提供し、分散推定のためのブートストラップを含む適切な推論を可能にする。

実験結果

リサーチクエスチョン

  • RQ1EHRおよびバイオバンクからの実世界医療データにおける選択バイアスを、因果的図式(Causal Diagrams)を用いて体系的かつ理解可能に診断・解明することは可能か?
  • RQ24つの異なる逆確率重み付け(IPW)手法が、がん(例:バイナリアウトカム)と生物学的性別(例:露出要因)の関連性推定における選択バイアスをどの程度低減できるか?
  • RQ3選択メカニズムの複雑さやモデル不適合の程度が異なるシミュレーション設定下で、これらのIPW手法はどの程度の性能を示すか?
  • RQ4提案手法は、実世界のEHRベースの研究において、真の集団レベルの関連性(例:SEER推定値)に近い推定値を回復できるか?
  • RQ5大規模な非確率標本において選択バイアスを無視した場合の実務的影響は何か?また、研究者は日常の解析でバイアス補正推論をどのように実装できるか?

主な発見

  • シミュレーション研究では、ナード分析に比べ、4つのIPW手法すべてが選択バイアスを低減していることが示され、特に中程度から高い選択バイアス下では、曝露・結果併用重み付けとポストストラティフィケーション手法が最も優れた性能を示した。
  • MGIデータ例では、ナード分析が生物学的性別とがんの関連性を過大評価しており(オッズ比 = 1.89)、SEER推定値(オッズ比 = 1.50)と比較して顕著な選択バイアスが確認された。
  • ポストストラティフィケーションIPW手法は調整済みオッズ比1.53を算出し、SEER推定値とよく一致しており、効果的なバイアス是正が行われたことを示している。
  • 曝露・結果併用IPW手法は調整済みオッズ比1.51を示し、SEER基準と強く一致しており、複雑な選択メカニズム下でも頑健であることが示された。
  • ブートストラップを用いた分散推定により、一貫した標準誤差が得られ、IPW手法における妥当な推論が可能であることが裏付けられた。
  • 著者らは、大規模なサンプルではバイアスが平均二乗誤差を支配することを示しており、ビッグデータ医療研究においては分散最小化よりもバイアス低減を優先すべきであることを強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。