Skip to main content
QUICK REVIEW

[論文レビュー] Integration of Individual Participant and Aggregate Data Under Dataset Shift: Summary Statistic Comparison and Scalable Computation

Ming‐Yueh Huang, Jing Qin|arXiv (Cornell University)|Mar 2, 2026
Advanced Causal Inference Techniques被引用数 0
ひとこと要約

この論文は、データセットシフト下で異なる集計データの要約がIPD–AD統合の効iciencyに与える影響を比較し、スケーラブルな分析のための高速で反復を必要としないCMLEアルゴリズムを導入します。

ABSTRACT

Integrated IPD-AD analysis, which combines individual participant data (IPD) with aggregate data (AD), is increasingly recognized as an effective strategy for generating more reliable and generalizable inferences from heterogeneous studies. While most existing work has focused on algorithmic approaches, this paper investigates a complementary yet underexplored question: how different forms of AD influence the efficiency of data integration. Working within a constrained maximum likelihood estimation framework, we compare commonly reported summary statistics and show that subgroup-specific summaries can substantially improve estimation efficiency. In particular, we find that AD derived from outcome-stratified subgroups (e.g., cases and controls) consistently yield greater efficiency gains than those based on covariate-stratified subgroups (e.g., age or exposure categories), especially when the outcome is continuous. Although outcome-stratified summaries are commonly reported for discrete outcomes, they are rarely provided when the outcome is continuous. Our findings therefore support the routine inclusion of outcome-stratified summaries for continuous endpoints in trial reports and public data repositories to facilitate more efficient evidence synthesis. We further extend the constrained maximum likelihood framework to accommodate dataset shift and develop a fast, non-iterative estimation procedure to improve numerical stability and scalability. We illustrate the proposed methodology with two applications: an analysis of income data under covariate shift and an analysis of housing data under prior probability shift.

研究の動機と目的

  • IPDを活用しつつ、利用可能なADを活用する統合IPD–AD分析を動機付ける。
  • 制約付き最尤フレームワーク内で、ADの形態が推定効率に与える影響を評価する。
  • データセットシフト(共変量シフトおよび事前確率シフト)を考慮できるようCMLEを拡張し、効率の改善を定量化する。
  • 高次元統合タスクにおける数値安定性とスケーラビリティを向上させる高速・反復不要アルゴリズムを開発する。

提案手法

  • 有偏りのない母集団推定方程式の下でIPDとADを結合する制約付き最大似然推定(CMLE)を用いる。
  • ADを推定方程式を通じてパラメータの推定値として表現し、CMLE目的関数に対応する制約を課す。
  • 必要に応じてADの不確実性を、IPD尤度にADの正規近似項を付加して取り入れる。
  • 共変量とアウトカムのシフトを結ぶ密度比ベースのリンクを用いて、IPDとADを結びつけることでデータセットシフトをモデル化する。
  • 単一のステップでCMLEを得るための高速・反復不要アルゴリズムを導出・活用し、安定性とスケーラビリティを向上させる。
Figure 1: The biases (top panel) and relative efficiencies (bottom panel) of the constrained maximum likelihood estimator for $\beta_{00}$ (left), $\beta_{01}$ (center), and $\beta_{02}$ (right), with various AD: $\widetilde{\boldsymbol{\phi}}^{Y}$ (solid line with $\circ$ ), $\widetilde{\boldsymbol
Figure 1: The biases (top panel) and relative efficiencies (bottom panel) of the constrained maximum likelihood estimator for $\beta_{00}$ (left), $\beta_{01}$ (center), and $\beta_{02}$ (right), with various AD: $\widetilde{\boldsymbol{\phi}}^{Y}$ (solid line with $\circ$ ), $\widetilde{\boldsymbol

実験結果

リサーチクエスチョン

  • RQ1集計データ(周辺平均、共変量層別要約、アウトカム層別要約)の異なる形態は、IPD–AD統合の効率性にどのように影響するか?
  • RQ2特に連続アウトカムの場合、アウトカム層別要約は他のAD形態より組織的な効率向上をもたらすか?
  • RQ3共変量シフトおよび事前確率シフトを扱うためにCMLEをIPD–AD統合に拡張するにはどうすればよいか?
  • RQ4データセットシフト下で安定かつスケーラブルなCMLEを実現する高速・反復不要推定手法は可能か?
  • RQ5臨床試験やデータリポジトリにおけるアウトカム層別要約の報告に関する実務的含意は何か?

主な発見

  • アウトカム層別共変量要約は、周辺平均や共変量層別要約と比べて推定効率を大きく向上させ得る。
  • 効率向上は連続アウトカムの場合に特に顕著で、ADにアウトカム関連情報が含まれる場合にさらに大きくなる。
  • CMLEはデータセットシフト下でIPDとAD間の密度比ベースのリンクを用いてADを統合し、共変量シフトおよび事前確率シフトに対応する。
  • 高速・反復不要アルゴリズムは一一ステップでCMLEを得ることを可能にし、高次元設定での数値安定性とスケーラビリティを向上させる。
  • ADの不確実性は適切に考慮され、漸近理論はN/n → κ ∈ (0, ∞)の下で推定量を特徴づける。
  • この枠組みは、共変量シフト下の所得データや事前確率シフト下の住宅データなど、実務的応用を支える。
Figure 2: The relative efficiencies of the constrained maximum likelihood estimator for $\beta_{00}$ (top row), $\beta_{01}$ (center row), and $\beta_{02}$ (bottom row) under IPD sample sizes $n=100$ (left column), $n=200$ (center column), and $n=400$ (right column), with various AD: $\widetilde{\bo
Figure 2: The relative efficiencies of the constrained maximum likelihood estimator for $\beta_{00}$ (top row), $\beta_{01}$ (center row), and $\beta_{02}$ (bottom row) under IPD sample sizes $n=100$ (left column), $n=200$ (center column), and $n=400$ (right column), with various AD: $\widetilde{\bo

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。