QUICK REVIEW

[論文レビュー] EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories

Linjie Mu, Zhongzhen Huang|arXiv (Cornell University)|Feb 3, 2026

Machine Learning in Healthcare被引用数 0

ひとこと要約

要約: EHRWorld は EHRWorld-110K という大規模な EHR 派生データセットで訓練された因果的連続的医療ワールドモデルであり、介入下の長期的な患者軌跡の安定したシミュレーションを可能にし、素朴な LLM ベースラインを上回る。

ABSTRACT

World models offer a principled framework for simulating future states under interventions, but realizing such models in complex, high-stakes domains like medicine remains challenging. Recent large language models (LLMs) have achieved strong performance on static medical reasoning tasks, raising the question of whether they can function as dynamic medical world models capable of simulating disease progression and treatment outcomes over time. In this work, we show that LLMs only incorporating medical knowledge struggle to maintain consistent patient states under sequential interventions, leading to error accumulation in long-horizon clinical simulation. To address this limitation, we introduce EHRWorld, a patient-centric medical world model trained under a causal sequential paradigm, together with EHRWorld-110K, a large-scale longitudinal clinical dataset derived from real-world electronic health records. Extensive evaluations demonstrate that EHRWorld significantly outperforms naive LLM-based baselines, achieving more stable long-horizon simulation, improved modeling of clinically sensitive events, and favorable reasoning efficiency, highlighting the necessity of training on causally grounded, temporally evolving clinical data for reliable and robust medical world modeling.

研究の動機と目的

介入下の長期的な患者軌跡を動的に因果的に根拠づけてシミュレートする医療ワールドモデルの必要性を動機づける。
現実世界の EHR からテンポラルダイナミクスと介入条件付き遷移を学習する大規模で高品質な長期データセット（EHRWorld-110K）を作成する。
因果連続的パラダイムで訓練された患者中心のワールドモデル群である EHRWorld を開発し、長期的な horizon にわたり一貫した患者状態を維持する。
EHRWorld が誤差蓄積を抑制し、臨床的に敏感なイベント中の安定性を改善し、ベースライン LLM と比較して推論効率が良好であることを示す。

提案手法

患者状態を S_t = <τ_t, d, Y, H_t> と formalize する（Y には根拠付きの主診断/副診断を含む）。
相互作用を A_t と結果 V_t を用いた集合ベースの条件付き生成としてモデル化する。
二重モード予測機構を用意する：照明的な問い actions は観測可能な値を生成する；介入 actions は即時の結果が空で、履歴を更新する。
因果マスキング目的で訓練し、介入条件付きの状態遷移と longitudinal dynamic を学習する。
MIMIC-IV からエピソードレベルの静的文脈と時系列に並んだイベント列を抽出し、フィルタリングと分割を行って EHRWorld-110K を構築する。

実験結果

リサーチクエスチョン

RQ1LLMs が医療知識を持つ場合、長期的な臨床軌跡の動的医療ワールドモデルとして機能し得るか。
RQ2因果的に根拠づけられた時系列臨床データ（EHRWorld-110K）で訓練すると、長期的な状態の一貫性と誤差蓄積の低減に改善が見られるか。
RQ3EHRWorld モデルは全軌跡予測と連続介入下の安定性において素朴な LLM ベースラインとどう比較されるか。
RQ4EHRWorld ファミリ内のモデル規模が長期臨床シミュレーション性能に与える影響は何か。
RQ5高感度の臨床遷移や急激な生理変化に対してモデルの頑健性はどれほどか。

主な発見

モデル	サイズ	数値精度（S@25）	誤差（SMAPE）	統計 F1	適合度（Precision）	再現率（Recall）	F1	平均スコア
GPT-5.2	-	0.789	0.618	0.741	0.627	0.618	0.717	0.618
Gemini-3.0-Pro-Preview	-	0.681	0.299	0.565	0.481	0.473	0.477	0.574
Qwen3-4B-Instruct	4B	0.703	0.448	0.473	0.450	0.328	0.469	0.607
Qwen3-8B	8B	0.714	0.437	0.466	0.448	0.373	0.407	0.600
Qwen2.5-14B-Instruct	14B	0.659	0.339	0.423	0.358	0.237	0.285	0.659
Qwen3-30B-A3B-Instruct	30B	0.645	0.338	0.419	0.324	0.415	0.364	0.645
Llama-3.3-70B-Instruct	70B	0.625	0.364	0.377	0.581	0.439	0.500	0.625
Qwen3-Next-80B-A3B-Instruct	80B	0.630	0.381	0.416	0.416	0.471	0.442	0.630
GPT-OSS-120B	120B	0.634	0.372	0.432	0.346	0.384	0.346	0.634
MiniMax-M2.1	229B	0.650	0.338	0.502	0.475	0.486	0.480	0.650
Qwen3-235B-A22B-Instruct	235B	0.647	0.339	0.469	0.483	0.343	0.402	0.647
GLM-4.7	358B	0.663	0.322	0.476	0.381	0.254	0.305	0.663
DeepSeek-V3.2	671B	0.649	0.340	0.554	0.509	0.402	0.449	0.649
MedGemma-4B-IT	4B	0.554	0.561	0.438	0.412	0.142	0.211	0.554
MedGemma-27B-IT	27B	0.588	0.496	0.436	0.259	0.205	0.229	0.588
Baichuan-M2-32B	32B	0.601	0.418	0.499	0.456	0.386	0.418	0.601
EHRWorld-4B	4B	0.703	0.274	0.649	0.939	0.886	0.912	0.755
EHRWorld-8B	8B	0.714	0.269	0.658	0.936	0.891	0.913	0.762
EHRWorld-14B	14B	0.716	0.262	0.667	0.925	0.901	0.913	0.765

EHRWorld は長期臨床軌跡シミュレーションにおいて素朴な LLM ベースラインを上回り、誤差蓄積を抑制する。
EHRWorld は全軌跡生成において高い保持性（安定性）を達成し、GPT-5.2 や他のベースラインより良好（例：EHRWorld-14B の全体保持率 92.6%）。”
因果的連続訓練は単なるパラメータスケーリングより長期的な頑健性に対して大きな利得を生み、EHRWorld-14B は列挙されたモデルの中で最良の総合 Avg スコア（0.765）を獲得。
EHRWorld-14B は次のステップおよび全軌跡の性能が強力で、臨床的に敏感なイベント全体で相対誤差を低く保ち高い臨床解釈性を示す。
高感度安定性分析では、EHRWorld-14B が急激な状態変化時の性能低下が一般的な LLM より小さいことを示す。
ケーススタディは、EHRWorld が動的臨床シナリオ全体で状態の一貫性と正確な軌跡予測を維持することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。