[논문 리뷰] EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories
EHRWorld는 개입 하에 환자 궤적의 안정적이고 장기 시뮬레이션을 가능하게 하는 대규모 EHR 파생 데이터셋(EHRWorld-110K)에서 학습된 인과적 연속 의료 세계 모델로, 단순 LLM 베이스라인보다 우수합니다.
World models offer a principled framework for simulating future states under interventions, but realizing such models in complex, high-stakes domains like medicine remains challenging. Recent large language models (LLMs) have achieved strong performance on static medical reasoning tasks, raising the question of whether they can function as dynamic medical world models capable of simulating disease progression and treatment outcomes over time. In this work, we show that LLMs only incorporating medical knowledge struggle to maintain consistent patient states under sequential interventions, leading to error accumulation in long-horizon clinical simulation. To address this limitation, we introduce EHRWorld, a patient-centric medical world model trained under a causal sequential paradigm, together with EHRWorld-110K, a large-scale longitudinal clinical dataset derived from real-world electronic health records. Extensive evaluations demonstrate that EHRWorld significantly outperforms naive LLM-based baselines, achieving more stable long-horizon simulation, improved modeling of clinically sensitive events, and favorable reasoning efficiency, highlighting the necessity of training on causally grounded, temporally evolving clinical data for reliable and robust medical world modeling.
연구 동기 및 목표
- 개입 하에서 장기 하이즌 환자 궤적을 시뮬레이션하기 위한 동적이고 인과적으로 근거 있는 의료 세계 모델의 필요성을 동기화한다.
- 실제 의료 기록으로부터 EHRWorld-110K라는 대규모의 고품질 종단 데이터셋을 수집하여 시간적 동역학과 중재 조건부 전이를 학습하기 위해 학습한다.
- 장기적인 지평선에서 일관된 환자 상태를 유지하기 위해 인과적 순차 패러다임으로 학습된 환자 중심 세계 모델 계열인 EHRWorld를 개발한다.
- EHRWorld가 오차 누적을 줄이고 임상적으로 민감한 이벤트 동안 안정성을 향상시키며 기준 LLM에 비해 추론 효율이 우수함을 입증한다.
제안 방법
- 환자 상태를 S_t = <τ_t, d, Y, H_t>로 형식화하며 Y에는 근거와 함께 주진단/부진단이 포함된다.
- 상호작용을 A_t 행동과 V_t 결과를 포함하는 집합 기반 조건 생성으로 모델링한다.
- 질의 행동은 관찰 가능한 값을 생성하고 개입 행동은 즉각적인 결과가 비어 있으며 기록을 업데이트하는 이중 모드 예측 메커니즘을 사용한다.
- 중재 조건부 상태 전이와 종단적 동역학을 학습하기 위한 인과 마스킹 목적어로 학습한다.
- MIMIC-IV에서 에피소드 수준의 정적 맥락과 시간적으로 정렬된 이벤트 시퀀스를 추출한 다음 필터링 및 분할을 거쳐 EHRWorld-110K를 구성한다.
실험 결과
연구 질문
- RQ1의료 지식을 갖춘 LLM이 장기 하이즌 임상 궤적을 위한 동적 의료 세계 모델로 작용할 수 있는가?
- RQ2인과적으로 근거를 둔 시간적으로 변화하는 임상 데이터(EHRWorld-110K)로의 학습이 장기 상태의 일관성을 향상시키고 오차 누적을 줄이는가?
- RQ3전체 궤적 예측과 연속 개입 하에서의 안정성에서 EHRWorld 모델은 순진한 LLM 베이스라인과 어떻게 비교되는가?
- RQ4EHRWorld 계열에서 모델 규모가 장기 임상 시뮬레이션 성능에 미치는 영향은 무엇인가?
- RQ5고감도 임상 전이와 급격한 생리적 변화에 대해 모델은 얼마나 강건한가?
주요 결과
| 모델 | 크기 | 수치 정밀도 (S@25) | 오차 (SMAPE) | 통계 F1 | 정밀도 | 재현율 | F1 | 평균 점수 |
|---|---|---|---|---|---|---|---|---|
| GPT-5.2 | - | 0.789 | 0.618 | 0.741 | 0.627 | 0.618 | 0.717 | 0.618 |
| Gemini-3.0-Pro-Preview | - | 0.681 | 0.299 | 0.565 | 0.481 | 0.473 | 0.477 | 0.574 |
| Qwen3-4B-Instruct | 4B | 0.703 | 0.448 | 0.473 | 0.450 | 0.328 | 0.469 | 0.607 |
| Qwen3-8B | 8B | 0.714 | 0.437 | 0.466 | 0.448 | 0.373 | 0.407 | 0.600 |
| Qwen2.5-14B-Instruct | 14B | 0.659 | 0.339 | 0.423 | 0.358 | 0.237 | 0.285 | 0.659 |
| Qwen3-30B-A3B-Instruct | 30B | 0.645 | 0.338 | 0.419 | 0.324 | 0.415 | 0.364 | 0.645 |
| Llama-3.3-70B-Instruct | 70B | 0.625 | 0.364 | 0.377 | 0.581 | 0.439 | 0.500 | 0.625 |
| Qwen3-Next-80B-A3B-Instruct | 80B | 0.630 | 0.381 | 0.416 | 0.416 | 0.471 | 0.442 | 0.630 |
| GPT-OSS-120B | 120B | 0.634 | 0.372 | 0.432 | 0.346 | 0.384 | 0.346 | 0.634 |
| MiniMax-M2.1 | 229B | 0.650 | 0.338 | 0.502 | 0.475 | 0.486 | 0.480 | 0.650 |
| Qwen3-235B-A22B-Instruct | 235B | 0.647 | 0.339 | 0.469 | 0.483 | 0.343 | 0.402 | 0.647 |
| GLM-4.7 | 358B | 0.663 | 0.322 | 0.476 | 0.381 | 0.254 | 0.305 | 0.663 |
| DeepSeek-V3.2 | 671B | 0.649 | 0.340 | 0.554 | 0.509 | 0.402 | 0.449 | 0.649 |
| MedGemma-4B-IT | 4B | 0.554 | 0.561 | 0.438 | 0.412 | 0.142 | 0.211 | 0.554 |
| MedGemma-27B-IT | 27B | 0.588 | 0.496 | 0.436 | 0.259 | 0.205 | 0.229 | 0.588 |
| Baichuan-M2-32B | 32B | 0.601 | 0.418 | 0.499 | 0.456 | 0.386 | 0.418 | 0.601 |
| EHRWorld-4B | 4B | 0.703 | 0.274 | 0.649 | 0.939 | 0.886 | 0.912 | 0.755 |
| EHRWorld-8B | 8B | 0.714 | 0.269 | 0.658 | 0.936 | 0.891 | 0.913 | 0.762 |
| EHRWorld-14B | 14B | 0.716 | 0.262 | 0.667 | 0.925 | 0.901 | 0.913 | 0.765 |
- EHRWorld는 장기 하이즌 임상 궤적 시뮬레이션에서 순진한 LLM 베이스라인을 능가하며 오차 누적을 줄인다.
- EHRWorld는 전체 궤적 생성에서 GPT-5.2 및 다른 베이스라인보다 높은 유지력(안정성)을 달성하며, 예를 들어 EHRWorld-14B의 전체 유지율은 92.6%이다.
- 인과적 순차 학습은 단순 매개변수 스케일링보다 장기 하이즌 강건성에 더 큰 이득을 주며, EHRWorld-14B가 나열된 모델들 중 최고 전체 Avg 점수(0.765)를 달성한다.
- EHRWorld-14B는 강력한 다음 단계 및 전체 궤적 성능을 제공하며 임상적으로 민감한 이벤트에서 상대 오차를 낮고 임상적 해석 가능성을 높게 유지한다.
- 고감도 안정성 분석은 EHRWorld-14B가 급격한 상태 변화에서 일반 LLM에 비해 성능 저하가 작음을 보인다.
- 사례 연구는 EHRWorld가 동적인 임상 상황에서도 상태 일관성과 정확한 궤적 예측을 유지함을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.