[论文解读] Improving Hospital Mortality Prediction with Medical Named Entities and Multimodal Learning
该论文提出一个多模态模型,将结构化 ICU 数据与来自临床病历笔记及医学命名实体的文本表示相结合,在住院患者死亡率预测方面优于结构化数据基线。
Clinical text provides essential information to estimate the acuity of a patient during hospital stays in addition to structured clinical data. In this study, we explore how clinical text can complement a clinical predictive learning task. We leverage an internal medical natural language processing service to perform named entity extraction and negation detection on clinical notes and compose selected entities into a new text corpus to train document representations. We then propose a multimodal neural network to jointly train time series signals and unstructured clinical text representations to predict the in-hospital mortality risk for ICU patients. Our model outperforms the benchmark by 2% AUC.
研究动机与目标
- 动机:利用非结构化的临床笔记来提升死亡风险预测。
- 利用内部的医学命名实体识别(NER)服务从笔记中提取实体及否定信息。
- 创建两种文本表示(NoteEmb 和 EntityEmb),并将它们与时间序列数据整合。
- 在 MIMIC-III 基准上评估多模态架构相对于基线 LSTM 的性能。
- 量化归因于临床笔记和实体的性能提升。
提出的方法
- 使用 Doc2VecC 从每日聚合笔记生成嵌入(NoteEmb)。
- 使用神经网络 NER 服务提取医学实体和否定,生成 EntityEmb。
- 比较两种架构:对结构化数据(Vital)的基线 LSTM,以及将文本嵌入与时间序列信号融合的多模态模型。
- 在 MIMIC-III 的 42,276 个 ICU 住院样本上进行训练和评估,采用 70/15/15 的训练/验证/测试分割。
- 复现 Harutyunyan 等人的基准设置,以实现可重复性和可比性。
实验结果
研究问题
- RQ1每日聚合的临床笔记是否在结构化数据基础上提升死亡预测?
- RQ2来自医学命名实体的嵌入是否相较于原始笔记嵌入提供额外的预测价值?
- RQ3在相同数据模态下,多模态架构是否优于纯 LSTM?
- RQ4NoteEmb 与 EntityEmb 对 AU-ROC 与 AU-PRC 指标的定量影响是多少?
主要发现
| 模型 | 特征集 | 神经网络结构 | AU-ROC (%) | AU-PRC (%) |
|---|---|---|---|---|
| Vital | (Benchmark) | LSTM | 0.8531 ±0.0020 | 0.5030 ±0.0051 |
| Vital + NoteEmb | Vital + NoteEmb | LSTM | 0.8496 ±0.0018 | 0.5040 ±0.0050 |
| Vital + NoteEmb | Vital + NoteEmb | Multi-modal | 0.8669 ±0.0018 | 0.5310 ±0.0051 |
| Vital + EntityEmb | Vital + EntityEmb | LSTM | 0.8703 ±0.0017 | 0.5470 ±0.0048 |
| Vital + EntityEmb | Vital + EntityEmb | Multi-modal | 0.8734 ±0.0019 | 0.5290 ±0.0056 |
- 带 NoteEmb 的多模态模型将 AU-ROC 提升至 0.8669(Vital+NoteEmb,Multi-modal),相比 0.8531(Vital 基线,LSTM)。
- 带 EntityEmb 的多模态模型实现 AU-ROC 为 0.8734(Vital+EntityEmb,Multi-modal)对比 0.8703(Vital+EntityEmb,LSTM)。
- NoteEmb 与 LSTM 的 AU-ROC 为 0.8496,AU-PRC 为 0.5040;EntityEmb 与 LSTM 的 AU-ROC 为 0.8703,AU-PRC 为 0.5470。
- 总体而言,来自医学实体的嵌入在 AU-ROC 上始终优于分词笔记嵌入。
- 在各特征集上,多模态架构相对于纯 LSTM 基线表现更优。
- 这些改进在相同数据处理流程下可直接与已发表的基准进行比较。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。