[论文解读] LLM Augmented Intervenable Multimodal Adaptor for Post-operative Complication Prediction in Lung Cancer Surgery
MIRACLE 将术前临床数据、CT 放射组学和 LLM 生成的解释整合在一个可干预的多模态模型中,以预测肺癌手术的术后并发症,性能优于基线并实现临床医生互动。
Postoperative complications remain a critical concern in clinical practice, adversely affecting patient outcomes and contributing to rising healthcare costs. We present MIRACLE, a deep learning architecture for prediction of risk of postoperative complications in lung cancer surgery by integrating preoperative clinical and radiological data. MIRACLE employs a hyperspherical embedding space fusion of heterogeneous inputs, enabling the extraction of robust, discriminative features from both structured clinical records and high-dimensional radiological images. To enhance transparency of prediction and clinical utility, we incorporate an interventional deep learning module in MIRACLE, that not only refines predictions but also provides interpretable and actionable insights, allowing domain experts to interactively adjust recommendations based on clinical expertise. We validate our approach on POC-L, a real-world dataset comprising 3,094 lung cancer patients who underwent surgery at Roswell Park Comprehensive Cancer Center. Our results demonstrate that MIRACLE outperforms various traditional machine learning models and contemporary large language models (LLM) variants alone, for personalized and explainable postoperative risk management.
研究动机与目标
- 通过实现个体化风险评估来应对肺癌手术中的高术后并发症发生率。
- 将结构化临床数据与放射组学成像生物标志物整合以提升预测性能。
- 结合基于语言的解释,基于领域知识确保透明性与临床干预。
- 使用 Roswell Park Comprehensive Cancer Center 的 POC-L 数据集提供一个在真实世界中的验证框架。
提出的方法
- 对临床(c)和放射学(r)特征使用两个贝叶斯 MLP 编 encoders 生成 d 维嵌入。
- 用临床摘要 S、领域知识库 K 与提示 P 生成基于 LLM 的备注 M,且冻结文本编码器 f_m 将 M 进行嵌入。
- 通过加权和融合嵌入 E_c、E_r、E_m 得到 E,再经贝叶斯 MLP 分类器预测并发症概率 ŷ。
- 使用 focal loss 处理类别不平衡并对预测不确定性进行校准。
- 提供临床干预路径,生成的备注 M 可由临床医生编辑、重新嵌入并重新注入以实时更新 ŷ。
实验结果
研究问题
- RQ1多模态融合临床数据、放射组学与 LLM 生成解释是否能提升肺癌手术的术后并发症预测?
- RQ2允许临床医生干预对 LLM 生成解释是否能提升预测性能和临床实用性?
- RQ3在此任务中放射组学特征相较单独的临床特征的增值有哪些?
- RQ4将不同开源 LLM 集成到 MIRACLE 中,在预测性能与解释质量方面的比较?
- RQ5MIRACLE 框架在训练数据集(POC-L)之外对不平衡真实世界数据是否具有普适性?
主要发现
| Model | AUC (%) | TPR(%) @ FPR = 0.2 | TPR(%) @ FPR = 0.3 |
|---|---|---|---|
| Llama 3.3 70B-Instruct | 69.68 | 41.12 | 74.77 |
| DeepSeek R1-Distill Qwen-32B | 64.49 | 54.21 | 56.07 |
| OpenBioLLM-70B | 71.01 | 52.34 | 60.75 |
| Multivariate logistic regression | 80.89 | 73.83 | 80.37 |
| Random Forest Classifier | 77.00 | 62.62 | 74.76 |
| XGBoost | 75.17 | 53.27 | 64.48 |
| Gradient Boosting Classifier | 78.53 | 65.42 | 67.29 |
| LightGBM | 74.77 | 46.73 | 69.16 |
| Surgeons | – | 44.86 | – |
| MIRACLE (DeepSeek R1 distill) | 80.94 | 73.83 | 81.31 |
| MIRACLE (Llama 3.3 70B-Instruct) | 80.84 | 71.03 | 81.31 |
| MIRACLE (OpenBioLLM-70B) | 81.04 | 71.96 | 81.31 |
- MIRACLE 在 AUC 上超越基线,其中 OpenBioLLM-70B 达到 81.04%,DeepSeek R1–Distill Qwen-32B 达到 80.94%(AUC)。
- 在固定假阳性率 FPR=0.3 时,MIRACLE 在各变体中达到最高的真阳性率 TPR,为 81.31%。
- 在 FPR=0.2 时,MIRACLE 搭配 DeepSeek R1–Distill 的 TPR 与最佳经典基线的 73.83% 相当。
- 消融实验显示临床特征加放射学特征可将 AUC 提升至 78.64%,而三者(临床、放射学、LLM 备注)共同实现 80.94% 的 AUC。
- 人工外科医生在 FPR=0.2 时达到 44.86% 的 TPR,凸显 MIRACLE 的性能优势。
- 放射组学显著提升判别力和灵敏度,验证影像生物标志物在风险分层中的价值。
- 解释通道使临床医生可以编辑、影响风险预测,支持交互式决策支持工作流。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。