Skip to main content
QUICK REVIEW

[论文解读] RadFusion: Benchmarking Performance and Fairness for Multimodal Pulmonary Embolism Detection from CT and EHR

Yuyin Zhou, Shih-Cheng Huang|arXiv (Cornell University)|Nov 23, 2021
Venous Thromboembolism Diagnosis and Management参考文献 49被引用 24
一句话总结

RadFusion 引入了一个大规模、公开可用的多模态数据集,结合了1,837例高分辨率CT扫描和相应的电子健康记录(EHR)数据,用于肺栓塞检测。通过基准测试仅影像、仅EHR以及多模态融合模型,研究证明融合显著提升了分类性能和鲁棒性,同时最小化了公平性差异,各人口群体之间的真正例率(TPR)差距始终低于6%。

ABSTRACT

Despite the routine use of electronic health record (EHR) data by radiologists to contextualize clinical history and inform image interpretation, the majority of deep learning architectures for medical imaging are unimodal, i.e., they only learn features from pixel-level information. Recent research revealing how race can be recovered from pixel data alone highlights the potential for serious biases in models which fail to account for demographics and other key patient attributes. Yet the lack of imaging datasets which capture clinical context, inclusive of demographics and longitudinal medical history, has left multimodal medical imaging underexplored. To better assess these challenges, we present RadFusion, a multimodal, benchmark dataset of 1794 patients with corresponding EHR data and high-resolution computed tomography (CT) scans labeled for pulmonary embolism. We evaluate several representative multimodal fusion models and benchmark their fairness properties across protected subgroups, e.g., gender, race/ethnicity, age. Our results suggest that integrating imaging and EHR data can improve classification performance and robustness without introducing large disparities in the true positive rate between population groups.

研究动机与目标

  • 为解决缺乏整合临床背景(包括人口统计学信息和纵向EHR数据)的多模态医学影像数据集的问题。
  • 评估使用CT和EHR数据检测肺栓塞时,多模态融合模型的性能与公平性。
  • 探究整合EHR与影像数据是否能减少偏差,并提升在种族、性别和年龄等受保护子群体中的鲁棒性。
  • 发布RadFusion,这是首个将3D医学影像与大规模EHR摘要相结合的公开数据集,用于临床研究。

提出的方法

  • RadFusion数据集从108,991项研究的队列中构建,通过分层随机抽样和严格的质量控制,筛选出1,837例高质量CT研究。
  • 真实标签由两名获得认证的放射科医生整理,并由一名资深放射科医生验证,以确保诊断准确性。
  • 评估了三种模型架构:仅影像(3D CNN)、仅EHR(表格型深度学习)以及多模态融合(早期和晚期融合策略),使用六项评估指标。
  • 公平性通过机会均等性(EOD)进行量化,衡量受保护子群体间真正例率(TPR)的差异。
  • 研究进行了消融实验,以评估各模态的贡献,并在完整测试集和仅非亚段型肺栓塞病例上评估了性能。
  • 统计分析聚焦于TPR差异(EOD),以评估在性别、种族和年龄群体中的公平性。

实验结果

研究问题

  • RQ1与单模态模型相比,CT和EHR数据的多模态融合是否能提升肺栓塞检测的性能?
  • RQ2整合EHR数据是否能减少在受保护人口群体(如种族、性别和年龄)中模型性能的公平性差异?
  • RQ3在种族、性别和年龄子群体中,仅影像模型与仅EHR模型在TPR差异方面有何对比?
  • RQ4多模态融合在非仅亚段型肺栓塞病例上,能在多大程度上保持鲁棒性和公平性?

主要发现

  • 多模态融合模型在所有六项评估指标上均一致优于仅影像和仅EHR模型。
  • 仅影像模型在不同种族群体间的TPR差距最高达15.8%,在不同性别间达11.6%,表明存在显著的公平性差异。
  • 仅EHR模型在性别间的TPR差距为11.6%,在种族间的差距为0.9%,凸显了强烈的基于性别的不公平性。
  • 多模态融合模型实现了最低的公平性差异,其在测试集上性别群体间的最大TPR差距仅为5.9%。
  • 在非仅亚段型肺栓塞病例中,多模态模型仍保持较低的公平性差距,种族间的最大TPR差距为1.7%,性别间的最大差距为0.8%。
  • 与单模态基线相比,多模态融合模型在所有人口子群体中均减少了TPR差异,表明其具备更高的鲁棒性和公平性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。