QUICK REVIEW

[논문 리뷰] RadFusion: Benchmarking Performance and Fairness for Multimodal Pulmonary Embolism Detection from CT and EHR

Yuyin Zhou, Shih-Cheng Huang|arXiv (Cornell University)|2021. 11. 23.

Venous Thromboembolism Diagnosis and Management참고 문헌 49인용 수 24

한 줄 요약

RadFusion는 폐색전증 검출을 위한 대규모 공개 다중모달 데이터셋을 소개한다. 이 데이터셋은 1,837개의 고해상도 CT 영상과 해당되는 EHR 데이터를 결합한 것으로, 영상 중심, EHR 중심, 다중모달 융합 모델을 기준으로 평가한 결과, 융합 모델이 분류 성능과 내구성에서 뛰어난 성능을 보이며, 공정성 편차를 최소화함을 입증했다. 인구집단 간 진단 성능 차이(정확도)는 항상 6% 이하로 유지되었다.

ABSTRACT

Despite the routine use of electronic health record (EHR) data by radiologists to contextualize clinical history and inform image interpretation, the majority of deep learning architectures for medical imaging are unimodal, i.e., they only learn features from pixel-level information. Recent research revealing how race can be recovered from pixel data alone highlights the potential for serious biases in models which fail to account for demographics and other key patient attributes. Yet the lack of imaging datasets which capture clinical context, inclusive of demographics and longitudinal medical history, has left multimodal medical imaging underexplored. To better assess these challenges, we present RadFusion, a multimodal, benchmark dataset of 1794 patients with corresponding EHR data and high-resolution computed tomography (CT) scans labeled for pulmonary embolism. We evaluate several representative multimodal fusion models and benchmark their fairness properties across protected subgroups, e.g., gender, race/ethnicity, age. Our results suggest that integrating imaging and EHR data can improve classification performance and robustness without introducing large disparities in the true positive rate between population groups.

연구 동기 및 목표

임상적 배경(인구통계학적 정보 및 종합적인 EHR 데이터 포함)을 통합한 다중모달 의료 영상 데이터셋의 부족 문제를 해결하기 위해.
CT 및 EHR 데이터를 활용한 폐색전증 검출에서 다중모달 융합 모델의 성능과 공정성 평가하기 위해.
EHR 및 영상 데이터 융합이 인종, 성별, 연령 등 보호받는 하위군에서의 편향을 줄이고 내구성을 향상시키는지 조사하기 위해.
3D 의료 영상과 대규모 EHR 요약을 결합한 첫 번째 공개 데이터셋인 RadFusion를 제공하기 위해.

제안 방법

RadFusion 데이터셋은 108,991건의 영상 코hort에서 유의미한 CT 영상 1,837건을 계층적 랜덤 샘플링 및 철저한 품질 관리 절차를 통해 선별하여 구축하였다.
기준 진단 레이블은 두 명의 자격을 갖춘 방사선과 전문의가 수집하였고, 정확도를 확보하기 위해 고위 방사선과 전문의가 최종 검토하였다.
세 가지 모델 아키텍처를 평가하였으며, 영상 중심(3D CNN), EHR 중심(표본 기반 딥러닝), 다중모달 융합(조기 및 만기 융합 전략)을 사용하고, 여섯 가지 평가 지표를 적용하였다.
공정성은 기회의 평등성(EOD)을 사용하여 측정하였으며, 보호받는 하위군 간 진단 성능(정확도)의 차이를 분석하였다.
각 모odal의 기여도를 평가하기 위해 아블레이션 연구를 수행하였고, 전체 테스트 세트 및 비하위세그먼탈만의 폐색전증 케이스에서의 성능도 평가하였다.
통계 분석은 주로 성별, 인종, 연령 집단 간 정확도 편차(EOD)를 중심으로 공정성 평가에 집중하였다.

실험 결과

연구 질문

RQ1CT 및 EHR 데이터의 다중모달 융합은 영상 중심 또는 EHR 중심 모델 대비 폐색전증 검출 성능 향상에 기여하는가?
RQ2EHR 데이터 통합이 성별, 인종, 연령 등 보호받는 인구집단 간 모델 성능의 공정성 편차를 줄이는가?
RQ3영상 중심 및 EHR 중심 모델은 인종, 성별, 연령 하위군에서 정확도 편차가 어떻게 다른가?
RQ4비하위세그먼탈만의 폐색전증 케이스에서 다중모달 융합 모델은 얼마나 높은 내구성과 공정성을 유지하는가?

주요 결과

다중모달 융합 모델은 여섯 가지 평가 지표 전반에서 영상 중심 및 EHR 중심 모델 대비 일관된 성능 향상을 보였다.
영상 중심 모델은 인종 집단 간 최대 15.8%의 정확도 편차를 보였고, 성별 간에는 11.6%의 편차를 보여, 심각한 공정성 편차를 확인하였다.
EHR 중심 모델은 성별 간 정확도 편차가 11.6%로 높았고, 인종 간에는 0.9%로 미미한 편차를 보여, 성별 기반 편차가 두드러졌다.
다중모달 융합 모델은 가장 낮은 공정성 편차를 기록하였으며, 테스트 세트에서 성별 간 최대 정확도 편차가 5.9%로 낮게 유지되었다.
비하위세그먼탈만의 폐색전증 케이스에서는 다중모달 모델이 낮은 공정성 편차를 유지하였고, 인종 간 최대 정확도 편차 1.7%, 성별 간 0.8%로 나타났다.
다중모달 융합 모델은 단일모달 기반 모델 대비 모든 인구집단 하위군에서 정확도 편차를 감소시켜, 더 높은 내구성과 공정성을 확보하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.