QUICK REVIEW

[論文レビュー] RadFusion: Benchmarking Performance and Fairness for Multimodal Pulmonary Embolism Detection from CT and EHR

Yuyin Zhou, Shih-Cheng Huang|arXiv (Cornell University)|Nov 23, 2021

Venous Thromboembolism Diagnosis and Management参考文献 49被引用数 24

ひとこと要約

RadFusionは、肺塞栓症の検出を目的とした大規模で公開可能なマルチモーダルデータセットを提供する。このデータセットには、1,837例の高分解能CTスキャンとそれに対応するEHRデータが統合されている。画像のみ、EHRのみ、マルチモーダル統合の3つのモデルをベンチマーク化した結果、統合モデルが分類性能と耐性を著しく向上させるとともに、公平性の格差を最小限に抑えることが示された。特に、人種、性別、年齢などのデモグラフィックグループ間での真正陽性率の差は、常に6%未満に抑えられた。

ABSTRACT

Despite the routine use of electronic health record (EHR) data by radiologists to contextualize clinical history and inform image interpretation, the majority of deep learning architectures for medical imaging are unimodal, i.e., they only learn features from pixel-level information. Recent research revealing how race can be recovered from pixel data alone highlights the potential for serious biases in models which fail to account for demographics and other key patient attributes. Yet the lack of imaging datasets which capture clinical context, inclusive of demographics and longitudinal medical history, has left multimodal medical imaging underexplored. To better assess these challenges, we present RadFusion, a multimodal, benchmark dataset of 1794 patients with corresponding EHR data and high-resolution computed tomography (CT) scans labeled for pulmonary embolism. We evaluate several representative multimodal fusion models and benchmark their fairness properties across protected subgroups, e.g., gender, race/ethnicity, age. Our results suggest that integrating imaging and EHR data can improve classification performance and robustness without introducing large disparities in the true positive rate between population groups.

研究の動機と目的

臨床的文脈（年齢、性別、縦断的EHRデータなど）を統合したマルチモーダル医療画像データセットが不足している問題に対処すること。
CTおよびEHRデータを用いた肺塞栓症検出におけるマルチモーダル統合モデルの性能と公平性を評価すること。
EHRと画像データを統合することで、人種、性別、年齢などの保護されるサブグループにおけるバイアスが低減され、耐性が向上するかを調査すること。
3D医療画像と大規模なEHR要約を統合した、公開初のデータセットであるRadFusionをリリースすること。

提案手法

RadFusionデータセットは、108,991件の研究から構築され、層別抽出と厳密な品質管理を経て1,837件の高品質なCT研究が選別された。
正例ラベルは2名の board-certified radiologists が作成し、上級放射線科医による確認を経て、診断の正確性を保証した。
3種類のモデルアーキテクチャを評価した：画像のみ（3D CNN）、EHRのみ（テーブル型ディープラーニング）、マルチモーダル統合（早期統合および遅延統合戦略）で、6つの評価指標を用いた。
公平性は、機会の平等（EOD）を用いて測定され、保護されるサブグループ間での真正陽性率（TPR）の差を評価した。
各モodalの寄与度を評価するためのアブレーションスタディを実施し、全テストセットおよび非亜節動脈性肺塞栓症（non-subsegmental-only PE）症例における性能も評価した。
統計的分析は、性別、人種、年齢グループごとのTPR格差（EOD）に焦点を当て、公平性を評価した。

実験結果

リサーチクエスチョン

RQ1CTとEHRデータのマルチモーダル統合は、単一モーダルモデルに比べて肺塞栓症検出の性能を向上させるか？
RQ2EHRデータの統合により、性別、人種、年齢などの保護されるデモグラフィックグループにおけるモデル性能の公平性格差が低減されるか？
RQ3画像のみおよびEHRのみのモデルは、人種、性別、年齢サブグループにおけるTPR格差でどのように比較されるか？
RQ4非亜節動脈性肺塞栓症症例において、マルチモーダル統合モデルは、どれほど耐性と公平性を維持するか？

主な発見

マルチモーダル統合モデルは、全6評価指標において、画像のみおよびEHRのみのモデルを上回る一貫した性能向上を達成した。
画像のみのモデルは、人種グループ間で最大15.8%、性別グループ間で最大11.6%のTPR格差を示し、顕著な公平性の格差が確認された。
EHRのみのモデルは、性別で11.6%、人種で0.9%のTPR格差を示し、性別に基づく顕著な格差が確認された。
マルチモーダル統合モデルは、最も低い公平性格差を達成し、テストセットにおける性別グループ間の最大TPR格差はわずか5.9%であった。
非亜節動脈性肺塞栓症症例では、マルチモーダルモデルが低格差を維持し、人種で最大1.7%、性別で最大0.8%のTPR格差を示した。
マルチモーダル統合モデルは、単一モーダルベースラインと比較して、すべてのデモグラフィックサブグループにおけるTPR格差を低減した。これは、耐性と公平性の向上を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。