Skip to main content
QUICK REVIEW

[論文レビュー] CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison

Jeremy Irvin, Pranav Rajpurkar|arXiv (Cornell University)|Jan 21, 2019
COVID-19 diagnosis using AI被引用数 28
ひとこと要約

CheXpertは、14種の一般的な病理状態について不確実性ラベルが付与された224,316件の胸部レントゲン画像からなる大規模なデータセットを提供し、深層学習モデルの堅牢な評価を可能にする。本研究では、不確実性を考慮した損失関数を用いて訓練されたモデルが、コンSENSUS検証済みテストセットにおいて心臓肥大、肺水腫、胸水の検出において3名の放射線科医を上回ることを示している。

ABSTRACT

Large, labeled datasets have driven deep learning methods to achieve expert-level performance on a variety of medical imaging tasks. We present CheXpert, a large dataset that contains 224,316 chest radiographs of 65,240 patients. We design a labeler to automatically detect the presence of 14 observations in radiology reports, capturing uncertainties inherent in radiograph interpretation. We investigate different approaches to using the uncertainty labels for training convolutional neural networks that output the probability of these observations given the available frontal and lateral radiographs. On a validation set of 200 chest radiographic studies which were manually annotated by 3 board-certified radiologists, we find that different uncertainty approaches are useful for different pathologies. We then evaluate our best model on a test set composed of 500 chest radiographic studies annotated by a consensus of 5 board-certified radiologists, and compare the performance of our model to that of 3 additional radiologists in the detection of 5 selected pathologies. On Cardiomegaly, Edema, and Pleural Effusion, the model ROC and PR curves lie above all 3 radiologist operating points. We release the dataset to the public as a standard benchmark to evaluate performance of chest radiograph interpretation models. The dataset is freely available at https://stanfordmlgroup.github.io/competitions/chexpert .

研究の動機と目的

  • 14種の一般的な病理状態について不確実性ラベルが付与された、大規模で公開可能な胸部レントゲン画像データセットの開発。
  • 不確実性ラベルを深層学習モデルに効果的に統合する方法の調査。
  • 複数名の board-certified 放射線科医によるコンセンサスによるラベルを用いた強固な基準基準の確立。
  • 深層学習モデルの性能を臨床的に有意義な病理状態において人間の放射線科医と比較すること。
  • 研究の促進を目的として、データセットをベンチマークとして公開すること。

提案手法

  • 自動化されたルールベースのラベル抽出ツールが、自由記述型レントゲン報告書から所見と不確実性を抽出するため、照合抽出、分類、否定検出を用いる。
  • データセットには、65,240名の患者から得られた224,316枚の前後方向および側面投影像が含まれており、14の病理状態について陽性、陰性、または不確実性のラベルが付与されている。
  • 交差エントロピー損失に不確実性重み付けを適用し、確率出力をキャリブレーションする手法を用いて、不確実性対応トレーニング戦略を評価する。
  • 畳み込みニューラルネットワーク(CNN)を用いて、多視点レントゲン画像から各病理状態の発生確率を予測する。
  • モデルの性能は、3名の放射線科医がラベル付けした200件のセットで検証され、5名の放射線科医によるコンセンサスが得られた500件のセットでテストされた。
  • Grad-CAMの可視化を用いて、予測に最も寄与する画像領域を特定し、モデルの注目領域を解釈する。

実験結果

リサーチクエスチョン

  • RQ1レントゲン報告書における不確実性を、胸部レントゲン画像解釈の深層学習トレーニングに効果的にモデル化・統合する方法は何か?
  • RQ2不確実性ラベルが付与されたデータで訓練された深層学習モデルは、重要な病理状態において人間の放射線科医を上回る性能を示すか?
  • RQ3異なる不確実性対応損失関数は、多様な病理状態においてモデル性能にどのように影響を与えるか?
  • RQ4心臓肥大や胸水などの臨床的に重要な病理状態において、モデルが個々の放射線科医を上回る性能を達成できるか?
  • RQ5不確実性ラベルは、強固な基準基準においてモデルのキャリブレーションと一般化性能をどの程度向上させるか?

主な発見

  • 5名の放射線科医によるコンセンサスが得られたテストセットにおいて、モデルは心臓肥大、肺水腫、胸水の検出において、少なくとも3名の放射線科医のうち2名を上回った。
  • 胸水ではAUCが0.97、不張塞栓では0.85を達成し、他のすべての病理状態はAUC ≥ 0.9を達成した。
  • 胸水の検出において、モデルのROCおよびPR曲線は、3名の放射線科医のすべての作業点よりも上方に位置した。
  • 肺実質化においては、モデルは3名の放射線科医のうち2名を上回ったが、不張塞栓では3名の放射線科医全員がモデルを上回った。
  • モデルのスケーリング済みブライアスコアは、キャリブレーション前の0.110からプラットスケーリング後の0.101に改善され、確率のキャリブレーションが向上したことが示された。
  • Grad-CAMの可視化により、モデルが各病理状態に関連する解剖学的領域に適切に注目していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。