Skip to main content
QUICK REVIEW

[論文レビュー] Can Artificial Intelligence Reliably Report Chest X-Rays?: Radiologist Validation of an Algorithm trained on 2.3 Million X-Rays

Preetham Putha, Manoj Tadepalli|arXiv (Cornell University)|Jul 19, 2018
Radiomics and Machine Learning in Medical Imaging参考文献 37被引用数 32
ひとこと要約

本研究では、230万枚のラベル付きチ胸レントゲン画像を用いてトレーニングされたディープラーニングアルゴリズムを開発・検証し、9つの特定の異常を検出するとともに、正常と異常を区別する。このシステムは高い正確性を示し、異常対正常の検出ではAUCが0.92、個々の異常ではAUCが0.89〜0.98の範囲に達し、放射線科医が検証した環境でほぼ放射線科医並みの性能を示した。

ABSTRACT

Background: Chest X-rays are the most commonly performed, cost-effective diagnostic imaging tests ordered by physicians. A clinically validated AI system that can reliably separate normals from abnormals can be invaluble particularly in low-resource settings. The aim of this study was to develop and validate a deep learning system to detect various abnormalities seen on a chest X-ray. Methods: A deep learning system was trained on 2.3 million chest X-rays and their corresponding radiology reports to identify various abnormalities seen on a Chest X-ray. The system was tested against - 1. A three-radiologist majority on an independent, retrospectively collected set of 2000 X-rays(CQ2000) 2. Radiologist reports on a separate validation set of 100,000 scans(CQ100k). The primary accuracy measure was area under the ROC curve (AUC), estimated separately for each abnormality and for normal versus abnormal scans. Results: On the CQ2000 dataset, the deep learning system demonstrated an AUC of 0.92(CI 0.91-0.94) for detection of abnormal scans, and AUC(CI) of 0.96(0.94-0.98), 0.96(0.94-0.98), 0.95(0.87-1), 0.95(0.92-0.98), 0.93(0.90-0.96), 0.89(0.83-0.94), 0.91(0.87-0.96), 0.94(0.93-0.96), 0.98(0.97-1) for the detection of blunted costophrenic angle, cardiomegaly, cavity, consolidation, fibrosis, hilar enlargement, nodule, opacity and pleural effusion. The AUCs were similar on the larger CQ100k dataset except for detecting normals where the AUC was 0.86(0.85-0.86). Interpretation: Our study demonstrates that a deep learning algorithm trained on a large, well-labelled dataset can accurately detect multiple abnormalities on chest X-rays. As these systems improve in accuracy, applying deep learning to widen the reach of chest X-ray interpretation and improve reporting efficiency will add tremendous value in radiology workflows and public health screenings globally.

研究の動機と目的

  • 大規模かつ現実世界のデータを用いて、複数のチ胸レントゲン異常を信頼性高く検出できるディープラーニングシステムの開発を目的とする。
  • 2つの独立したデータセットを用いて、放射線科医のコンSENSUSおよび個別レポートと比較して、アルゴリズムの性能を検証することを目的とする。
  • AIを用いた自動プリミティブレポートの導入可能性を評価し、リソースが限られた環境でのレポート遅延の軽減とアクセス向上を実現することを目的とする。
  • 臨床歴に依存せずに特定の放射線学的所見を正確に検出できるかを評価し、グローバルな適用可能性を確保することを目的とする。
  • 放射線科レポートから抽出したNLPベースのラベルが、大規模なAIモデルのトレーニングにおける専門家アノテーションの代替として信頼できるものかどうかを検証することを目的とする。

提案手法

  • アルゴリズムは、45か国の施設から得られた230万枚の匿名化済み、後向きに収集されたチ胸レントゲン画像(PA、AP、仰臥位、側面撮影を含む)を用いてトレーニングされた。
  • 自然言語処理(NLP)パイプラインを用いて、放射線科レポートから異常所見のラベルを抽出し、9つの所見(肋横隔角の消失、心臓肥大、空洞、実質化、線維化、門脈巣部の肥大、結節、透明度低下、胸水)のトレーニングラベルを生成した。
  • 病変の特徴や空間パターンに応じて最適化するため、各異常に対して個別にディープラーニングモデルをトレーニングした。
  • 検証は2つのデータセットを用いた:CQ2000(3名の放射線科医による過半数投票をゴールドスタンダードとする2,000枚のX線)およびCQ100k(放射線科レポートをゴールドスタンダードとする10万枚のX線)。
  • 性能評価には受信器操作特性曲線下積分(AUC)を用い、各異常および全体分類について95%信頼区間を報告した。
  • 病変の局所化のため、ヒートマップおよびバウンディングボックスを生成したが、本研究では局所化の正確性は公式に検証されていない。

実験結果

リサーチクエスチョン

  • RQ1230万枚の現実世界のラベル付きチ胸レントゲン画像を用いてトレーニングされたディープラーニングモデルは、複数の一般的な異常を放射線科医並みの正確性で検出できるか?
  • RQ2独立した検証セット(2,000枚のX線)において、このAIシステムの性能は3名の放射線科医による過半数コンセンサスと比べてどの程度か?
  • RQ3NLPベースのラベリング手法は、現実世界の臨床用途に一般化可能な信頼性の高いトレーニングデータを生成できるか?
  • RQ4ラベルノイズや微細な所見が含まれる可能性があるにもかかわらず、より大規模で多様なデータセット(CQ100k)においても、このシステムは高い性能を維持できるか?
  • RQ5このようなAIシステムは、リソースが限られた環境やレポート遅延の深刻な状況において、放射線科の業務プロセスを効果的に支援できるか?

主な発見

  • CQ2000データセットにおいて、正常対異常の区別ではAUCが0.92(95%CI:0.91〜0.94)を達成した。
  • 個々の異常について、AUCは門脈巣部の肥大で0.89から胸水で0.98まで変動し、心臓肥大(0.96)や実質化(0.95)を含む全所見で高い性能を示した。
  • より大規模なCQ100kデータセットでは、正常対異常検出のAUCは0.86(95%CI:0.85〜0.86)であった。これは、微細な所見や臨床的有意義でない所見が含まれたため、わずかに性能が低下した可能性がある。
  • CQ2000とCQ100kの両方で、大多数の異常のAUCが類似しており、NLPによるラベリングプロセスに起因するバイアスが最小限であることが示された。
  • 本システムは、所見ごとに高い感度と特異度を示したが、CQ100kでは感度が低く、放射線科医が微細な所見をあまり報告しなかった可能性がある。
  • 本研究は、大規模なNLPアノテーション済みデータセットが、専門家に匹敵する診断正確性を持つAIモデルをトレーニングできる可能性を確認した。この結果は、スクリーニングや業務支援アプリケーションへの導入を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。