[論文レビュー] High-Resolution Breast Cancer Screening with Multi-View Deep Convolutional Neural Networks
著者らは、4つの高解像度マンモグラフィ視野を処理してBI-RADSカテゴリを予測するマルチビュー深層畳み込みネットワーク(MV-DCN)を開発し、データサイズと解像度の重要性と読影者スタディの性能における競争力を示している。
Advances in deep learning for natural images have prompted a surge of interest in applying similar techniques to medical images. The majority of the initial attempts focused on replacing the input of a deep convolutional neural network with a medical image, which does not take into consideration the fundamental differences between these two types of images. Specifically, fine details are necessary for detection in medical images, unlike in natural images where coarse structures matter most. This difference makes it inadequate to use the existing network architectures developed for natural images, because they work on heavily downscaled images to reduce the memory requirements. This hides details necessary to make accurate predictions. Additionally, a single exam in medical imaging often comes with a set of views which must be fused in order to reach a correct conclusion. In our work, we propose to use a multi-view deep convolutional neural network that handles a set of high-resolution medical images. We evaluate it on large-scale mammography-based breast cancer screening (BI-RADS prediction) using 886,000 images. We focus on investigating the impact of the training set size and image size on the prediction accuracy. Our results highlight that performance increases with the size of training set, and that the best performance can only be achieved using the original resolution. In the reader study, performed on a random subset of the test set, we confirmed the efficacy of our model, which achieved performance comparable to a committee of radiologists when presented with the same data.
研究の動機と目的
- 深層学習をダウンスケーリングせずに高解像度のマルチビューマンモグラフィに適用する方法を調査する。
- BI-RADS予測性能に対する訓練データサイズの影響を評価する。
- 入力画像解像度がモデル精度に与える影響を評価する。
- モデルの決定を可視化し、リーダー Studie における放射線科医の性能と比較する。
提案手法
- L-CC、R-CC、L-MLO、R-MLO の4視点専用列を持つMV-DCNを開発し、視点表現を結合して最終分類を行う。
- 各視点を専用の畳み込み-プーリングスタックで処理し、結合前にグローバル平均プーリングを適用する。
- 左/右視点ペア間で重みを共有し、データ拡張、入力ノイズ、ドロップアウトを用いてエンドツーエンドで訓練する;大規模な高解像度入力(2600x2000)上でAdamを用いて最適化する。
- 高解像度入力を現実的に保つために初期層で積極的なダウンサンプリングを用い、結合前に最終的な特徴マップを平均化して次元を削減する。
実験結果
リサーチクエスチョン
- RQ1高解像度の入力を維持することは、ダウンスケールされたアプローチと比べてBI-RADS予測を改善するか?
- RQ2訓練データの規模はMV-DCNのBI-RADS分類性能にどのような影響を与えるか?
- RQ3BI-RADSカテゴリの予測精度に対する入力解像度の影響は何か?
- RQ4MV-DCNの性能は放射線科医や放射線科医とMV-DCNのアンサンブルと比較してどうか?
- RQ5予測の信頼度(予測エントロピー)を高精度予測のサブセットを識別するのに用いることはできるか?
主な発見
- 訓練データが増えると性能が向上する(macAUCは訓練サイズが1%から100%へと増えるにつれて上昇する)。
- 入力をダウンスケールすると性能が低下する:全解像度の入力が最良の結果をもたらす(例:スケールされた入力よりも全入力で高いmacAUC)。
- より高い信頼度の予測(エントロピーが低い)は精度と相関し、ハイコンフィデンスのサブセットでHC-macAUCがmacAUCを上回る。
- リーダー stud では、放射線科医のmacAUCは0.704、MV-DCNは0.688、放射線科医とMV-DCNのアンサンブルは0.735を達成した。
- 4視点入力を用いたMV-DCNは、同一データ上で委員会レベルの放射線科医の性能とBI-RADS予測を同等に再現できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。