QUICK REVIEW

[論文レビュー] MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs

Pranav Rajpurkar, Jeremy Irvin|arXiv (Cornell University)|Dec 11, 2017

Radiomics and Machine Learning in Medical Imaging参考文献 17被引用数 248

ひとこと要約

MURAは大規模な上肢X線データセット（40,561枚の画像、14,863件の研究）を正常/異常にラベル付けし、DenseNet-169ベースラインを訓練して異常を検出し、放射線科医と比較する。AUROC 0.929; 全体のモデル性能は最高の放射線科医には及ばないが、いくつかの研究タイプでは同等。

ABSTRACT

We introduce MURA, a large dataset of musculoskeletal radiographs containing 40,561 images from 14,863 studies, where each study is manually labeled by radiologists as either normal or abnormal. To evaluate models robustly and to get an estimate of radiologist performance, we collect additional labels from six board-certified Stanford radiologists on the test set, consisting of 207 musculoskeletal studies. On this test set, the majority vote of a group of three radiologists serves as gold standard. We train a 169-layer DenseNet baseline model to detect and localize abnormalities. Our model achieves an AUROC of 0.929, with an operating point of 0.815 sensitivity and 0.887 specificity. We compare our model and radiologists on the Cohen's kappa statistic, which expresses the agreement of our model and of each radiologist with the gold standard. Model performance is comparable to the best radiologist performance in detecting abnormalities on finger and wrist studies. However, model performance is lower than best radiologist performance in detecting abnormalities on elbow, forearm, hand, humerus, and shoulder studies. We believe that the task is a good challenge for future research. To encourage advances, we have made our dataset freely available at https://stanfordmlgroup.github.io/competitions/mura .

研究の動機と目的

上肢の研究について、正常または異常とラベル付けされた大規模で公開可能な musculoskeletal radiograph データセットを提供する。
複数の研究タイプにわたり異常を検出する深層学習ベースラインモデルを開発・評価する。
頑健な指標と評価者間一致度を用いてモデルの性能を放射線科医の性能と比較する。
局在化/解釈の洞察（CAMs）を提供し、さらなる研究を促進するためにデータを公開する。

提案手法

研究内の各画像の異常を予測するために169層DenseNetを使用する。
各画像の確率を平均して研究レベルの異常確率を得る。
研究タイプごとに重み付き二値クロスエントロピーで学習してクラス不均衡に対処する。
入力をImageNetのmean/stdに正規化し、320x320へリサイズし、データ拡張（ランダムフリップ、回転）を適用する。
検証損失で上位5モデルをアンサンブルして最終予測とし、金標準比較のため放射線科医ラベルを用いたテストセットで評価する。

実験結果

リサーチクエスチョン

RQ1CNNは多様な上肢X線ビュー全体で異常を正確に検出できるか？
RQ2研究タイプ（肘、指、前腕、手、上腕骨、肩、手首）ごとにモデルの性能は認定放射線科医とどう比較されるか？
RQ3研究タイプ別の一般的なエラーパターンは何か、モデルの性能は人間読影者にどれだけ近いか？
RQ4モデルの説明（CAMs）は放射線科医と一致する臨床的に関連する領域を強調できるか？

主な発見

研究タイプ	訓練正常	訓練異常	検証正常	検証異常	合計
Elbow	1094	660	92	66	1912
Finger	1280	655	92	83	2110
Hand	1497	521	101	66	2185
Humerus	321	271	68	67	727
Forearm	590	287	69	64	1010
Shoulder	1364	1457	99	95	3015
Wrist	2134	1326	140	97	3697
Total No. of Studies	8280	5177	661	538	14656

モデルはテストセットでAUROC 0.929を達成。
閾値0.5で感度0.815、特異度0.887。
指（Finger）と手首（Wrist）研究では最良の放射線科医と比較可能（0.389対0.410、0.931対0.931）。
全体としてモデルAUROCは0.929だが、最高の放射線科医の運用点はモデルのROC曲線の上に位置し、放射線科医が全体的にモデルより優れていることを示す。
肘、前腕、手、上腕骨、肩の研究では最高の放射線科医よりモデルの性能が劣るが、いくつかのタイプ（例：指）で最悪の放射線科医と比較可能な場合がある。
CAM可視化が異常予測に寄与する salient regionsを特定するために作成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。