[論文レビュー] MURA Dataset: Towards Radiologist-Level Abnormality Detection in Musculoskeletal Radiographs
本稿では、14,982件の検査から得られた40,895枚の筋骨格系レントgen画像から構成される大規模なMURAデータセットを紹介する。各画像は放射線科医によって正常または異常としてラベル付けされている。MURAで訓練された169層の密接接続畳み込みニューラルネットワークを用いて、異常検出において放射線科医と同等の性能を達成した。特に指の画像では最良の放射線科医を上回り、手首の画像では同等の性能を示したが、上腕骨、上腕、前腕、肘、肩の画像では、依然として放射線科医の性能に劣っていた。
We introduce MURA, a large dataset of musculoskeletal radiographs containing 40,895 images from 14,982 studies, where each study is manually labeled by radiologists as either normal or abnormal. On this dataset, we train a 169-layer densely connected convolutional network to detect and localize abnormalities. To evaluate our model robustly and to get an estimate of radiologist performance, we collect additional labels from board-certified Stanford radiologists on the test set, consisting of 209 musculoskeletal studies. We compared our model and radiologists on the Cohen's kappa statistic, which expresses the agreement of our model and of each radiologist with the gold standard, defined as the majority vote of a disjoint group of radiologists. We find that our model achieves performance comparable to that of radiologists. Model performance is higher than the best radiologist performance in detecting abnormalities on finger studies and equivalent on wrist studies. However, model performance is lower than best radiologist performance in detecting abnormalities on elbow, forearm, hand, humerus, and shoulder studies, indicating that the task is a good challenge for future research. To encourage advances, we have made our dataset freely available at this https URL
研究の動機と目的
- 放射線科医と同等の水準で筋骨格系レントゲン画像の異常を検出できる深層学習モデルの開発を目的とする。
- 専門家によるラベル確認がなされた、大規模で多様性に富み、臨床的に関連性のある筋骨格系レントゲン画像のデータセットの構築を目的とする。
- 多数決によるゴールドスタンダードを用いたきめ細やかなベンチマークを用いて、モデルの性能を放射線科医と比較評価することを目的とする。
- 深層学習モデルが熟練した放射線科医と比較して、依然として性能が劣る特定の解剖学的領域を同定することを目的とする。
- MURAデータセットを公開することで、今後の研究を促進することを目的とする。
提案手法
- 著者らは、14,982件の検査から40,895枚の筋骨格系レントゲン画像を収集し、それぞれを放射線科医が正常または異常としてラベル付けした。
- 異常を検出し、局所化する目的で、169層の密接接続畳み込みニューラルネットワーク(DenseNet)を訓練した。
- 性能評価のため、テストセットとして209件の検査について、ボード資格を持つスタンフォード大学の放射線科医から追加のラベルを収集した。
- ゴールドスタンダードは、テストセットに対して独立した放射線科医グループの過半数による投票として定義された。
- モデルの性能は、ゴールドスタンダードおよび個々の放射線科医との一致度を測るためのコーエンのカッパ統計量を用いて評価した。
- 性能の差を特定するために、モデルは指、手首、肘など、異なる解剖学的領域ごとに別々に評価された。
実験結果
リサーチクエスチョン
- RQ1深層学習モデルは、筋骨格系レントゲン画像における異常検出において、放射線科医と同等の性能を達成できるか?
- RQ2異なる解剖学的領域において、最良の深層学習モデルの性能は、個々の放射線科医の性能と比較してどうなるか?
- RQ3どの解剖学的領域において、モデルの性能が最良の放射線科医に劣っているか。これは今後の研究の余地を示している。
- RQ4MURAデータセットは、異常検出モデルの評価を堅牢に行うのにどの程度寄与できるか?
- RQ5信頼性のあるコンSENSUSベースのゴールドスタンダードを用いて、モデルの性能を放射線科医と定量的にベンチマークできるか?
主な発見
- 深層学習モデルは、ゴールドスタンダードとのコーエンのカッパ統計量を用いた測定において、放射線科医と同等の性能を達成した。
- 指の画像では、最良の個々の放射線科医を上回る性能を示し、この解剖学的領域では優れた性能を発揮した。
- 手首の画像では、最良の放射線科医と同等の性能を示し、同等の検出精度を達成した。
- 上腕骨、上腕、前腕、肘、肩の画像では、最良の放射線科医の性能に劣る結果となり、これらの領域では依然として課題が残っていることが明らかになった。
- 40,895枚の画像と専門家によるラベル確認がなされたMURAデータセットは、今後の医療画像解析研究のための堅牢なベンチマークを提供する。
- 著者らはMURAデータセットを公開し、放射線科医水準の異常検出に関するオープンな研究と進歩を支援した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。