[论文解读] MURA Dataset: Towards Radiologist-Level Abnormality Detection in Musculoskeletal Radiographs
本文介绍了 MURA,一个包含 40,895 幅来自 14,982 项检查的骨骼肌肉 X 光片的大规模数据集,每幅图像均由放射科医生标注为正常或异常。利用在 MURA 上训练的 169 层密集连接卷积神经网络,作者在异常检测方面达到了放射科医生的水平,其在手指检查中的表现优于最佳放射科医生,腕部检查表现与之相当,但在肘部、前臂、手部、肱骨和肩部检查中表现仍不及,显示出改进空间。
We introduce MURA, a large dataset of musculoskeletal radiographs containing 40,895 images from 14,982 studies, where each study is manually labeled by radiologists as either normal or abnormal. On this dataset, we train a 169-layer densely connected convolutional network to detect and localize abnormalities. To evaluate our model robustly and to get an estimate of radiologist performance, we collect additional labels from board-certified Stanford radiologists on the test set, consisting of 209 musculoskeletal studies. We compared our model and radiologists on the Cohen's kappa statistic, which expresses the agreement of our model and of each radiologist with the gold standard, defined as the majority vote of a disjoint group of radiologists. We find that our model achieves performance comparable to that of radiologists. Model performance is higher than the best radiologist performance in detecting abnormalities on finger studies and equivalent on wrist studies. However, model performance is lower than best radiologist performance in detecting abnormalities on elbow, forearm, hand, humerus, and shoulder studies, indicating that the task is a good challenge for future research. To encourage advances, we have made our dataset freely available at this https URL
研究动机与目标
- 开发一种深度学习模型,能够在骨骼肌肉 X 光片中检测异常,其性能水平与人类放射科医生相当。
- 创建一个大规模、多样化且具有临床相关性的骨骼肌肉 X 光片数据集,包含经专家验证的标签。
- 使用基于多数投票的黄金标准,通过稳健的基准测试评估模型性能。
- 识别出深度学习模型在哪些解剖区域仍低于专家放射科医生的性能,以明确未来研究方向。
- 通过公开发布 MURA 数据集,推动未来研究。
提出的方法
- 作者从 14,982 项检查中收集了 40,895 幅骨骼肌肉 X 光片,每幅图像均由放射科医生标注为正常或异常。
- 训练了一个 169 层的密集连接卷积神经网络(DenseNet),用于检测和定位图像中的异常。
- 为评估性能,从斯坦福大学认证的放射科医生处获取了测试集 209 项检查的额外标签。
- 黄金标准定义为一组独立放射科医生在测试集上的多数投票结果。
- 使用 Cohen's kappa 统计量评估模型与黄金标准及个别放射科医生的一致性。
- 按不同解剖区域(如手指、腕部、肘部等)分别评估模型性能,以识别性能差异。
实验结果
研究问题
- RQ1深度学习模型是否能在骨骼肌肉 X 光片的异常检测中达到放射科医生的水平?
- RQ2在不同解剖区域中,最佳深度学习模型的性能与个体放射科医生相比如何?
- RQ3在哪些解剖区域,模型的性能低于最佳放射科医生,提示未来研究的潜在方向?
- RQ4MURA 数据集在多大程度上支持对异常检测模型的稳健评估?
- RQ5能否使用可靠且基于共识的黄金标准,对模型性能进行定量基准测试并与放射科医生进行比较?
主要发现
- 通过与黄金标准的 Cohen's kappa 值衡量,深度学习模型在 MURA 数据集上的表现与放射科医生相当。
- 在手指检查中,模型表现优于最佳个体放射科医生,表明在该解剖区域具有更优性能。
- 在腕部检查中,模型性能与最佳放射科医生相当,显示出相同的检测准确率。
- 在肘部、前臂、手部、肱骨和肩部检查中,模型在异常检测方面仍逊于最佳放射科医生,突显了这些区域的持续挑战。
- MURA 数据集包含 40,895 幅图像和经专家验证的标签,为医学图像分析领域的未来研究提供了稳健的基准。
- 作者已公开发布 MURA 数据集,以支持开放研究,并推动放射科医生水平异常检测技术的发展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。