QUICK REVIEW

[论文解读] Can we trust deep learning models diagnosis? The impact of domain shift in chest radiograph classification

Eduardo Pooch, Pedro L. Ballester|arXiv (Cornell University)|Sep 3, 2019

COVID-19 diagnosis using AI参考文献 19被引用 31

一句话总结

本研究通过在四个主要数据集上训练最先进深度学习模型，并在不同领域间测试，评估了胸部X光片分类中的领域偏移问题。研究发现，基于ChestX-ray14和PadChest训练的模型在其他数据集上测试时性能显著下降，而基于CheXpert和MIMIC-CXR训练的模型泛化能力更强，凸显了数据分布差异对医学影像模型可靠性的重要影响。

ABSTRACT

While deep learning models become more widespread, their ability to handle unseen data and generalize for any scenario is yet to be challenged. In medical imaging, there is a high heterogeneity of distributions among images based on the equipment that generates them and their parametrization. This heterogeneity triggers a common issue in machine learning called domain shift, which represents the difference between the training data distribution and the distribution of where a model is employed. A high domain shift tends to implicate in a poor generalization performance from the models. In this work, we evaluate the extent of domain shift on four of the largest datasets of chest radiographs. We show how training and testing with different datasets (e.g., training in ChestX-ray14 and testing in CheXpert) drastically affects model performance, posing a big question over the reliability of deep learning models trained on public datasets. We also show that models trained on CheXpert and MIMIC-CXR generalize better to other datasets.

研究动机与目标

评估由于领域偏移导致的深度学习模型在不同胸部X光片数据集间泛化性能的表现。
探究在公开数据集上训练的模型是否能可靠地应用于不同医院或影像中心的未见数据。
通过比较跨数据集性能，识别出能生成更鲁棒模型的数据集。
评估标签质量与数据分布异质性在模型泛化失败中的作用。
为研究人员在选择代表性数据集以训练鲁棒医学影像模型方面提供指导。

提出的方法

在四个大型胸部X光片数据集（ChestX-ray14、CheXpert、MIMIC-CXR和PadChest）上分别训练一个最先进的卷积神经网络用于多标签分类。
在其余三个数据集的测试集上评估每个模型的性能，以模拟在未见领域中的实际部署。
使用曲线下面积（AUC）作为主要指标，量化所有放射学发现的模型性能。
比较各模型之间的性能下降情况，以识别出能产生更具泛化能力模型的源数据集。
分析标签一致性与数据分布差异作为领域偏移的潜在原因。
通过折线图可视化不同发现的AUC变化，以说明模型在不同领域中的性能稳定性。

实验结果

研究问题

RQ1当在另一张胸部X光片数据集上测试时，领域偏移如何影响在某一数据集上训练的深度学习模型的性能？
RQ2在ChestX-ray14、CheXpert、MIMIC-CXR和PadChest这四个主要胸部X光片数据集中，哪一个能产生在不同领域间泛化能力最佳的模型？
RQ3标签质量与数据采集协议在医学影像模型领域偏移中的作用有多大？
RQ4在不同临床环境中，使用不同成像协议部署时，基于某一数据集训练的模型能否保持高性能？
RQ5这些发现对深度学习模型在放射学中的外部验证与实际部署有何启示？

主要发现

在ChestX-ray14上训练的模型在CheXpert上测试时AUC平均下降0.12，在MIMIC-CXR上下降0.08，在PadChest上下降0.04，表明存在严重的领域偏移。
在CheXpert和MIMIC-CXR上训练的模型在其他数据集上测试时，其基线平均AUC保持在90%以上，表现出优越的泛化能力。
在PadChest上训练的模型在其他数据集上测试时平均AUC下降0.10，可能由于每类发现的训练样本量较小。
在所有四个测试集中，每项放射学发现的最高AUC最常出现在训练与测试使用同一数据集时，表明存在强烈的领域特异性偏差。
CheXpert和MIMIC-CXR数据集表现出更一致且更鲁棒的跨领域性能，表明其更能代表真实世界中的成像变异性。
研究发现，ChestX-ray14中的标签可靠性问题可能加剧了泛化性能不佳，因为视觉检查研究表明其标签准确率比报告值低10–30%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。