QUICK REVIEW

[论文解读] CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison

Jeremy Irvin, Pranav Rajpurkar|arXiv (Cornell University)|Jan 21, 2019

COVID-19 diagnosis using AI被引用 28

一句话总结

CheXpert 引入了一个大规模的胸部X光片数据集，包含224,316份检查的14种常见病理的不确定性标注，可实现对深度学习模型的稳健评估。该研究证明，使用不确定性感知损失函数训练的模型在共识验证的测试集上，检测心脏扩大、肺水肿和胸腔积液的表现优于三位放射科医生。

ABSTRACT

Large, labeled datasets have driven deep learning methods to achieve expert-level performance on a variety of medical imaging tasks. We present CheXpert, a large dataset that contains 224,316 chest radiographs of 65,240 patients. We design a labeler to automatically detect the presence of 14 observations in radiology reports, capturing uncertainties inherent in radiograph interpretation. We investigate different approaches to using the uncertainty labels for training convolutional neural networks that output the probability of these observations given the available frontal and lateral radiographs. On a validation set of 200 chest radiographic studies which were manually annotated by 3 board-certified radiologists, we find that different uncertainty approaches are useful for different pathologies. We then evaluate our best model on a test set composed of 500 chest radiographic studies annotated by a consensus of 5 board-certified radiologists, and compare the performance of our model to that of 3 additional radiologists in the detection of 5 selected pathologies. On Cardiomegaly, Edema, and Pleural Effusion, the model ROC and PR curves lie above all 3 radiologist operating points. We release the dataset to the public as a standard benchmark to evaluate performance of chest radiograph interpretation models. The dataset is freely available at https://stanfordmlgroup.github.io/competitions/chexpert .

研究动机与目标

开发一个大规模、公开可用的胸部X光片数据集，包含14种常见病理的不确定性标注。
研究如何有效将不确定性标签整合到深度学习模型中以提升性能。
通过多位认证放射科医生的共识标注建立强有力的参考标准，用于模型评估。
将深度学习模型的性能与人类放射科医生在临床重要病理上的表现进行比较。
将该数据集作为基准公开发布，以加速自动化胸部X光片解读的研究。

提出的方法

一种基于规则的自动化标注器通过提及抽取、分类和否定检测，从自由文本放射科报告中提取发现和不确定性。
该数据集包含来自65,240名患者的224,316张前后位和侧位胸部X光片，对14种病理分别标注为阳性、阴性或不确定。
使用交叉熵损失结合不确定性加权和校准的概率输出，评估不确定性感知的训练策略。
使用卷积神经网络（CNN）从多视角X光片中预测每种病理的概率。
在由三位放射科医生标注的200份检查集上验证模型性能，并在由五位放射科医生达成共识的500份检查集上进行测试。
使用Grad-CAM可视化技术解释模型注意力，突出显示对预测最具影响力的图像区域。

实验结果

研究问题

RQ1如何有效建模并整合放射科报告中的不确定性，以提升胸部X光片解读的深度学习训练效果？
RQ2在不确定性标注数据上训练的深度学习模型是否能在关键病理上超越人类放射科医生？
RQ3不同不确定性感知损失函数如何影响模型在多种病理上的性能表现？
RQ4模型是否能在临床相关病理（如心脏扩大和胸腔积液）上实现优于单个放射科医生的性能？
RQ5不确定性标签在强参考标准下在多大程度上提升了模型的校准性和泛化能力？

主要发现

在由五位放射科医生达成共识的测试集中，该模型在检测心脏扩大、肺水肿和胸腔积液方面优于至少两位（共三位）个体放射科医生。
该模型在胸腔积液上的AUC达到0.97，在肺不张上的AUC为0.85，其余所有病理的AUC均≥0.9。
对于胸腔积液，该模型的ROC和PR曲线均位于三位放射科医生操作点的上方。
在肺实质实变方面，该模型优于其中两位放射科医生；而在肺不张方面，三位放射科医生均优于该模型。
该模型的缩放Brier评分从校准前的0.110降低至校准后的0.101，表明概率校准性能更优。
Grad-CAM可视化结果证实，该模型学会了关注与每种病理相关的解剖学相关区域。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。