[论文解读] COVID-CT-Dataset: A CT Scan Dataset about COVID-19
本论文提出 COVID-CT,这是一个用于 COVID-19 的开源 CT 图像数据集,并展示其在训练基于 CT 的诊断模型中的用途,利用多任务学习和对比自监督学习达到具有临床应用性的表现。
During the outbreak time of COVID-19, computed tomography (CT) is a useful manner for diagnosing COVID-19 patients. Due to privacy issues, publicly available COVID-19 CT datasets are highly difficult to obtain, which hinders the research and development of AI-powered diagnosis methods of COVID-19 based on CTs. To address this issue, we build an open-sourced dataset -- COVID-CT, which contains 349 COVID-19 CT images from 216 patients and 463 non-COVID-19 CTs. The utility of this dataset is confirmed by a senior radiologist who has been diagnosing and treating COVID-19 patients since the outbreak of this pandemic. We also perform experimental studies which further demonstrate that this dataset is useful for developing AI-based diagnosis models of COVID-19. Using this dataset, we develop diagnosis methods based on multi-task learning and self-supervised learning, that achieve an F1 of 0.90, an AUC of 0.98, and an accuracy of 0.89. According to the senior radiologist, models with such performance are good enough for clinical usage. The data and code are available at https://github.com/UCSD-AI4H/COVID-CT
研究动机与目标
- 通过提供一个公开数据集,推动并实现基于 AI 的来自 CT 的 COVID-19 诊断。
- 评估论文提取的 COVID-19 CT 图像是否能够有效训练基于 CT 的分类器。
- 开发方法,通过掩模引导和自监督表示来提升诊断准确性。
- 与放射科医生共同验证所得到模型的临床有用性。
- 比较在论文提取的 CT 图像与原始 CT 图像上的训练,以理解数据质量的影响。
提出的方法
- 从论文图像及其说明中组装 COVID-19 阳性 CT,同时从公开来源收集阴性 CT 以用于训练。
- 使用在 ImageNet 上预训练并进行微调的 DenseNet-169 和 ResNet-50 来评估分类器。
- 通过比较训练在 COVID-CT-349(论文提取)、COVID-Seg(原始)和 COVID-CT-118(子集)来研究数据质量的影响。
- 将肺部掩模和病灶掩模整合到多任务学习中,以引导注意力关注相关区域。
- 在有监督微调前应用对比自监督学习(CSSL)来预训练表示。
- 测试配置包括多任务学习(肺部/病灶掩模)和 CSSL 预训练,并报告准确率、F1 值和 AUC。
实验结果
研究问题
- RQ1论文提取的 CT 图像相比原始 CT 图像在训练基于 CT 的 COVID-19 诊断模型方面是否有用?
- RQ2正向 COVID-19 CT 数据量的增加是否会显著提升诊断性能?
- RQ3将肺部掩模和病灶掩模引入是否提升 CT 图像上 COVID-19 检测的模型性能?
- RQ4对比自监督预训练是否在超越标准迁移学习的基础上提升 COVID-19 CT 诊断性能?
- RQ5最终模型的性能是否被资深放射科医生认为在临床上有用?
主要发现
- COVID-CT-349(论文提取的图像)在两种网络上均显著优于 COVID-Seg(原始图像)。
- 将正样本训练数据从 118 增加到 349,可显著提升准确率、F1 值和 AUC。
- 肺部掩模和病灶掩模都可提升性能,组合掩模效果最佳。
- 对比自监督学习加迁移学习(CSSL+TL)优于仅 TL 和随机初始化。
- 在综合数据集上,CSSL+TL 达到 F1=0.89–0.90、AUC=0.98、准确率=0.89,获得资深放射科医生的临床有用性判断。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。