[论文解读] CheXtransfer: Performance and Parameter Efficiency of ImageNet Models for Chest X-Ray Interpretation
本研究在CheXpert胸部X光数据集上评估了16个ImageNet预训练模型,以评估迁移性能和参数效率。研究发现,ImageNet性能与CheXpert性能之间无相关性,对于未预训练模型,架构族的影响大于模型大小;确认预训练可显著提升性能,尤其对小型模型有益;并证明截断最后几层可将参数效率提升3.25倍而性能无损失。
Deep learning methods for chest X-ray interpretation typically rely on pretrained models developed for ImageNet. This paradigm assumes that better ImageNet architectures perform better on chest X-ray tasks and that ImageNet-pretrained weights provide a performance boost over random initialization. In this work, we compare the transfer performance and parameter efficiency of 16 popular convolutional architectures on a large chest X-ray dataset (CheXpert) to investigate these assumptions. First, we find no relationship between ImageNet performance and CheXpert performance for both models without pretraining and models with pretraining. Second, we find that, for models without pretraining, the choice of model family influences performance more than size within a family for medical imaging tasks. Third, we observe that ImageNet pretraining yields a statistically significant boost in performance across architectures, with a higher boost for smaller architectures. Fourth, we examine whether ImageNet architectures are unnecessarily large for CheXpert by truncating final blocks from pretrained models, and find that we can make models 3.25x more parameter-efficient on average without a statistically significant drop in performance. Our work contributes new experimental evidence about the relation of ImageNet to chest x-ray interpretation performance.
研究动机与目标
- 探究在胸部X光图像解读任务中,ImageNet表现更优的架构是否能在该任务上取得更好性能。
- 评估ImageNet预训练是否能为医学影像模型带来性能提升,尤其是相对于模型大小的影响。
- 通过模型截断测试,评估ImageNet预训练模型在CheXpert任务中是否过于庞大,以评估参数效率。
- 在无预训练的情况下,确定架构族或模型大小对医学影像性能的影响哪个更大。
- 探索通过更高分辨率的类激活图提升可解释性,从而增强临床对模型预测的信任,截断是否可作为提升参数效率的手段。
提出的方法
- 在CheXpert数据集上训练了16种流行的卷积神经网络架构(ResNet、DenseNet、EfficientNet、MobileNet等),包括有无ImageNet预训练两种设置。
- 使用受试者工作特征曲线下面积(AUC)比较12个CheXpert分类任务的模型性能,并对任务结果进行聚合。
- 通过系统性地截断预训练模型的最后几层(如最后全连接层和池化层),测量参数效率。
- 使用Spearman等级相关系数评估ImageNet准确率与CheXpert AUC之间的关系,以及模型大小与预训练带来的性能增益之间的关系。
- 从截断模型生成类激活图(CAMs),以评估可解释性及病灶的空间定位能力。
- 应用统计检验(如配对t检验)确认预训练带来的性能增益是否具有统计显著性,以及截断后性能是否无显著下降。
实验结果
研究问题
- RQ1在不同架构之间,ImageNet性能与CheXpert性能之间是否存在统计显著的相关性?
- RQ2当模型在CheXpert上从随机初始化训练时,模型族的选择或模型大小对性能的影响哪个更大?
- RQ3ImageNet预训练是否在CheXpert上带来统计显著的性能提升?该提升是否随模型大小而变化?
- RQ4截断ImageNet预训练模型的最后几层是否能提升参数效率而不显著降低性能?
- RQ5模型截断是否通过生成更高分辨率的类激活图来增强可解释性,从而提升临床对模型预测的信任?
主要发现
- ImageNet性能与CheXpert性能之间无统计显著相关性,未预训练模型的Spearman等级相关系数为0.08,预训练模型为0.06。
- 对于未预训练模型,同一架构族内不同大小模型的性能差异极小(如ResNet:ΔAUC = 0.005),而不同架构族之间的差异超过0.006,表明架构族的影响大于模型大小。
- ImageNet预训练在全部16个架构上带来平均0.016的AUC提升,且对小型模型的增益更强(参数量与性能增益之间的Spearman等级相关系数为-0.72)。
- 通过截断预训练模型的最后几层,平均可将参数效率提升3.25倍,且性能无统计显著下降,从而实现更轻量化的模型。
- 截断模型生成的类激活图分辨率更高,可能改善病灶定位能力,并通过更好的可解释性增强临床对模型预测的信任。
- 较新的架构如EfficientNet和MobileNet(其搜索过程基于ImageNet)在CheXpert上的表现不如DenseNet和ResNet等旧型架构,表明ImageNet可能不适合作为医学影像架构选择的基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。