[论文解读] On the limits of cross-domain generalization in automated X-ray prediction
本文对胸部X线预测中的跨领域泛化进行大规模研究,表明泛化问题源于标签分布的变化而非影像分布的变化,并分析不同数据集上的性能、一致性和表示。
This large scale study focuses on quantifying what X-rays diagnostic prediction tasks generalize well across multiple different datasets. We present evidence that the issue of generalization is not due to a shift in the images but instead a shift in the labels. We study the cross-domain performance, agreement between models, and model representations. We find interesting discrepancies between performance and agreement where models which both achieve good performance disagree in their predictions as well as models which agree yet achieve poor performance. We also test for concept similarity by regularizing a network to group tasks across multiple datasets together and observe variation across the tasks. All code is made available online and data is publicly available: https://github.com/mlmed/torchxrayvision
研究动机与目标
- 量化X线诊断预测任务在多个公开数据集上的泛化能力
- 区分泛化问题是由影像分布的变化(协变量偏移)还是标签分布的变化(概念偏移)引起
- 考察跨域性能、模型一致性及跨数据集的内部表示
- 评估在多个数据集合并训练是否反映真正的泛化能力还是域泄漏
- 提供关于评估和部署跨域胸部X线模型的建议
提出的方法
- 在四个大型公开胸部X线数据集上训练DenseNets集合,使用超过20万张含AP/PA视图的图像
- 通过数据集特定标签频率平衡任务损失,以解决标签不平衡
- 使用数据集特定的最优工作点对每个任务的模型输出进行校准,以实现公平比较
- 通过leave-one-domain-out和所有域包含的实验评估跨域泛化
- 使用科恩的kappa系数分析在不同数据集训练的模型之间的一致性
- 对任务特定权重向量进行正则化,以研究跨数据集的表示对齐
实验结果
研究问题
- RQ1哪些胸部X线预测任务在不同数据集/机构上具有最好的泛化性?
- RQ2泛化是否受限于影像分布的变化(协变量偏移)还是标签分布的变化(概念偏移)?
- RQ3模型预测、模型之间的一致性以及内部表示在不同域之间如何变化?
- RQ4在任务/数据集之间对表示进行对齐能否提升跨域性能?
- RQ5在临床环境部署跨域胸部X线模型的含义是什么?
主要发现
- 泛化性能因任务和数据集而异;某些任务在跨域上比其他任务具有更好的泛化性
- 即使在多域训练的模型在保留域上评估时也存在性能差距,表明存在超越简单协变量偏移的域特异性偏差
- 模型可以表现出高度一致性却预测性能不佳;反之,表现良好的模型在预测上可能有显著分歧
- 对每个任务和数据集的输出进行校准对公平的跨域评估至关重要,并揭示标签/地真值主观性的影响
- 在所有数据集上联合训练提高了整体AUC,但这反映的是域泄漏而非真正的泛化,因为leave-one-domain-out测试显示收益降低
- 同一任务的表示在不同数据集上存在差异,对齐任务表示的权重向量正则化取得成效参差不齐,凸显固有的数据集特定概念偏移
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。