QUICK REVIEW
[论文解读] TorchXRayVision: A library of chest X-ray datasets and models
Joseph Cohen, Joseph D. Viviano|arXiv (Cornell University)|Oct 31, 2021
COVID-19 diagnosis using AI参考文献 30被引用 37
一句话总结
TorchXRayVision 是一个开源的 Python 库,用于标准化对多份胸部 X 光数据集和模型的访问,能够在不同数据集之间实现可重复的基线、特征提取和协变量移位分析。
ABSTRACT
TorchXRayVision is an open source software library for working with chest X-ray datasets and deep learning models. It provides a common interface and common pre-processing chain for a wide set of publicly available chest X-ray datasets. In addition, a number of classification and representation learning models with different architectures, trained on different data combinations, are available through the library to serve as baselines or feature extractors.
研究动机与目标
- 提供一个可重用的框架,具有对胸部 X 光数据集和模型的统一接口,以实现可重复的研究和一致的基线。
- 提供预训练模型和特征提取器,以便快速进行基线比较和迁移学习。
- 通过标准化的数据处理与处理流程,促进模型评估、泛化研究以及对失败情况的分析。
提出的方法
- 面向对象设计,明确区分数据集与模型。
- 具有统一输入/输出接口的预训练核心分类器和基线分类器。
- 具有公共字段(病理、标签和元数据)的数据集类,以及用于重新标注、筛选和合并的工具。
- 图像预处理将输入对准模型训练分辨率和像素值范围 [-1024, 1024]。
- 支持自编码器和特征提取,以生成下游任务的潜在表示。
- 协变量移位仿真工具,用于研究跨数据集的泛化。
实验结果
研究问题
- RQ1当通过统一接口进行数据集互换时,胸部 X 光模型在多样化公开数据集上的泛化能力有多大?
- RQ2预训练模型是否能在不同的胸部 X 光任务中充当可靠的基线或特征提取器?
- RQ3协变量移位对模型性能及归因的影响是什么,如何使用 TorchXRayVision 进行研究或缓解?
- RQ4统一的数据集协议如何实现跨多个数据集的可重复的模型评估、数据融合和子集分析?
主要发现
- 提供统一的 API 来交换数据集和模型,具备自动输入重定尺寸和标准化预处理。
- 包括核心分类器和基线模型,权重指定简单且可下载的预训练权重。
- 支持特征提取和在模型与数据集之间对表示进行可视化(例如 UMAP)。
- 提供用于无监督表示和基于重建的分析的自编码器。
- 实现协变量移位工具,以在数据集之间模拟分布漂移以进行鲁棒性测试。
- 包括数据集重新标注、合并、子集化,以及处理病理/语义掩膜用于分割工作的工具。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。