Skip to main content
QUICK REVIEW

[论文解读] TorchXRayVision: A library of chest X-ray datasets and models

Joseph Cohen, Joseph D. Viviano|arXiv (Cornell University)|Oct 31, 2021
COVID-19 diagnosis using AI参考文献 30被引用 37
一句话总结

TorchXRayVision 是一个开源的 Python 库,用于标准化对多份胸部 X 光数据集和模型的访问,能够在不同数据集之间实现可重复的基线、特征提取和协变量移位分析。

ABSTRACT

TorchXRayVision is an open source software library for working with chest X-ray datasets and deep learning models. It provides a common interface and common pre-processing chain for a wide set of publicly available chest X-ray datasets. In addition, a number of classification and representation learning models with different architectures, trained on different data combinations, are available through the library to serve as baselines or feature extractors.

研究动机与目标

  • 提供一个可重用的框架,具有对胸部 X 光数据集和模型的统一接口,以实现可重复的研究和一致的基线。
  • 提供预训练模型和特征提取器,以便快速进行基线比较和迁移学习。
  • 通过标准化的数据处理与处理流程,促进模型评估、泛化研究以及对失败情况的分析。

提出的方法

  • 面向对象设计,明确区分数据集与模型。
  • 具有统一输入/输出接口的预训练核心分类器和基线分类器。
  • 具有公共字段(病理、标签和元数据)的数据集类,以及用于重新标注、筛选和合并的工具。
  • 图像预处理将输入对准模型训练分辨率和像素值范围 [-1024, 1024]。
  • 支持自编码器和特征提取,以生成下游任务的潜在表示。
  • 协变量移位仿真工具,用于研究跨数据集的泛化。

实验结果

研究问题

  • RQ1当通过统一接口进行数据集互换时,胸部 X 光模型在多样化公开数据集上的泛化能力有多大?
  • RQ2预训练模型是否能在不同的胸部 X 光任务中充当可靠的基线或特征提取器?
  • RQ3协变量移位对模型性能及归因的影响是什么,如何使用 TorchXRayVision 进行研究或缓解?
  • RQ4统一的数据集协议如何实现跨多个数据集的可重复的模型评估、数据融合和子集分析?

主要发现

  • 提供统一的 API 来交换数据集和模型,具备自动输入重定尺寸和标准化预处理。
  • 包括核心分类器和基线模型,权重指定简单且可下载的预训练权重。
  • 支持特征提取和在模型与数据集之间对表示进行可视化(例如 UMAP)。
  • 提供用于无监督表示和基于重建的分析的自编码器。
  • 实现协变量移位工具,以在数据集之间模拟分布漂移以进行鲁棒性测试。
  • 包括数据集重新标注、合并、子集化,以及处理病理/语义掩膜用于分割工作的工具。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。