[论文解读] VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations
VinDr-CXR 是一个公开可用的数据集,包含 18,000 例经过匿名处理的胸部 X 光片(CXR),其标注由放射科医生验证,包括 22 个局部病灶边界框和 6 个全局疾病标签。该数据集使用自研的 DICOM 标注平台创建,训练集(15,000 例)和测试集(3,000 例)分别由 3 名和 5 名放射科医生独立标注,为医学影像中人工智能模型的训练与评估提供了高质量、基于共识的标注。
Most of the existing chest X-ray datasets include labels from a list of findings without specifying their locations on the radiographs. This limits the development of machine learning algorithms for the detection and localization of chest abnormalities. In this work, we describe a dataset of more than 100,000 chest X-ray scans that were retrospectively collected from two major hospitals in Vietnam. Out of this raw data, we release 18,000 images that were manually annotated by a total of 17 experienced radiologists with 22 local labels of rectangles surrounding abnormalities and 6 global labels of suspected diseases. The released dataset is divided into a training set of 15,000 and a test set of 3,000. Each scan in the training set was independently labeled by 3 radiologists, while each scan in the test set was labeled by the consensus of 5 radiologists. We designed and built a labeling platform for DICOM images to facilitate these annotation procedures. All images are made publicly available (https://www.physionet.org/content/vindr-cxr/1.0.0/) in DICOM format along with the labels of both the training set and the test set.
研究动机与目标
- 解决现有公开 CXR 数据集中缺乏高质量、局部化标注的问题。
- 提供一个大规模、公开可访问的胸部 X 光片数据集,包含图像级和区域级标注。
- 通过多位专家放射科医生的共识标注,减少标注偏差并提高可靠性。
- 开发一种可扩展的、原生支持 DICOM 的标注平台,以实现高效且准确的医学影像标注。
- 通过发布去标识化、符合 HIPAA/GDPR 的数据,支持医学人工智能研究的可复现性。
提出的方法
- 从两家主要越南医院回顾性收集 100,000 例 CXR 影像,其中 18,000 例被选中用于公开发布。
- 开发一种兼容 DICOM 的自定义标注平台,支持放射科医生对全局诊断和局部病灶边界框进行标注。
- 由三名放射科医生独立标注训练集图像,五名放射科医生通过共识方式标注测试集图像。
- 在标注平台中应用自动化验证规则,防止逻辑不一致(例如,在选择“无异常”时仍标记病灶)。
- 对所有 DICOM 元数据进行手动去标识化,并对像素级别进行人工审查,以彻底清除任何残留的患者标识信息。
- 通过 PhysioNet 公开发布数据集,提供去标识化的图像 ID 和以 CSV 格式存储的结构化标签。
实验结果
研究问题
- RQ1一个包含全局诊断和局部病灶标注的大规模开源 CXR 数据集,是否能提升人工智能模型在检测和定位胸部异常方面的性能?
- RQ2多位放射科医生的共识标注在减少标注偏差并提高标注可靠性方面,相较于单人标注或自动化标注方法有何优势?
- RQ3自研的原生支持 DICOM 的标注平台在多大程度上能够支持大规模医学影像的高效、可扩展且准确的标注?
- RQ4由基于自然语言处理的自动化标注工具产生的噪声或不一致标签,对深度学习模型在 CXR 分析中的泛化能力有何影响?
- RQ5一个公开可用、已去标识化的高质量标注数据集,是否能加速医学人工智能领域的可复现性研究?
主要发现
- VinDr-CXR 数据集包含 18,000 例 CXR 影像,其中训练集 15,000 例,测试集 3,000 例,所有标注均为高质量、经放射科医生验证。
- 训练集每幅图像均由三名放射科医生独立标注,确保了标注的稳健性并减少了个体偏差。
- 测试集通过五名放射科医生的共识达成标注,显著提升了标注的可靠性,适用于基准测试。
- 数据集包含 22 个解剖区域标签用于病灶定位,以及 6 个全局疾病标签,支持检测与分类双重任务。
- 训练集超过 70%(10,606 幅图像)被标注为“无异常”,真实反映了临床中的实际患病率。
- 通过人工与算法检查相结合的方式对数据集进行去标识化,已彻底清除所有患者可识别信息,符合 HIPAA 和 GDPR 要求。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。