[论文解读] A large annotated medical image dataset for the development and evaluation of segmentation algorithms
本文献介绍了一个大型、开放、跨机构的十个带注释的医学图像数据集集合,用于语义分割,发布在 CC-BY-SA 4.0 下,并用于 Medical Segmentation Decathlon 2018 挑战,用于基准化通用分割方法。
Semantic segmentation of medical images aims to associate a pixel with a label in a medical image without human initialization. The success of semantic segmentation algorithms is contingent on the availability of high-quality imaging data with corresponding labels provided by experts. We sought to create a large collection of annotated medical image datasets of various clinically relevant anatomies available under open source license to facilitate the development of semantic segmentation algorithms. Such a resource would allow: 1) objective assessment of general-purpose segmentation methods through comprehensive benchmarking and 2) open and free access to medical image data for any researcher interested in the problem domain. Through a multi-institutional effort, we generated a large, curated dataset representative of several highly variable segmentation tasks that was used in a crowd-sourced challenge - the Medical Segmentation Decathlon held during the 2018 Medical Image Computing and Computer Aided Interventions Conference in Granada, Spain. Here, we describe these ten labeled image datasets so that these data may be effectively reused by the research community.
研究动机与目标
- 创建一个跨多种解剖结构的大型开源注释医学图像集合,以实现对通用分割方法的客观基准测试。
- 通过提供去识别化、重新格式化为通用格式、非专业人员也可使用的数据,促进医学影像数据的民主化访问。
- 通过在 MICCAI 2018 期间举行的众包挑战(MSD),促进跨多样化任务的算法泛化性能评估。
- 提供标准化的数据描述和基础设施,支持分割研究中的重用性和可重复性。
提出的方法
- 收集了来自多种解剖结构、模态和机构的 2,633 张三维图像,以反映现实世界的变异。
- 按照贡献地点的 IRB 政策进行去识别化处理。
- 将所有图像重新格式化为 NIfTI 格式,以减少对专用软件的依赖。
- 提供十个带标签的数据集,附带 JSON 描述符和用于 MSD 挑战的训练/测试划分。
- 手工验证并将坐标系纠正为一致的 Right-Anterior-Superior (RAS) 空间。
- 在 Creative Commons CC-BY-SA 4.0 下发布数据,并提供使用和署名指南。
实验结果
研究问题
- RQ1单个大型、开放的数据集是否能够在多样化任务中实现对通用分割算法的客观基准测试?
- RQ2多机构、多模态数据如何影响分割方法的开发与评估?
- RQ3是否可行提供标准化的描述符和格式,便于非医学影像专家的研究人员重复使用?
- RQ4众包挑战(MSD)在衡量分割算法的泛化能力方面的潜力如何?
- RQ5获取协议的现实世界变异如何影响分割性能和基准测试?
主要发现
- MSD 数据集包含十个任务,拥有 2,633 张三维图像,代表大脑、心脏、肝脏、海马、前列腺、肺、胰腺、肝血管、脾脏和结肠分割。
- 所有数据已重新格式化为 NIfTI,并由 JSON 描述符描述,便于使用常见工具(如 3D Slicer、ITK-Snap、MATLAB)。
- 数据已进行去识别化处理,并在 CC-BY-SA 4.0 下共享,以最大化重用性,同时保留署名。
- 在 2018 年的 Medical Segmentation Decathlon 挑战中积极用于跨任务基准通用分割方法。
- 数据集反映了较大的采集与重建变异性,代表跨多家机构的现实临床成像场景。
- 示例使用注释强调方向一致性(RAS)和非定量幅度的处理,以保持数据完整性。)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。