[论文解读] SA-Med2D-20M Dataset: Segment Anything in 2D Medical Imaging with 20 Million masks
SA-Med2D-20M 是一个拥有 460 万张图像和 1970 万张掩模的大规模二维医疗图像分割数据集,旨在通过广泛的模态和解剖覆盖将医学知识引入 SAM 风格的分割。
Segment Anything Model (SAM) has achieved impressive results for natural image segmentation with input prompts such as points and bounding boxes. Its success largely owes to massive labeled training data. However, directly applying SAM to medical image segmentation cannot perform well because SAM lacks medical knowledge -- it does not use medical images for training. To incorporate medical knowledge into SAM, we introduce SA-Med2D-20M, a large-scale segmentation dataset of 2D medical images built upon numerous public and private datasets. It consists of 4.6 million 2D medical images and 19.7 million corresponding masks, covering almost the whole body and showing significant diversity. This paper describes all the datasets collected in SA-Med2D-20M and details how to process these datasets. Furthermore, comprehensive statistics of SA-Med2D-20M are presented to facilitate the better use of our dataset, which can help the researchers build medical vision foundation models or apply their models to downstream medical applications. We hope that the large scale and diversity of SA-Med2D-20M can be leveraged to develop medical artificial intelligence for enhancing diagnosis, medical image analysis, knowledge sharing, and education. The data with the redistribution license is publicly available at https://github.com/OpenGVLab/SAM-Med2D.
研究动机与目标
- 通过提供一个大型、多样化的医疗分割数据集,弥合 Segment Anything Model (SAM) 与医学影像之间的差距。
- 创建一个广域的、多模态的二维医疗数据集,用于训练和适配基础模型以用于医学图像分析。
- 描述数据收集、归一化和掩模处理流程,以确保可用、可扩展的分割资源。
- 提供全面的数据集统计,指导研究人员利用 SA-Med2D-20M 进行下游医学应用。
提出的方法
- 从网络资源收集二维医疗图像分割数据集(例如 TCIA、OpenNeuro、NITRC、Grand Challenge、Synapse、GitHub)。
- 使用 Self-Min-Max 归一化将图像归一化为 PNG,并通过 2D/3D 切片处理统一尺寸。
- 通过将多标签掩模转换为二值掩模、分离连通组件、合并重叠区域、筛除小区域来处理掩模。
- 在 JSON 文件中记录掩模类别信息,并采用统一的图像和掩模命名规范。
- 提供一个就绪发布的数据集,包含详细统计信息,并考虑模态和解剖结构覆盖。
实验结果
研究问题
- RQ1一个医疗图像分割数据集需要多大、以及多么多样,才能有效地支持医学视觉基础模型?
- RQ2SAM 风格的分割框架是否能从一个大规模、跨模态的二维医疗图像数据集中受益?
- RQ3为了使异质医疗数据集适用于分割任务,需要哪些数据处理步骤来标准化?
主要发现
- SA-Med2D-20M 由 4.6 million 2D medical images 和 19.7 million masks 组成。
- 数据集覆盖 10 模态、31 主要器官以及 271 个带标签的类别,覆盖超过 200 个类别。
- CT 与 MR 模态在图像和掩模的收集中占主导地位。
- 掩模被处理为二值分量,移除小目标,并对齐到一致的格式。
- 数据统计显示长尾标签分布,许多类别的掩模少于 1000 个,且有 47 个类别位于 100k–1M 范围。
- 数据归一化为 PNG,并通过 JSON 记录类别映射以支持可重复的研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。