[论文解读] SegVol: Universal and Interactive Volumetric Medical Image Segmentation
SegVol 是一个用于交互式、通用体积医学影像分割的基础模型,使用文本、点和框提示,并通过缩小放大-再放大机制,在200多个解剖类别上实现分割,对困难目标和病变具有强大性能。
Precise image segmentation provides clinical study with instructive information. Despite the remarkable progress achieved in medical image segmentation, there is still an absence of a 3D foundation segmentation model that can segment a wide range of anatomical categories with easy user interaction. In this paper, we propose a 3D foundation segmentation model, named SegVol, supporting universal and interactive volumetric medical image segmentation. By scaling up training data to 90K unlabeled Computed Tomography (CT) volumes and 6K labeled CT volumes, this foundation model supports the segmentation of over 200 anatomical categories using semantic and spatial prompts. To facilitate efficient and precise inference on volumetric images, we design a zoom-out-zoom-in mechanism. Extensive experiments on 22 anatomical segmentation tasks verify that SegVol outperforms the competitors in 19 tasks, with improvements up to 37.24% compared to the runner-up methods. We demonstrate the effectiveness and importance of specific designs by ablation study. We expect this foundation model can promote the development of volumetric medical image analysis. The model and code are publicly available at: https://github.com/BAAI-DCAI/SegVol.
研究动机与目标
- 动机:在多样数据集和多样解剖类别下,提出一个用于体积医学影像分割的通用、交互式基础模型的需求。
- 开发 SegVol,使其能够从大规模未标注的 CT 数据和带标注的掩码中学习,实现对多种器官、组织和病变的零-shot 或少-shot 分割。
- 整合语义(文本)和空间(点/框)提示以引导分割,并在具有挑战性的目标上提升准确性。
- 引入一种计算高效的 zoom-out-zoom-in 框架,在保持细节的同时降低推理成本。
- 在多个数据集上将 SegVol 与最先进方法进行比较,并进行消融实验以验证设计选择。
提出的方法
- 在 96k 未标注的 CT 上使用 MAE 预训练一个 Vision Transformer (ViT) 图像编码器,随后在 6k 标注的 CT 上进行监督训练,配套 150k 掩码。
- 使用基于 CLIP 的文本提示对解剖类别名称进行编码,从而实现文本驱动的跨 200+ 目标的通用分割。
- 融入用于点和框提示的空间提示编解码器,并在共享提示嵌入中与语义文本提示融合。
- 实现带自注意力和跨注意力的掩码解码器,以融合图像和提示嵌入并生成 3D 掩码。
- 采用 zoom-out-zoom-in 训练与推理方案,通过全局再局部细化来处理大体积。
- 结合 25 个开源 CT 数据集以及 FH 生成的伪掩码进行联合训练,以缓解部分标签问题并提升泛化。

实验结果
研究问题
- RQ1SegVol 是否能够在使用语义(文本)和空间(点/框)提示的情况下,对>200个解剖类别进行分割?
- RQ2缩放出-缩放入 机制是否能够在降低计算量的同时实现高分辨率的准确分割?
- RQ3与传统方法如 nnU-Net 相比,SegVol 在困难的病变分割任务上的表现如何?
- RQ4大规模预训练和多数据集训练对分割鲁棒性与泛化能力有何影响?
- RQ5基于提示的学习在统一具有不同标签空间的多样化 CT 数据集方面的有效性如何?
主要发现
- SegVol 在跨数据集的 19 个主要目标上实现了平均 Dice 83.02%。
- 在硬分割目标(如肿瘤)上,SegVol 在平均 Dice 分数上比 nnU-Net 高出约 14.76%。
- 在 MSD-lung、MSD-colon 和 MSD-liver 的病变分割上,SegVol 在平均 Dice 分数上超过 nnU-Net 19.58%。
- 缩放出-缩放入机制带来可量化的收益(例如肝肿瘤 Dice 通过 zoom-in 精炼提升 21.32%)。
- 基于提示的学习(文本+空间提示)显著提升了分割精度,相较于单一类型的提示,特别是在具有挑战性的目标上。
- SegVol 相对于其他分割方法仍然轻量级,同时在众多目标上实现通用且精确的结果。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。