[论文解读] Segment Anything in Medical Images and Videos: Benchmark and Deployment
本文在11种医学模态上对 SAM2 进行基准测试(2D/3D 图像和视频),与 SAM1 和 MedSAM 进行比较,并展示迁移学习、通过 3D Slicer 和 Gradio 部署,以及一个关于医学适应的用例研究。
Recent advances in segmentation foundation models have enabled accurate and efficient segmentation across a wide range of natural images and videos, but their utility to medical data remains unclear. In this work, we first present a comprehensive benchmarking of the Segment Anything Model 2 (SAM2) across 11 medical image modalities and videos and point out its strengths and weaknesses by comparing it to SAM1 and MedSAM. Then, we develop a transfer learning pipeline and demonstrate SAM2 can be quickly adapted to medical domain by fine-tuning. Furthermore, we implement SAM2 as a 3D slicer plugin and Gradio API for efficient 3D image and video segmentation. The code has been made publicly available at \url{https://github.com/bowang-lab/MedSAM}.
研究动机与目标
- 对 SAM2 进行覆盖11种医学图像模态(2D/3D 图像与视频)的基准,以识别相对于 SAM1 和 MedSAM 的优点与不足。
- 展示将 SAM2 迁移学习应用于医学成像任务的流程。
- 开发实用的部署接口(3D Slicer 插件和 Gradio API),以高效完成医学数据标注。
提出的方法
- 使用边界框提示和针对3D/视频的特征传播,对2D、3D和视频模态下的 SAM1、SAM2(以及 MedSAM)进行评估,依赖提示分割。
- 以中间切片/第一帧提示初始化二维掩模,然后扩展到其余切片/帧。
- 在医学 CT 数据集上微调 SAM2-T,固定提示编码器,更新图像编码器/掩码解码器(AdamW,6e-5,1000 个 epoch)。
- 使用 Dice 相似系数(DSC)和归一化表面距离(NSD)评估性能。
- 提供 3D Slicer 插件和 Gradio API,以实现基于 SAM2 的分割的非编码医学工作流。
实验结果
研究问题
- RQ1相较于 SAM1 和 MedSAM,SAM2 在广泛的医学图像模态上的表现如何?
- RQ2SAM2 能否通过迁移学习有效适应医学成像,而不丧失通用分割能力?
- RQ3实用接口(3D Slicer 插件,Gradio API)是否实现了对医疗数据的高效标注与部署?
- RQ4SAM2 的不同模型规模及初始化策略对2D/3D医学分割性能有何影响?
- RQ5视频分割如何扩展 SAM2 在医学视频(如超声、内窥镜)中的应用?
主要发现
- SAM2 的结果喜忧参半:在 MR、皮肤镜和光学显微在2D上优于 SAM1,但在 PET 和 OCT 落后;在若干模态上总体势均力敌。
- MedSAM 通常在11种模态中的9种上实现更高的2D分割精度,PET 和光学显微除外,因为训练数据存在缺口。
- 对于3D数据,SAM2-B 通常优于 SAM1,但在 PET 中 SAM1 可能胜出;3D 视频式传播提升 CT 和 MR 分割。
- 使用 MedSAM 或真实掩码初始化中间切片可显著提升3D分割(使用 MedSAM 时,DSC 提升约17.5%、NSD 提升约33.3%;GT 的提升更大)。
- SAM2 在视频分割方面具有竞争力(超声和内窥镜),顶尖变体的 DSC 最高达 0.8537(超声)和 0.8397(内窥镜)。
- 迁移学习(微调 SAM2-T)在腹部三维器官分割上获得显著提升(例如肝脏 DSC 从 0.5802 提升到 0.9681;NSD 从 0.3605 提升到 0.9127)。
- 通过 3D Slicer 插件和 Gradio API 提供了一个实际的部署路径,使非编码医学数据标注成为可能,基于 SAM2。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。