Skip to main content
QUICK REVIEW

[论文解读] Segment Anything in Medical Images and Videos: Benchmark and Deployment

Jun Ma, Sumin Kim|arXiv (Cornell University)|Aug 6, 2024
Image Retrieval and Classification Techniques被引用 11
一句话总结

本文在11种医学模态上对 SAM2 进行基准测试(2D/3D 图像和视频),与 SAM1 和 MedSAM 进行比较,并展示迁移学习、通过 3D Slicer 和 Gradio 部署,以及一个关于医学适应的用例研究。

ABSTRACT

Recent advances in segmentation foundation models have enabled accurate and efficient segmentation across a wide range of natural images and videos, but their utility to medical data remains unclear. In this work, we first present a comprehensive benchmarking of the Segment Anything Model 2 (SAM2) across 11 medical image modalities and videos and point out its strengths and weaknesses by comparing it to SAM1 and MedSAM. Then, we develop a transfer learning pipeline and demonstrate SAM2 can be quickly adapted to medical domain by fine-tuning. Furthermore, we implement SAM2 as a 3D slicer plugin and Gradio API for efficient 3D image and video segmentation. The code has been made publicly available at \url{https://github.com/bowang-lab/MedSAM}.

研究动机与目标

  • 对 SAM2 进行覆盖11种医学图像模态(2D/3D 图像与视频)的基准,以识别相对于 SAM1 和 MedSAM 的优点与不足。
  • 展示将 SAM2 迁移学习应用于医学成像任务的流程。
  • 开发实用的部署接口(3D Slicer 插件和 Gradio API),以高效完成医学数据标注。

提出的方法

  • 使用边界框提示和针对3D/视频的特征传播,对2D、3D和视频模态下的 SAM1、SAM2(以及 MedSAM)进行评估,依赖提示分割。
  • 以中间切片/第一帧提示初始化二维掩模,然后扩展到其余切片/帧。
  • 在医学 CT 数据集上微调 SAM2-T,固定提示编码器,更新图像编码器/掩码解码器(AdamW,6e-5,1000 个 epoch)。
  • 使用 Dice 相似系数(DSC)和归一化表面距离(NSD)评估性能。
  • 提供 3D Slicer 插件和 Gradio API,以实现基于 SAM2 的分割的非编码医学工作流。

实验结果

研究问题

  • RQ1相较于 SAM1 和 MedSAM,SAM2 在广泛的医学图像模态上的表现如何?
  • RQ2SAM2 能否通过迁移学习有效适应医学成像,而不丧失通用分割能力?
  • RQ3实用接口(3D Slicer 插件,Gradio API)是否实现了对医疗数据的高效标注与部署?
  • RQ4SAM2 的不同模型规模及初始化策略对2D/3D医学分割性能有何影响?
  • RQ5视频分割如何扩展 SAM2 在医学视频(如超声、内窥镜)中的应用?

主要发现

  • SAM2 的结果喜忧参半:在 MR、皮肤镜和光学显微在2D上优于 SAM1,但在 PET 和 OCT 落后;在若干模态上总体势均力敌。
  • MedSAM 通常在11种模态中的9种上实现更高的2D分割精度,PET 和光学显微除外,因为训练数据存在缺口。
  • 对于3D数据,SAM2-B 通常优于 SAM1,但在 PET 中 SAM1 可能胜出;3D 视频式传播提升 CT 和 MR 分割。
  • 使用 MedSAM 或真实掩码初始化中间切片可显著提升3D分割(使用 MedSAM 时,DSC 提升约17.5%、NSD 提升约33.3%;GT 的提升更大)。
  • SAM2 在视频分割方面具有竞争力(超声和内窥镜),顶尖变体的 DSC 最高达 0.8537(超声)和 0.8397(内窥镜)。
  • 迁移学习(微调 SAM2-T)在腹部三维器官分割上获得显著提升(例如肝脏 DSC 从 0.5802 提升到 0.9681;NSD 从 0.3605 提升到 0.9127)。
  • 通过 3D Slicer 插件和 Gradio API 提供了一个实际的部署路径,使非编码医学数据标注成为可能,基于 SAM2。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。