QUICK REVIEW

[论文解读] Segment Anything in Medical Images and Videos: Benchmark and Deployment

Jun Ma, Sumin Kim|arXiv (Cornell University)|Aug 6, 2024

Image Retrieval and Classification Techniques被引用 11

一句话总结

本文在11种医学模态上对 SAM2 进行基准测试（2D/3D 图像和视频），与 SAM1 和 MedSAM 进行比较，并展示迁移学习、通过 3D Slicer 和 Gradio 部署，以及一个关于医学适应的用例研究。

ABSTRACT

Recent advances in segmentation foundation models have enabled accurate and efficient segmentation across a wide range of natural images and videos, but their utility to medical data remains unclear. In this work, we first present a comprehensive benchmarking of the Segment Anything Model 2 (SAM2) across 11 medical image modalities and videos and point out its strengths and weaknesses by comparing it to SAM1 and MedSAM. Then, we develop a transfer learning pipeline and demonstrate SAM2 can be quickly adapted to medical domain by fine-tuning. Furthermore, we implement SAM2 as a 3D slicer plugin and Gradio API for efficient 3D image and video segmentation. The code has been made publicly available at \url{https://github.com/bowang-lab/MedSAM}.

研究动机与目标

对 SAM2 进行覆盖11种医学图像模态（2D/3D 图像与视频）的基准，以识别相对于 SAM1 和 MedSAM 的优点与不足。
展示将 SAM2 迁移学习应用于医学成像任务的流程。
开发实用的部署接口（3D Slicer 插件和 Gradio API），以高效完成医学数据标注。

提出的方法

使用边界框提示和针对3D/视频的特征传播，对2D、3D和视频模态下的 SAM1、SAM2（以及 MedSAM）进行评估，依赖提示分割。
以中间切片/第一帧提示初始化二维掩模，然后扩展到其余切片/帧。
在医学 CT 数据集上微调 SAM2-T，固定提示编码器，更新图像编码器/掩码解码器（AdamW，6e-5，1000 个 epoch）。
使用 Dice 相似系数（DSC）和归一化表面距离（NSD）评估性能。
提供 3D Slicer 插件和 Gradio API，以实现基于 SAM2 的分割的非编码医学工作流。

实验结果

研究问题

RQ1相较于 SAM1 和 MedSAM，SAM2 在广泛的医学图像模态上的表现如何？
RQ2SAM2 能否通过迁移学习有效适应医学成像，而不丧失通用分割能力？
RQ3实用接口（3D Slicer 插件，Gradio API）是否实现了对医疗数据的高效标注与部署？
RQ4SAM2 的不同模型规模及初始化策略对2D/3D医学分割性能有何影响？
RQ5视频分割如何扩展 SAM2 在医学视频（如超声、内窥镜）中的应用？

主要发现

SAM2 的结果喜忧参半：在 MR、皮肤镜和光学显微在2D上优于 SAM1，但在 PET 和 OCT 落后；在若干模态上总体势均力敌。
MedSAM 通常在11种模态中的9种上实现更高的2D分割精度，PET 和光学显微除外，因为训练数据存在缺口。
对于3D数据，SAM2-B 通常优于 SAM1，但在 PET 中 SAM1 可能胜出；3D 视频式传播提升 CT 和 MR 分割。
使用 MedSAM 或真实掩码初始化中间切片可显著提升3D分割（使用 MedSAM 时，DSC 提升约17.5%、NSD 提升约33.3%；GT 的提升更大）。
SAM2 在视频分割方面具有竞争力（超声和内窥镜），顶尖变体的 DSC 最高达 0.8537（超声）和 0.8397（内窥镜）。
迁移学习（微调 SAM2-T）在腹部三维器官分割上获得显著提升（例如肝脏 DSC 从 0.5802 提升到 0.9681；NSD 从 0.3605 提升到 0.9127）。
通过 3D Slicer 插件和 Gradio API 提供了一个实际的部署路径，使非编码医学数据标注成为可能，基于 SAM2。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。