[论文解读] Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning
SurgSAM-2 通过动态余弦相似度帧裁剪对 SAM2 进行实时手术视频分割,降低内存使用并在几乎无精度损失的情况下提升 FPS。它在 EndoVis17/18 上实现了最先进的结果,同时在资源受限的环境中运行。
Surgical video segmentation is a critical task in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, the Segment Anything Model 2 (SAM2) framework has shown superior advancements in image and video segmentation. However, SAM2 struggles with efficiency due to the high computational demands of processing high-resolution images and complex and long-range temporal dynamics in surgical videos. To address these challenges, we introduce Surgical SAM 2 (SurgSAM2), an advanced model to utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate real-time surgical video segmentation. The EFP mechanism dynamically manages the memory bank by selectively retaining only the most informative frames, reducing memory usage and computational cost while maintaining high segmentation accuracy. Our extensive experiments demonstrate that SurgSAM2 significantly improves both efficiency and segmentation accuracy compared to the vanilla SAM2. Remarkably, SurgSAM2 achieves a 3$ imes$ FPS compared with SAM2, while also delivering state-of-the-art performance after fine-tuning with lower-resolution data. These advancements establish SurgSAM2 as a leading model for surgical video analysis, making real-time surgical video segmentation in resource-constrained environments a reality. Our source code is available at https://github.com/jinlab-imvr/Surgical-SAM-2.
研究动机与目标
- 在资源受限的条件下推动实时手术视频分割。
- 通过减少冗余帧处理来为手术环境适配 SAM2。
- 开发使用帧裁剪的动态内存管理模块,以保留关键的时序上下文。
- 在 EndoVis17/18 数据集上展示效率-精度权衡。
- 为在实时手术工作流程中部署基于 SAM 的模型提供洞察。
提出的方法
- 在 SAM2 中扩展一个动态内存库管理系统。
- 引入基于余弦相似度的高效帧裁剪(EFP),用于裁剪过去的帧。
- 将内存库配置为保留当前帧及其前若干帧的选择子集(n=5,m=2;第一帧始终保留)。
- 仅微调掩码解码器和内存模块,同时冻结提示符和图像编码器。
- 以 512x512 分辨率混合视频和图像数据训练;使用半精度(bf16)。
- 在 EndoVis17/18 数据集上评估多掩码输出、IOU 预测和遮挡预测。
实验结果
研究问题
- RQ1基于余弦相似度的选择性帧裁剪是否能在降低内存和计算量的同时维持或提升实时手术视频分析的分割精度?
- RQ2减少内存库大小对 EndoVis17/18 的 FPS、内存使用以及实例级器械分割性能有何影响?
- RQ3在不同提示设置(Full Mask、1 Point、5 Points)下,SurgSAM-2 与普通的 SAM2 在 CIoU/IoU、Dice、FPS 和内存方面的比较?
主要发现
- 与 SAM2 相比,SurgSAM-2 在所有提示设置下平均将 FPS 提高 13.8%。
- 在提议的 EFP 机制下,内存使用量平均降低约 8.5%。
- 使用较低分辨率输入(512x512)并结合 EFP 的微调,在 EndoVis 数据集上与全分辨率的 SAM2 相比,取得更优或具竞争力的精度。
- 在 1 点和 5 点提示下,SurgSAM-2 的 CIoU 与任务特定基线相比具有竞争力,同时提供更高的 FPS 和更低的内存占用。
- 在 EndoVis17 上,SurgSAM-2 通常维持或适度提升 IoU/J&F/Dice,相对于 SAM2 在速度和内存效率方面有显著提升;在 EndoVis18 上,准确度在应用 EFP 时常常改进,同时伴随速度和内存的提升。
- 相比现有的手术器械方法和其他基于 SAM 的方法,SurgSAM-2 提供了分割质量与实时性能之间的最佳平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。