[論文レビュー] Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning
SurgSAM-2 はリアルタイムの手術動画セグメンテーションのために SAM2 を動的コサイン類似性フレーム pruning によって最適化し、メモリ使用を削減し FPS を向上させつつほとんどの精度損失を伴わない。資源制約下で EndoVis17/18 で最先端の結果を達成。
Surgical video segmentation is a critical task in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, the Segment Anything Model 2 (SAM2) framework has shown superior advancements in image and video segmentation. However, SAM2 struggles with efficiency due to the high computational demands of processing high-resolution images and complex and long-range temporal dynamics in surgical videos. To address these challenges, we introduce Surgical SAM 2 (SurgSAM2), an advanced model to utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate real-time surgical video segmentation. The EFP mechanism dynamically manages the memory bank by selectively retaining only the most informative frames, reducing memory usage and computational cost while maintaining high segmentation accuracy. Our extensive experiments demonstrate that SurgSAM2 significantly improves both efficiency and segmentation accuracy compared to the vanilla SAM2. Remarkably, SurgSAM2 achieves a 3$ imes$ FPS compared with SAM2, while also delivering state-of-the-art performance after fine-tuning with lower-resolution data. These advancements establish SurgSAM2 as a leading model for surgical video analysis, making real-time surgical video segmentation in resource-constrained environments a reality. Our source code is available at https://github.com/jinlab-imvr/Surgical-SAM-2.
研究の動機と目的
- 資源制約の下でリアルタイム手術動画セグメンテーションを動機付ける。
- SAM2 を手術環境に適応させるために不要なフレーム処理を削減。
- 動的なメモリ管理モジュールをフレーム pruning を用いて開発し、重要な時系列文脈を保持。
- EndoVis17/18 データセット上での効率-精度のトレードオフを実証。
- リアルタイムの手術ワークフローで SAM ベースモデルを展開するための洞察を提供。
提案手法
- 動的メモリバンク管理システムを用いて SAM2 を拡張。
- 過去フレームを prune するためにコサイン類似度を使用した Efficient Frame Pruning (EFP) を導入。
- 現在のフレームを保持するだけでなく、 previous frames の選択的サブセットをメモリバンクに保持するよう設定(n=5, m=2; 最初のフレームは常に保持)。
- プロンプトと画像エンコーダを固定化したまま、マスクデコーダとメモリモジュールのみファインチューニング。
- 混合ビデオと画像データを 512x512 解像度で訓練; 半精度 bf16 を使用。
- EndoVis17/18 データセットを跨いで多マスク出力、IOU 予測、被遮蔽予測を評価。
実験結果
リサーチクエスチョン
- RQ1コサイン類似度に基づく選択的フレーム pruning は、リアルタイム手術動画分析においてメモリと計算を削減しつつセグメンテーション精度を維持または向上させるか。
- RQ2メモリバンクサイズの削減が EndoVis17/18 における FPS、メモリ使用、インスタンスレベルの機器セグメンテーション性能に与える影響は何か。
- RQ3SM2 の通常の SAM2 と比較して、さまざまな prompting 設定(Full Mask、1 Point、5 Points)で CIoU/IoU、Dice、FPS、メモリの観点からどのように異なるか。
主な発見
| Dataset | Method | EFP | Fine- tuning | J | F | J&F | Dice | FPS | Memory (GB) |
|---|---|---|---|---|---|---|---|---|---|
| Endovis 17 | SAM2 | No | No | 85.9 | 89.1 | 87.5 | 90.2 | 29.10 | 3.10 |
| Endovis 17 | Ours | Yes | No | 85.7 | 88.6 | 87.2 | 89.9 | 33.00 | 2.83 |
| Endovis 17 | Ours | Yes | Yes | 88.2 | 90.6 | 89.4 | 92.3 | 86.03 | 1.08 |
| Endovis 18 | SAM2 | No | No | 78.4 | 78.6 | 78.5 | 81.7 | 29.18 | 3.14 |
| Endovis 18 | Ours | Yes | No | 81.9 | 81.9 | 81.9 | 85.2 | 33.08 | 2.82 |
| Endovis 18 | Ours | Yes | Yes | 81.9 | 82.0 | 82.0 | 85.3 | 86.11 | 1.02 |
| Endovis 17 | SAM2 | No | No | 81.1 | 83.8 | 82.5 | 85.1 | 29.09 | 3.11 |
| Endovis 17 | Ours | Yes | No | 79.9 | 83.3 | 81.6 | 84.8 | 33.16 | 2.89 |
| Endovis 17 | Ours | Yes | Yes | 82.7 | 84.2 | 83.4 | 87.3 | 85.95 | 1.09 |
| Endovis 18 | SAM2 | No | No | 71.5 | 73.0 | 72.3 | 74.2 | 29.21 | 3.15 |
| Endovis 18 | Ours | Yes | No | 71.9 | 73.3 | 72.6 | 75.5 | 33.07 | 2.85 |
| Endovis 18 | Ours | Yes | Yes | 72.6 | 73.8 | 73.2 | 76.7 | 86.04 | 1.04 |
| Endovis 17 | SAM2 | No | No | 82.0 | 85.9 | 83.9 | 86.7 | 29.13 | 3.14 |
| Endovis 17 | Ours | Yes | No | 81.9 | 85.3 | 83.6 | 86.7 | 33.08 | 2.85 |
| Endovis 17 | Ours | Yes | Yes | 86.9 | 89.1 | 88.0 | 91.4 | 85.94 | 1.05 |
| Endovis 18 | SAM2 | No | No | 76.2 | 76.3 | 76.3 | 80.0 | 29.29 | 3.12 |
| Endovis 18 | Ours | Yes | No | 79.1 | 79.2 | 79.1 | 82.8 | 33.13 | 2.87 |
| Endovis 18 | Ours | Yes | Yes | 80.9 | 80.7 | 80.8 | 84.9 | 86.00 | 1.02 |
| CIoU (EndoVis18) - SurgSAM-2 (1 Point) | - | - | - | - | - | - | - | - | 72.6 |
| CIoU (EndoVis18) - SurgSAM-2 (5 Points) | - | - | - | - | - | - | - | - | 82.1 |
| CIoU (EndoVis18) - SurgSAM-2 (Full) | - | - | - | - | - | - | - | - | 84.4 |
- SurgSAM-2 はプロンプト設定ごとに SAM2 と比較して FPS を平均 13.8% 増加。
- 提案された EFP メカニズムによりメモリ使用量が平均約 8.5% 減少。
- 低解像度入力(512x512)+ EFP によるファインチューニングは、EndoVis データセット全体でフル解像度 SAM2 に対して優れたまたは競合的な精度を実現。
- 1点および5点プロンプトで SurgSAM-2 はタスク固有ベースラインと比較して競争力のある CIoU を達成しつつ、より高い FPS と低いメモリ負荷を提供。
- EndoVis17 では、SurgSAM-2 は一般に IoU/J&F/Dice を維持またはわずかに改善し、速度とメモリ効率の大幅な向上を示す。一方 EndoVis18 では、EFP によって精度が向上することが多く、速度/メモリの利得と共に改善。
- 既存の外科用器具法と他の SAM ベース手法と比較して、SurgSAM-2 はセグメンテーション品質とリアルタイム性能の最適なバランスを提供。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。