Skip to main content
QUICK REVIEW

[論文レビュー] Automatic Segmentation of 3D CT scans with SAM2 using a zero-shot approach

Miquel Lopez Escoriza, Pau Amargant Alvarez|arXiv (Cornell University)|Mar 24, 2026
Medical Image Segmentation Techniques被引用数 0
ひとこと要約

本論文は、SAM2 を用いて体積を疑似ビデオとして再解釈し、推論時設計(メモリ、プロンプト、多軸伝搬)を最適化することで、ファインチューニングなしに整合的な3Dセグメンテーションを実現する厳密なゼロショット手法を提案する。

ABSTRACT

Foundation models for image segmentation have shown strong generalization in natural images, yet their applicability to 3D medical imaging remains limited. In this work, we study the zero-shot use of Segment Anything Model 2 (SAM2) for automatic segmentation of volumetric CT data, without any fine-tuning or domain-specific training. We analyze how SAM2 should be applied to CT volumes and identify its main limitation: the lack of inherent volumetric awareness. To address this, we propose a set of inference-alone architectural and procedural modifications that adapt SAM2's video-based memory mechanism to 3D data by treating CT slices as ordered sequences. We conduct a systematic ablation study on a subset of 500 CT scans from the TotalSegmentator dataset to evaluate prompt strategies, memory propagation schemes and multi-pass refinement. Based on these findings, we select the best-performing configuration and report final results on a bigger sample of the TotalSegmentator dataset comprising 2,500 CT scans. Our results show that, even with frozen weights, SAM2 can produce coherent 3D segmentations when its inference pipeline is carefully structured, demonstrating the feasibility of a fully zero-shot approach for volumetric medical image segmentation.

研究の動機と目的

  • SAM2 のゼロショットでの3D 医用 CT データのセグメンテーションをファインチューニングなしで動機付ける。
  • SAM2 における体積認識を作る推論時のアーキテクチャと手順の調整を調査する。
  • 骨構造セグメンテーションタスクでプロンプト、メモリ使用、伝搬戦略を体系的にアブレーションする。
  • TotalSegmentator で評価し、体積と構造の一般化を検証する。

提案手法

  • 3D CT 体積を偽のビデオとして解釈し、軸方向(z)を時間として扱う。
  • SAM2 を凍結したまま、推論時設計を探索する:メモリ選択、伝搬、プロンプト。
  • 体積対応のメモリ戦略を導入:条件付きフレーム選択、メモリウィンドウサイズ、知的スライシング。
  • 三軸伝搬(軸方向、冠状面、矢状面)を適用し、全軸のロジットを統合して最終セグメンテーションを作成。
  • TotalSegmentator の500体積で体系的なアブレーションを実施し、最終結果を2500体積で報告。
Figure 1 : Adaptation of SAM2 to 3D CT volumes . A CT scan is interpreted as a pseudo-video by treating the depth ( $z$ ) axis as the temporal dimension. At each slice $t$ , the input image is processed by the image encoder to produce an embedding. Embeddings from prompted slices (first $\&$ last fr
Figure 1 : Adaptation of SAM2 to 3D CT volumes . A CT scan is interpreted as a pseudo-video by treating the depth ( $z$ ) axis as the temporal dimension. At each slice $t$ , the input image is processed by the image encoder to produce an embedding. Embeddings from prompted slices (first $\&$ last fr

実験結果

リサーチクエスチョン

  • RQ1SAM2 はトレーニングなしの設定で CT 体積の整合的な3Dセグメンテーションを生成できるか?
  • RQ2推論時の選択(プロンプト戦略、メモリ伝搬、マルチ軸融合)で体積認識を最も効果的に誘発できるのはどれか?
  • RQ3メモリ設計と伝搬戦略は CT 体積の骨構造のセグメーション品質にどのような影響を与えるか?
  • RQ4体積医療データに SAM2 を適用する際の精度と計算量のトレードオフは?

主な発見

方法DiceIoUHD
NP0.594 \u00b1 0.2420.509 \u00b1 0.22711.177 \u00b1 9.366
Baseline0.804 \u00b1 0.1340.734 \u00b1 0.1486.240 \u00b1 6.563
SPS0.823 \u00b1 0.1170.751 \u00b1 0.1345.236 \u00b1 5.740
IS0.822 \u00b1 0.1250.759 \u00b1 0.1385.683 \u00b1 5.178
IS + SPS0.841 \u00b1 0.1070.778 \u00b1 0.1224.788 \u00b1 4.930
  • 慎重に設計された推論時コンポーネントを備えたゼロショット SAM2 パイプラインは CT 体積で整合的な3Dセグメンテーションを実現する。
  • プロンプト条件付きメモリは近接スライスに焦点を当てるべきで、最適な時間的閾値は約0.3(構造化プロンプト選択)で Dice を約2%向上させる。
  • 最近の非プロンプトフレームの少数集合に注目する(Intelligent Slicing)はベースラインを上回り実行時間を短縮できる。
  • 三軸伝搬とより大きなプロンプト予算は単一軸伝搬を上回り、2500体積で約4%の総合 Dice 改善をもたらす。
  • 椎骨セグメンテーションでは提案設定で絶対 Dice が12.5%改善を示し、全データセットで下流効果が示唆される。
  • スパースなプロンプトでも最も良い構成は Dice ≈ 0.841、IoU ≈ 0.778、HD ≈ 4.788 を主表で示し、ベースラインの Dice ≈ 0.804、IoU ≈ 0.734 と比較して改善。
  • 本研究は推論時適応を通じて SAM2 を用いた完全なゼロショット3D セグメンテーションの実現性を示す一方で、顕著な改善には依然としてアーキテクチャまたは医療領域の調整が必要である。
Figure 2 : Multi-axis propagation and fusion strategy . A 3D CT volume is segmented independently along the axial, sagittal, and coronal axes using SAM2. Each axis produces a logit volume, which are reoriented to a common reference frame and merged to obtain the final segmentation.
Figure 2 : Multi-axis propagation and fusion strategy . A 3D CT volume is segmented independently along the axial, sagittal, and coronal axes using SAM2. Each axis produces a logit volume, which are reoriented to a common reference frame and merged to obtain the final segmentation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。