[論文レビュー] Segment anything model 2: an application to 2D and 3D medical images
この研究は SAM 2 を 21 の医療データセットで 2D の単一フレームおよび 3D の多フレーム分割を評価し、 prompting と propagation の戦略を調査し、SAM および SAM-Med3D と比較し、3D ボリュームのインタラクティブ prompting 手法を提案する。
Segment Anything Model (SAM) has gained significant attention because of its ability to segment various objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we extensively evaluate SAM 2's ability to segment both 2D and 3D medical images by first collecting 21 medical imaging datasets, including surgical videos, common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. Two evaluation settings of SAM 2 are considered: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former only applies to videos and 3D modalities, while the latter applies to all datasets. Our results show that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc. We believe our work enhances the understanding of SAM 2's behavior in the medical field and provides directions for future work in adapting SAM 2 to this domain. Our code is available at: https://github.com/mazurowski-lab/segment-anything2-medical-evaluation.
研究の動機と目的
- 単一フレームのプロンプトを用いて、多様な 2D 医用画像に対する SAM 2 のセグメンテーション性能を評価する。
- スライスをフレームとして扱い、ボリューム全体にわたる伝播戦略を探索することで、SAM 2 の 3D セグメンテーション能力を評価する。
- prompting モード、フレーム選択、伝播方向が 3D セグメンテーションの精度に与える影響を分析する。
- 医用画像タスクにおける相対的な強みを確立するため、SAM 2 を SAM および SAM-Med3D と比較する。
提案手法
- 2D の単一フレーム分割と 21 データセット(MRI、CT、PET、X 線、超音波、およびビデオ)にまたがる多フレーム 3D 分割の 2 つの設定を評価する。
- 4 種類の 2D prompting モード(ポイントとボックス、最大 3 プロンプト)と、実ユーザー入力を模擬する真値マスクプロンプトを使用する。
- 多フレーム 3D セグメンテーションでは、4 種類のフレームモード、4 種類のプロンプトモード(GT プロンプトを含む)、2 種類の伝播方向(前方から後方、双方向)、2 種類のマスク選択戦略をテストし、64 通りの構成を得る。
- プロンプトなしでスライス間に予測を伝播させるため、メモリバンクの概念(メモリアテンションモジュールとメモリエンコーダ)を用いて SAM 2 を拡張する。
- SAM 2 を SAM-Med3D と比較し、3D 医用ボリュームに対するメモリ、伝播、プロンプトの効果を分析する。
- ボリューム全体にわたるオフラインでの結果を改善するため、補正ベースと再初期化ベースの 2 つのインタラクティブ prompting アルゴリズムを提示する。

実験結果
リサーチクエスチョン
- RQ1SAM と比較して、SAM 2 は単一フレームの 2D 医用画像セグメンテーションでどのように性能を示すか?
- RQ2プロンプトの有無を問わず、スライス間を伝播させる場合の SAM 2 の多フレーム 3D 医用画像セグメンテーションの有効性はどの程度か?
- RQ3フレーム選択、プロンプトモード、メモリベースの伝播、予測マスク選択が 3D セグメンテーション性能に与える影響は何か?
- RQ43D 医用画像に適用した場合、SAM 2 は SAM-Med3D と競合するか、または優れているか?
- RQ5インタラクティブ prompting 戦略は、オフラインの 3D 医用ボリュームのセグメンテーションを改善するか?
主な発見
- SAM 2 はデータセット全体で単一フレーム 2D セグメンテーションにおいて SAM に匹敵する性能を達成し、ボックスプロンプトは一般にポイントプロンプトよりも優れている。
- 多フレーム 3D セグメンテーションでは、前方-後方伝播より双方向伝播が一貫して IoU を改善し、特に非端部のスライスから開始する場合に顕著である。
- ポイントプロンプトでは最初の予測チャネルを選択する方が最も信頼度の高いチャネルを選ぶよりも優れることがあるが、ボックスプロンプトや GT プロンプトの場合は逆になる。
- 単一フレーム 2D と多フレーム 3D の設定間には性能差が存在し、少数のスライスをアノテーションする場合、ボックスプロンプトがこの差を最小化する。
- SAM 2 は一般に 23 の 3D 医用タスクでファインチューニング済みの SAM-Med3D より優れており、伝播によって保持される入力解像度が高い(1024x1024)一方、Med3D は過度なダウンサンプリングの影響を受けている可能性があるためと考えられる。
- インタラクティブ prompting 戦略は、控えめから顕著な向上を生む可能性があり、GT プロンプトは各スライスの改善が強い。補正ベース prompting は再初期化ベース手法より一部の設定で有利である。
- 設定を問わず、アノテーションするスライス数を増やしても総じて収益は減少する傾向があり、均一にサンプリングしたり難易度の高いスライスを狙っても常に大きな改善にはつながらない。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。