Skip to main content
QUICK REVIEW

[論文レビュー] Segment Anything in Medical Images and Videos: Benchmark and Deployment

Jun Ma, Sumin Kim|arXiv (Cornell University)|Aug 6, 2024
Image Retrieval and Classification Techniques被引用数 11
ひとこと要約

論文は SAM2 を 11 の医療モダリティ(2D/3D 画像と動画)でベンチマークし、SAM1 および MedSAM と比較、転移学習、3D Slicer および Gradio によるデプロイ、医療適応のケーススタディを提示します。

ABSTRACT

Recent advances in segmentation foundation models have enabled accurate and efficient segmentation across a wide range of natural images and videos, but their utility to medical data remains unclear. In this work, we first present a comprehensive benchmarking of the Segment Anything Model 2 (SAM2) across 11 medical image modalities and videos and point out its strengths and weaknesses by comparing it to SAM1 and MedSAM. Then, we develop a transfer learning pipeline and demonstrate SAM2 can be quickly adapted to medical domain by fine-tuning. Furthermore, we implement SAM2 as a 3D slicer plugin and Gradio API for efficient 3D image and video segmentation. The code has been made publicly available at \url{https://github.com/bowang-lab/MedSAM}.

研究の動機と目的

  • SAM2 を 11 の医療画像モダリティ(2D/3D 画像と動画)全体でベンチマークし、SAM1 および MedSAM に対する長所と弱点を特定する。
  • SAM2 を医療画像タスクへ適応する転移学習パイプラインを実証する。
  • 効率的な医療データアノテーションのための実用的デプロイメントインターフェース(3D Slicer プラグインと Gradio API)を開発する。

提案手法

  • 境界ボックスプロンプトと3D/動画向けの特徴伝搬を用いて SAM1・SAM2(および MedSAM)を2D、3D、動画モダリティで評価する(プロンプトセグメンテーションのため)。
  • 中間スライス/最初のフレームのプロンプトを用いて2Dマスクを初期化し、残りのスライス/フレームに伝搬させる。
  • 医療CTデータセットで SAM2-T をファインチューニングし、プロンプトエンコーダを凍結、画像エンコーダ/マスクデコーダを更新(AdamW、6e-5、1000エポック)。
  • Dice Similarity Coefficient (DSC) および Normalized Surface Distance (NSD) で性能を評価する。
  • SAM2 ベースのセグメンテーションを可能にする非コーディング医療ワークフローを実現する 3D Slicer プラグインと Gradio API を提供する。

実験結果

リサーチクエスチョン

  • RQ1SAM2 は SAM1 および MedSAM と比較して、幅広い医療画像モダリティでどの程度機能するか?
  • RQ2転移学習を介して SAM2 を医療画像へ適応させても、一般的なセグメンテーション能力を失わないか?
  • RQ3実用的なインターフェース(3D Slicer プラグイン、Gradio API)は医療データの効率的なアノテーションと SAM2 のデプロイを可能にするか?
  • RQ4SAM2 内の異なるモデルサイズと初期化戦略が2D/3D医療セグメンテーション性能に与える影響は?
  • RQ5ビデオセグメンテーションは SAM2 の医療動画(例:超音波、内視鏡)への有用性をどう広げるか?

主な発見

モダリティSAM1-BSAM1-LSAM1-HSAM2-TSAM2-SSAM2-BSAM2-LMedSAM
CT0.88250.90010.90280.90580.90900.92420.91670.9572
MR0.86200.86730.86020.88970.88670.88580.88630.9507
PET0.81980.81510.80420.78740.77910.78770.77270.8160
Ultrasound0.77490.77890.77030.77920.76140.75400.78730.9398
X-Ray0.80950.81810.80650.78350.78510.79390.78220.8573
Dermoscopy0.86830.87310.87060.89270.87060.88750.90680.9197
Endoscopy0.91700.93280.93950.93700.93460.93380.93150.9673
Fundus0.91190.95220.94950.93380.94750.94830.94650.9498
Mammography0.69310.74850.75120.74950.73040.71970.76010.8320
OCT0.74820.71480.71600.64140.63740.64980.62730.8166
Light Microscope0.83320.82460.81780.84310.83880.81880.83220.6873
  • SAM2 は混在した結果を示す:2D では MR、皮膚科写真、光学顕微鏡で SAM1 を上回る一方、PET および OCT では劣る; 全体としては複数モダリティで同等。
  • MedSAM は一般に 11 モダリティ中 9 で 2D セグメンテーション精度が高くなる傾向だが、PET および光学顕微鏡では学習データのギャップが課題。
  • 3D データでは SAM2-B が SAM1 を上回ることが多いが、PET では SAM1 が SAM2 を上回る可能性がある。3D の動画風伝搬は CT および MR のセグメンテーションを改善。
  • 中央スライスを MedSAM または真値マスクで初期化すると、3D セグメンテーションが大幅に改善(MedSAM で DS C 約 17.5% および NSD 約 33.3% の利得、GT の方がさらに大きい利得)。
  • SAM2 は動画セグメンテーション(超音波と内視鏡)で競争力を発揮し、トップ変種の DSC は 超音波で最大 0.8537、内視鏡で 0.8397。
  • 転移学習(SAM2-T のファインチューニング)により腹部の3D臓器セグメンテーションで大幅な改善を実現(肝臓 DSC 0.5802 から 0.9681、NSD 0.3605 から 0.9127 など)。
  • 3D Slicer プラグインと Gradio API による実用的なデプロイメント経路を提供し、SAM2 ベースのセグメンテーションを非コーディングで医療データのアノテーションに利用可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。