QUICK REVIEW

[論文レビュー] Segment Anything in Medical Images and Videos: Benchmark and Deployment

Jun Ma, Sumin Kim|arXiv (Cornell University)|Aug 6, 2024

Image Retrieval and Classification Techniques被引用数 11

ひとこと要約

論文は SAM2 を 11 の医療モダリティ（2D/3D 画像と動画）でベンチマークし、SAM1 および MedSAM と比較、転移学習、3D Slicer および Gradio によるデプロイ、医療適応のケーススタディを提示します。

ABSTRACT

Recent advances in segmentation foundation models have enabled accurate and efficient segmentation across a wide range of natural images and videos, but their utility to medical data remains unclear. In this work, we first present a comprehensive benchmarking of the Segment Anything Model 2 (SAM2) across 11 medical image modalities and videos and point out its strengths and weaknesses by comparing it to SAM1 and MedSAM. Then, we develop a transfer learning pipeline and demonstrate SAM2 can be quickly adapted to medical domain by fine-tuning. Furthermore, we implement SAM2 as a 3D slicer plugin and Gradio API for efficient 3D image and video segmentation. The code has been made publicly available at \url{https://github.com/bowang-lab/MedSAM}.

研究の動機と目的

SAM2 を 11 の医療画像モダリティ（2D/3D 画像と動画）全体でベンチマークし、SAM1 および MedSAM に対する長所と弱点を特定する。
SAM2 を医療画像タスクへ適応する転移学習パイプラインを実証する。
効率的な医療データアノテーションのための実用的デプロイメントインターフェース（3D Slicer プラグインと Gradio API）を開発する。

提案手法

境界ボックスプロンプトと3D/動画向けの特徴伝搬を用いて SAM1・SAM2（および MedSAM）を2D、3D、動画モダリティで評価する（プロンプトセグメンテーションのため）。
中間スライス/最初のフレームのプロンプトを用いて2Dマスクを初期化し、残りのスライス/フレームに伝搬させる。
医療CTデータセットで SAM2-T をファインチューニングし、プロンプトエンコーダを凍結、画像エンコーダ/マスクデコーダを更新（AdamW、6e-5、1000エポック）。
Dice Similarity Coefficient (DSC) および Normalized Surface Distance (NSD) で性能を評価する。
SAM2 ベースのセグメンテーションを可能にする非コーディング医療ワークフローを実現する 3D Slicer プラグインと Gradio API を提供する。

実験結果

リサーチクエスチョン

RQ1SAM2 は SAM1 および MedSAM と比較して、幅広い医療画像モダリティでどの程度機能するか？
RQ2転移学習を介して SAM2 を医療画像へ適応させても、一般的なセグメンテーション能力を失わないか？
RQ3実用的なインターフェース（3D Slicer プラグイン、Gradio API）は医療データの効率的なアノテーションと SAM2 のデプロイを可能にするか？
RQ4SAM2 内の異なるモデルサイズと初期化戦略が2D/3D医療セグメンテーション性能に与える影響は？
RQ5ビデオセグメンテーションは SAM2 の医療動画（例：超音波、内視鏡）への有用性をどう広げるか？

主な発見

モダリティ	SAM1-B	SAM1-L	SAM1-H	SAM2-T	SAM2-S	SAM2-B	SAM2-L	MedSAM
CT	0.8825	0.9001	0.9028	0.9058	0.9090	0.9242	0.9167	0.9572
MR	0.8620	0.8673	0.8602	0.8897	0.8867	0.8858	0.8863	0.9507
PET	0.8198	0.8151	0.8042	0.7874	0.7791	0.7877	0.7727	0.8160
Ultrasound	0.7749	0.7789	0.7703	0.7792	0.7614	0.7540	0.7873	0.9398
X-Ray	0.8095	0.8181	0.8065	0.7835	0.7851	0.7939	0.7822	0.8573
Dermoscopy	0.8683	0.8731	0.8706	0.8927	0.8706	0.8875	0.9068	0.9197
Endoscopy	0.9170	0.9328	0.9395	0.9370	0.9346	0.9338	0.9315	0.9673
Fundus	0.9119	0.9522	0.9495	0.9338	0.9475	0.9483	0.9465	0.9498
Mammography	0.6931	0.7485	0.7512	0.7495	0.7304	0.7197	0.7601	0.8320
OCT	0.7482	0.7148	0.7160	0.6414	0.6374	0.6498	0.6273	0.8166
Light Microscope	0.8332	0.8246	0.8178	0.8431	0.8388	0.8188	0.8322	0.6873

SAM2 は混在した結果を示す：2D では MR、皮膚科写真、光学顕微鏡で SAM1 を上回る一方、PET および OCT では劣る; 全体としては複数モダリティで同等。
MedSAM は一般に 11 モダリティ中 9 で 2D セグメンテーション精度が高くなる傾向だが、PET および光学顕微鏡では学習データのギャップが課題。
3D データでは SAM2-B が SAM1 を上回ることが多いが、PET では SAM1 が SAM2 を上回る可能性がある。3D の動画風伝搬は CT および MR のセグメンテーションを改善。
中央スライスを MedSAM または真値マスクで初期化すると、3D セグメンテーションが大幅に改善（MedSAM で DS C 約 17.5% および NSD 約 33.3% の利得、GT の方がさらに大きい利得）。
SAM2 は動画セグメンテーション（超音波と内視鏡）で競争力を発揮し、トップ変種の DSC は超音波で最大 0.8537、内視鏡で 0.8397。
転移学習（SAM2-T のファインチューニング）により腹部の3D臓器セグメンテーションで大幅な改善を実現（肝臓 DSC 0.5802 から 0.9681、NSD 0.3605 から 0.9127 など）。
3D Slicer プラグインと Gradio API による実用的なデプロイメント経路を提供し、SAM2 ベースのセグメンテーションを非コーディングで医療データのアノテーションに利用可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。