QUICK REVIEW

[논문 리뷰] Segment Anything in Medical Images and Videos: Benchmark and Deployment

Jun Ma, Sumin Kim|arXiv (Cornell University)|2024. 08. 06.

Image Retrieval and Classification Techniques인용 수 11

한 줄 요약

요약: 이 논문은 SAM2를 11개 의학 모달리티(2D/3D 이미지와 비디오)에서 벤치마크하고 SAM1 및 MedSAM과 비교하며, 전이 학습, 3D Slicer 및 Gradio를 통한 배치, 그리고 의학적 적응에 대한 사례 연구를 제시한다.

ABSTRACT

Recent advances in segmentation foundation models have enabled accurate and efficient segmentation across a wide range of natural images and videos, but their utility to medical data remains unclear. In this work, we first present a comprehensive benchmarking of the Segment Anything Model 2 (SAM2) across 11 medical image modalities and videos and point out its strengths and weaknesses by comparing it to SAM1 and MedSAM. Then, we develop a transfer learning pipeline and demonstrate SAM2 can be quickly adapted to medical domain by fine-tuning. Furthermore, we implement SAM2 as a 3D slicer plugin and Gradio API for efficient 3D image and video segmentation. The code has been made publicly available at \url{https://github.com/bowang-lab/MedSAM}.

연구 동기 및 목표

SAM2를 11개 의학 영상 모달리티(2D/3D 이미지 및 비디오)에서 벤치마킹하여 SAM1 및 MedSAM에 비해 강점과 약점을 파악한다.
의료 영상 태스크에 SAM2를 적응시키기 위한 전이 학습 파이프라인을 시연한다.
SAM2 기반 분할을 위한 비코딩 없는 의료 워크플로우를 가능하게 하는 실용적 배포 인터페이스(3D Slicer 플러그인 및 Gradio API)를 개발한다.

제안 방법

바운딩 박스 프롬프트와 3D/비디오를 위한 특징 전파를 이용해 SAM1, SAM2(및 MedSAM)을 2D, 3D, 및 비디오 모달리티에서 평가한다.
2D 마스크를 중간 슬라이스/첫 프레임 프롬프트로 초기화한 뒤 남은 슬라이스/프레임으로 전파한다.
의료 CT 데이터셋에서 SAM2-T를 그림 인코더 고정 및 마스크 디코더를 업데이트하는 방식으로 파인튜닝한다(AdamW, 6e-5, 1000 에폭).
Dice 계수(DSC)와 정규화된 표면 거리(NSD)로 성능을 평가한다.
SAM2 기반 분할의 비코딩 의료 워크플로우를 가능하게 하는 3D Slicer 플러그인과 Gradio API를 제공한다.

실험 결과

연구 질문

RQ1SAM2가 SAM1 및 MedSAM과 비교해 광범위한 의료 영상 모달리티에서 어떤 성능을 보이는가?
RQ2전이 학습을 통해 SAM2를 의료 영상에 효과적으로 적응시킬 수 있으며 일반 분할 능력을 잃지 않는가?
RQ3실용적 인터페이스(3D Slicer 플러그인, Gradio API)가 의료 데이터의 효율적 주석 작성 및 배치를 가능하게 하는가?
RQ4SAM2의 서로 다른 모델 크기 및 초기화 전략이 2D/3D 의료 분할 성능에 어떤 영향을 미치는가?
RQ5비디오 분할이 의료 비디오(초음파, 내시경 등)에 SAM2의 활용도를 어떻게 확장하는가?

주요 결과

SAM2는 혼합된 결과를 보인다: 2D에서 MR, 피부경 검사(dermoscopy), 광학 현미경에서 SAM1보다 우수하지만 PET 및 OCT에서는 뒤처진다; 여러 모달리티에서 전반적으로 동등한 성능을 보인다.
MedSAM은 일반적으로 11개 모달리티 중 9개에서 2D 분할 정확도가 더 높지만 PET와 광학 현미경에서 학습 데이터의 격차가 있다.
3D 데이터의 경우 SAM2-B가 SAM1을 종종 능가하지만 PET에서는 SAM1이 SAM2를 앞선다; 3D 비디오와 유사한 전파는 CT 및 MR 분할을 개선한다.
가운데 슬라이스를 MedSAM 또는 실제 마스크로 초기화하면 3D 분할이 크게 향상되며( MedSAM으로 최대 ~17.5% DSC 및 ~33.3% NSD 이득; GT의 이득이 더 큼), 3D에서 큰 개선을 보인다.
SAM2는 비디오 분할에서 경쟁력 있는 성능을 보이며(초음파, 내시경), 최상 변형에서 DSC가 최대 0.8537(초음파), 0.8397(내시경)까지 달성된다.
전이 학습( SAM2-T의 파인튜닝)은 복부 3D 장기 분할에서 큰 이득을 주며(예: 간 DSC 0.5802→0.9681; NSD 0.3605→0.9127).
실용적 배포 경로가 3D Slicer 플러그인과 Gradio API를 통해 제공되어 SAM2 기반 분할의 비코딩 의료 데이터 주석을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.