[논문 리뷰] Segment anything model 2: an application to 2D and 3D medical images
이 연구는 21개의 의료 데이터셋에서 SAM 2를 평가하여 2D 단일 프레임 및 3D 다중 프레임 세분화를 다루고, 프롬프팅 및 전파 전략을 조사하며 SAM 및 SAM-Med3D와 비교하고 3D 볼륨에 대한 대화형 프롬프팅 방법을 제공합니다.
Segment Anything Model (SAM) has gained significant attention because of its ability to segment various objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we extensively evaluate SAM 2's ability to segment both 2D and 3D medical images by first collecting 21 medical imaging datasets, including surgical videos, common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. Two evaluation settings of SAM 2 are considered: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former only applies to videos and 3D modalities, while the latter applies to all datasets. Our results show that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc. We believe our work enhances the understanding of SAM 2's behavior in the medical field and provides directions for future work in adapting SAM 2 to this domain. Our code is available at: https://github.com/mazurowski-lab/segment-anything2-medical-evaluation.
연구 동기 및 목표
- 다양한 2D 의료 영상에서 단일 프레임 프롬프트를 사용해 SAM 2의 세분화 성능을 평가한다.
- 슬라이스를 프레임으로 간주하고 체적 전반의 전파 전략을 탐색하여 SAM 2의 3D 세분화 능력을 평가한다.
- 프롬프팅 모드, 프레임 선택, 전파 방향이 3D 세분화 정확도에 미치는 영향을 분석한다.
- 의료 영상 작업에서 SAM 2와 SAM, SAM-Med3D를 비교하여 상대 강점을 확립한다.
제안 방법
- 두 가지 설정을 평가한다: 2D 단일 프레임 세분화와 21개 데이터셋(MRI, CT, PET, X-ray, Ultrasound, 비디오)에 걸친 다중 프레임 3D 세분화.
- 4가지 2D 프롬프팅 모드(포인트와 박스, 최대 세 프롬프트)와 실제 마스크 프롬프트를 사용하여 사용자의 입력을 시뮬레이션한다.
- 다중 프레임 3D 세분화의 경우 네 가지 프레임 모드, 네 가지 프롬프트 모드(GT 프롬프트 추가), 두 가지 전파 방향(앞에서 뒤로와 양방향), 두 가지 마스크 선택 전략을 테스트하여 64가지 구성으로 도출한다.
- 프롬프트 없이 슬라이스 간 예측을 전파하기 위해 메모리 뱅크 개념(메모리 어텐션 모듈 및 메모리 인코더)을 활용해 SAM 2를 확장한다.
- SAM 2를 SAM-Med3D와 비교하고 3D 의료 볼륨에서 메모리, 전파, 프롬프트의 효과를 분석한다.
- 볼륨 간 오프라인으로 결과를 정제하기 위한 두 가지 대화형 프롬프팅 알고리즘(수정 기반 및 재초기화 기반)을 제시한다.

실험 결과
연구 질문
- RQ1SAM과 비교했을 때 단일 프레임 2D 의료 영상 세분화에서 SAM 2의 성능은 어떠한가?
- RQ2프롬프트 유무에 따라 슬라이스를 통해 전파할 때 다중 프레임 3D 의료 영상 세분화에서 SAM 2의 효과는 어떠한가?
- RQ3프레임 선택, 프롬프트 모드, 메모리 기반 전파, 예측 마스크 선택이 3D 세분화 성능에 미치는 영향은 무엇인가?
- RQ43D 의료 영상에 적용할 때 SAM 2는 SAM-Med3D와 경쟁력 있거나 우수한가?
- RQ5대화형 프롬프팅 전략이 오프라인 3D 의료 볼륨의 세분화를 개선하는가?
주요 결과
- SAM 2는 다수 데이터셋에서 단일 프레임 2D 세분화에서 SAM과 비슷한 성능을 달성하며, 박스 프롬프트가 일반적으로 포인트 프롬프트보다 우수하다.
- 다중 프레임 3D 세분화에서 양방향 전파는 front-to-end 전파에 비해 IoU를 일관되게 향상시키며, 특히 비경계 프레임에서 시작할 때 그렇다.
- 포인트 프롬프트의 경우 첫 번째 예측 채널을 선택하는 것이 가장 확신이 있는 채널보다 우수할 수 있으며, 박스 프롬프트나 GT 프롬프트의 경우는 그 반대가 된다.
- 단일 프레임 2D와 다중 프레임 3D 설정 간의 성능 차이가 존재하며, 소량의 프레 slices 주석일 때 박스 프롬프트가 이 간극을 최소화한다.
- SAM 2는 일반적으로 Med3D보다 23개의 3D 의학 작업에서 미세 조정된 SAM-Med3D를 상회하는 편이며, 이는 전파로 보존된 더 높은 입력 해상도(1024x1024)와 Med3D의 적극적 다운샘플링 차이 때문인 듯하다.
- 대화형 프롬프팅 전략은 미미한 이익에서 주목할 만한 이익까지 얻을 수 있으며, GT 프롬프트가 프리프 원소의 강한 프레임별 개선을 제공한다; 수정 기반 프롬프팅은 재초기화 기반 방법에 비해 일부 구성에서 이점을 보인다.
- 설정 전반에 걸쳐 주석된 슬라이스 수를 늘리는 것이 수익 감소를 가져오며, 균일한 샘플링이나 어려운 슬라이스를 대상으로 하는 것이 항상 상당한 이익을 낳는 것은 아니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.