[논문 리뷰] SegVol: Universal and Interactive Volumetric Medical Image Segmentation
SegVol은 텍스트, 포인트, 박스 프롬프트와 줌아웃-줌인 메커니즘을 사용하여 200+ 해부학적 카테고리를 분할하는 인터랙티브하고 보편적인 볼륨형 의료 영상 분할의 기초 모델이다. 어려운 대상 및 병변에서도 강력한 성능을 발휘한다.
Precise image segmentation provides clinical study with instructive information. Despite the remarkable progress achieved in medical image segmentation, there is still an absence of a 3D foundation segmentation model that can segment a wide range of anatomical categories with easy user interaction. In this paper, we propose a 3D foundation segmentation model, named SegVol, supporting universal and interactive volumetric medical image segmentation. By scaling up training data to 90K unlabeled Computed Tomography (CT) volumes and 6K labeled CT volumes, this foundation model supports the segmentation of over 200 anatomical categories using semantic and spatial prompts. To facilitate efficient and precise inference on volumetric images, we design a zoom-out-zoom-in mechanism. Extensive experiments on 22 anatomical segmentation tasks verify that SegVol outperforms the competitors in 19 tasks, with improvements up to 37.24% compared to the runner-up methods. We demonstrate the effectiveness and importance of specific designs by ablation study. We expect this foundation model can promote the development of volumetric medical image analysis. The model and code are publicly available at: https://github.com/BAAI-DCAI/SegVol.
연구 동기 및 목표
- 다양한 데이터셋과 카테고리에 걸친 볼륨형 의료 영상 분할을 위한 보편적이고 인터랙티브한 기초 모델의 필요성을 동기화한다.
- SegVol을 개발하여 대규모 비라벨 CT 데이터와 라벨 마스크로부터 학습시켜 많은 장기, 조직 및 병변에 대해 제로샷(또는 소수샷) 분할이 가능하도록 한다.
- 의미론적(텍스트) 프롬프트와 공간적(포인트/박스) 프롬프트를 통합하여 분할을 안내하고 어려운 대상에 대한 정확성을 향상시킨다.
- 추론 비용을 줄이면서도 디테일을 보존하는 계산적으로 효율적인 줌아웃-줌인 프레임워크를 도입한다.
- 다수 데이터셋에서 최첨단 방법과 비교 평가하고 설계 선택을 검증하기 위한 제거-실험(ablation) 수행
제안 방법
- 96k개의 비라벨 CT에 대해 MAE로 비전 트랜스포머(ViT) 이미지 인코더를 사전 학습한 뒤 150k 라벨 마스크를 포함하는 6k 라벨 CT에서 감독 학습을 수행한다.
- 해부학적 카테고리 이름을 인코딩하기 위해 CLIP 기반 텍스트 프롬프트를 사용하여 200+ 타깃에 걸친 텍스트 주도 보편적 분할을 가능하게 한다.
- 포인트와 박스 프롬프트를 위한 공간 프롬프트 인코더를 도입하고 이를 의미론적 텍스트 프롬프트와 공유 프롬프 임베딩으로 융합한다.
- 이미지와 프롬프트 임베딩을 혼합하고 3D 마스크를 생성하기 위해 자기 주의 및 교차 주의를 사용하는 마스크 디코더를 구현한다.
- 대용량 부피를 다루기 위해 글로벌한 후 지역 정제를 거치는 줌아웃-줌인 학습 및 추론 스킴을 채택한다.
- 부분 라벨 이슈를 완화하고 일반화를 높이기 위해 25개의 오픈 소스 CT 데이터셋과 FH가 생성한 의도 마스크를 결합한 공동 데이터세트로 학습한다.

실험 결과
연구 질문
- RQ1SegVol이 의미론적(텍스트) 및 공간적(포인트/박스) 프롬프트를 사용하여 200+ 해부학 카테고리를 분할할 수 있는가?
- RQ2줌아웃-줌인 메커니즘이 계산량을 줄이면서 고해상도에서 정확한 분할을 가능하게 하는가?
- RQ3전통적인 nnU-Net 등과 비교하여 어려운 병변 분할 작업에서 SegVol의 성능은 어떤가?
- RQ4대규모 사전 학습 및 다중 데이터셋 학습이 분할의 강건성과 일반화에 미치는 영향은 무엇인가?
- RQ5다양한 라벨 공간을 가진 다양한 CT 데이터셋을 프롬프트 기반 학습으로 얼마나 효과적으로 하나로 통합하는가?
주요 결과
- SegVol은 데이터셋 간 19개의 주요 타깃에서 평균 Dice 점수 83.02%를 달성한다.
- 어려운 분할 타깃(예: 종양)에서 SegVol은 평균 Dice 점수 면에서 nnU-Net보다 약 14.76% 우수하다.
- MSD-lung, MSD-colon, MSD-liver의 병변 분할은 평균 Dice 점수에서 SegVol이 nnU-Net보다 19.58% 더 높은 성능을 보인다.
- 줌아웃-줌인 메커니즘은 구체적인 이득을 제공하며(예: 간 종양 Dice가 줌-인 정제로 21.32% 개선).
- 프롬프트 기반 학습(텍스트와 공간 프롬프트)은 단일 유형 프롬프트보다 분할 정확도를 크게 향상시키며 특히 도전적인 타깃에서 그렇다.
- SegVol은 다른 분할 방법에 비해 가볍지만 많은 타깃에 걸쳐 보편적이고 정밀한 결과를 제공한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.