[논문 리뷰] Large-Vocabulary Segmentation for Medical Images with Text Prompts
SAT은 텍스트 프롬프트에 의해 안내되는 범용 의료 영상 분할 모델로, 다중 모달 데이터에서 31개 데이터셋, 362개 클래스의 3D 분할을 구현하며, 매개변수 규모가 단지 107M인 SAT-Nano가 특수한 nnU-Nets와 비슷한 성능을 보인다.
This paper aims to build a model that can Segment Anything in 3D medical images, driven by medical terminologies as Text prompts, termed as SAT. Our main contributions are three-fold: (i) We construct the first multimodal knowledge tree on human anatomy, including 6502 anatomical terminologies; Then, we build the largest and most comprehensive segmentation dataset for training, collecting over 22K 3D scans from 72 datasets, across 497 classes, with careful standardization on both image and label space; (ii) We propose to inject medical knowledge into a text encoder via contrastive learning and formulate a large-vocabulary segmentation model that can be prompted by medical terminologies in text form; (iii) We train SAT-Nano (110M parameters) and SAT-Pro (447M parameters). SAT-Pro achieves comparable performance to 72 nnU-Nets -- the strongest specialist models trained on each dataset (over 2.2B parameters combined) -- over 497 categories. Compared with the interactive approach MedSAM, SAT-Pro consistently outperforms across all 7 human body regions with +7.1% average Dice Similarity Coefficient (DSC) improvement, while showing enhanced scalability and robustness. On 2 external (cross-center) datasets, SAT-Pro achieves higher performance than all baselines (+3.7% average DSC), demonstrating superior generalization ability.
연구 동기 및 목표
- 데이터셋 간 통일된 라벨링으로 대규모 다중 데이터셋 의료 영상 분할 데이터셋을 구축한다.
- 다중 모달 의료 도메인 지식을 텍스트 인코더에 통합하여 분할을 안내한다.
- 다양한 모달리티와 영역에 걸쳐 다양한 대상을 텍스트 프롬프트로 분할하는 보편적 분할 모델을 개발한다.
제안 방법
- e-Anatomy, UMLS 및 분할 데이터셋으로부터 다중 모달 의료 지식 트리를 구축한다.
- 해부학적 텍스트와 도해 기반 시각 개념을 맞추기 위해 지식 강화 대조 학습으로 텍스트 및 시각 인코더를 사전 학습한다.
- 텍스트 프롬프트에 의해 안내되는 3D U-Net 백본과 트랜스포머 기반 질의 모듈 및 마스크 생성기를 사용하여 SAT-Nano를 학습한다.
- 후반 단계에서 텍스트 인코더를 동결하는 두 단계의 시각-언어 학습 파이프라인을 사용한다.
- 31개 데이터셋과 362개 클래스를 균형 있게 다루기 위한 데이터셋 전처리 및 샘플링 전략을 구현한다.
실험 결과
연구 질문
- RQ1단일 보편 모델이 텍스트 프롬프트만을 사용하여 여러 모달리티에 걸친 광범위한 해부 구조물과 병변을 분할할 수 있는가?
- RQ2학습 코퍼스는 얼마나 커야 하며 어떤 형태의 지식 통합이 데이터 간 일반화를 향상시키는가?
- RQ3소형 SAT-Nano가 31개 데이터셋에서 작업별 nnU-Nets에 필적하는 성능을 달성하는가?
- RQ4분할 프롬프트를 위한 텍스트-이미지 정렬에 대한 지식 강화 표현 학습의 영향은 무엇인가?
주요 결과
- SAT-Nano(107M 매개변수)는 텍스트 프롬프트를 사용하여 31개 데이터셋의 362개 카테고리를 분할할 수 있다.
- 모델은 데이터셋/하위 집합당 36개의 전문 nnU-Nets에 비해 성능이 비슷하다.
- 학습은 31개 데이터셋의 11K 3D 스캔을 사용하며 신체 부위 간의 데이터 간 일반화가 효과적으로 나타난다.
- 지식 주입이 포함된 두 단계의 시각-언어 학습은 텍스트의 의료 개념과 도해 기반 시각 특징 간의 정합성을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.