[논문 리뷰] SA-Med2D-20M Dataset: Segment Anything in 2D Medical Imaging with 20 Million masks
SA-Med2D-20M은 4.6 million images and 19.7 million masks를 갖춘 대규모 2D 의료 영상 분할 데이터셋으로, 광범위한 모달리티와 해부학적 커버리지를 통해 SAM 스타일 분할에 의료 지식을 도입하도록 설계되었습니다.
Segment Anything Model (SAM) has achieved impressive results for natural image segmentation with input prompts such as points and bounding boxes. Its success largely owes to massive labeled training data. However, directly applying SAM to medical image segmentation cannot perform well because SAM lacks medical knowledge -- it does not use medical images for training. To incorporate medical knowledge into SAM, we introduce SA-Med2D-20M, a large-scale segmentation dataset of 2D medical images built upon numerous public and private datasets. It consists of 4.6 million 2D medical images and 19.7 million corresponding masks, covering almost the whole body and showing significant diversity. This paper describes all the datasets collected in SA-Med2D-20M and details how to process these datasets. Furthermore, comprehensive statistics of SA-Med2D-20M are presented to facilitate the better use of our dataset, which can help the researchers build medical vision foundation models or apply their models to downstream medical applications. We hope that the large scale and diversity of SA-Med2D-20M can be leveraged to develop medical artificial intelligence for enhancing diagnosis, medical image analysis, knowledge sharing, and education. The data with the redistribution license is publicly available at https://github.com/OpenGVLab/SAM-Med2D.
연구 동기 및 목표
- Segment Anything Model (SAM)과 의료 영상 사이의 간극을 대규모이고 다양한 의료 구분 데이터셋을 제공함으로써 bridiging하고자 한다.
- Broad한 다중 모달 2D 의료 데이터셋을 만들어 의료 영상 분석을 위한 foundation 모델을 훈련 및 적응시키기 위함이다.
- 데이터 수집, 정규화, 마스크 처리 파이프라인을 설명하여 사용 가능하고 확장 가능한 분할 자원을 보장한다.
- 재현 가능한 연구를 지원하기 위해 연구자들이 SA-Med2D-20M을 활용하도록 포괄적인 데이터셋 통계를 제공한다.
제안 방법
- 웹 자원에서 2D 의료 이미지 분할 데이터셋을 수집한다(예: TCIA, OpenNeuro, NITRC, Grand Challenge, Synapse, GitHub).
- Self-Min-Max 정규화를 사용하여 PNG로 이미지를 정규화하고 2D/3D 슬라이 처리로 차원을 통일한다.
- 멀티레이블 마스크를 이진 마스크로 변환하고, 연결 구성 요소를 분리하며, 중복 영역을 통합하고 작은 영역을 필터링하는 방식으로 마스크를 처리한다.
- 마스크 카테고리 정보를 JSON 파일에 기록하고 이미지와 마스크에 대한 일관된 네이밍 규칙을 채택한다.
- 모듈성 및 해부학적 구조 커버리지를 고려하여 자세한 통계와 함께 릴리스 가능한 데이터셋을 제공한다.
실험 결과
연구 질문
- RQ1의료 영상 기반 모델을 효과적으로 지원하기 위해 의료 영상 분할 데이터셋은 얼마나 크고 다양해야 하는가?
- RQ2SAM 스타일의 분할 프레임워크가 대규모 다중 모달 2D 의료 영상 데이터셋으로 혜택을 받을 수 있는가?
- RQ3분할 작업을 위한 이질적인 의료 데이터셋을 표준화하기 위해 필요한 데이터 처리 단계는 무엇인가?
주요 결과
- SA-Med2D-20M은 4.6 million 2D 의료 이미지와 19.7 million masks로 구성된다.
- 데이터셋은 10 modalities, 31 main organs, 271 labeled classes를 커버하며 200개 이상의 카테고리에서 구성된다.
- CT와 MR 모달리티가 이미지와 마스크 모두에서 지배적이다.
- 마스크는 이진 구성요소로 처리되며, 작은 대상물은 제거되고 일관된 포맷으로 정렬된다.
- 데이터셋 통계는 긴 꼬리 분포를 나타내며, 많은 카테고리가 1000개 미만의 마스크를 가지며 100k–1M 범위에 47개 카테고리가 분포한다.
- 데이터는 PNG로 정규화되고, 재현 가능한 연구를 지원하기 위해 카테고리 매핑을 위한 JSON 레코드로 구성되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.