[논문 리뷰] MedMNIST v2 -- A large-scale lightweight benchmark for 2D and 3D biomedical image classification
MedMNIST v2는 의학 영상 작업에서 ML 모델의 일반화 능력을 평가하기 위해 작고 MNIST와 유사한 표준화된 2D 및 3D 생의학 이미지를 대규모로 제공하는 컬렉션(12개의 2D 데이터셋 및 6개의 3D 데이터셷), 작은 해상도(28×28 / 28×28×28)와 학습/검증/테스트 분할 및 기본 AutoML 벤치마크를 제공한다.
We introduce MedMNIST v2, a large-scale MNIST-like dataset collection of standardized biomedical images, including 12 datasets for 2D and 6 datasets for 3D. All images are pre-processed into a small size of 28x28 (2D) or 28x28x28 (3D) with the corresponding classification labels so that no background knowledge is required for users. Covering primary data modalities in biomedical images, MedMNIST v2 is designed to perform classification on lightweight 2D and 3D images with various dataset scales (from 100 to 100,000) and diverse tasks (binary/multi-class, ordinal regression, and multi-label). The resulting dataset, consisting of 708,069 2D images and 10,214 3D images in total, could support numerous research / educational purposes in biomedical image analysis, computer vision, and machine learning. We benchmark several baseline methods on MedMNIST v2, including 2D / 3D neural networks and open-source / commercial AutoML tools. The data and code are publicly available at https://medmnist.com/.
연구 동기 및 목표
- 다양하고 표준화되며 경량화된 벤치마크를 2D 및 3D 생의학 이미지 분류용으로 만들어 모달리티와 규모에 따라 ML 모델의 일반화를 평가한다.
- MNIST-유사 사전 처리 데이터 제공(2D는 28×28; 3D는 28×28×28)과 고정된 학습/검증/테스트 분할 및 교육용으로 허용되는 라이선스.
- 전통적 심층 신경망, 오픈 소스 AutoML, 상용 AutoML 도구를 사용한 체계적 평가를 가능하게 하여 엔드 투 엔드 시스템 튜닝에서 기계 학습 측면을 분리한다.
- 공개 데이터, 코드 및 재현 가능한 기준선을 제공하여 생의학 이미지 분류에 대한 교육적 접근 및 재현성 제공.
제안 방법
- 12개의 2D 및 6개의 3D 사전 처리 데이터셋을 MNIST 유사 형식(28×28 또는 28×28×28)으로 다양한 생의학 모달리티에서 구성한다.
- 출처에서 파생되었거나 분할된 분할을 사용하여 데이터 누수를 최소화하기 위해 고정된 학습/검증/테스트 분할로 데이터 셋을 표준화한다.
- 실험의 용이성을 위해 이미지와 레이블(학습/검증/테스트)에 대한 고정된 키를 가진 NumPy npz 형식으로 데이터를 제공한다.
- 모든 데이터셋에 걸쳐 ResNet 변형(2D 및 3D/ACS/2.5D) 및 AutoML 도구(auto-sklearn, AutoKeras, Google AutoML Vision 포함)을 벤치마크하는 기본 모델을 평가한다.
- 임계값 없이 평가 가능한 AUC 및 ACC를 사용하여 평가하고, 여러 시도들에 걸친 평균 결과를 보고한다.
- 데이터셋별 특성(예: 2D 대 3D 비교, 해상도 효과) 및 데이터 간 일반화 경향에 대해 논의한다.
실험 결과
연구 질문
- RQ1다른 머신 러닝 모델(CNN 백본 및 AutoML 도구 포함)이 다양하고 표준화된 소형 2D 및 3D 생의학 영상 작업에서 어떻게 성능을 보이는가?
- RQ2입력 해상도(2D에서 28 대 224)와 차원성(2D 대 3D 대 2.5D/ACS)이 분류 성능에 어떤 영향을 미치는가?
- RQ3경량화된 MNIST 유사 벤치마크가 엔드 투 엔드 시스템과 비교할 때 의학 영상에서 모델의 일반화 가능성을 신뢰성 있게 반영하는가?
- RQ4오픈 소스 AutoML 도구와 상용 AutoML 도구가 광범위한 생의학 영상 분류 벤치마크에서 수작업 제작 기준선과 어떻게 비교되는가?
주요 결과
- Google AutoML Vision은 2D 데이터셋에서 종종 강한 평균 성능을 달성하지만 반드시 ResNet 기본선보다 우수하다고 보장되진 않는다.
- 같은 백본에서 더 높은 해상도 입력(224)이 일반적으로 28보다 AUC/ACC를 개선하는 경향이 있으며, 2D ResNet은 작은 해상도에서 더 깊은 변종보다 우수할 수 있다.
- 3D의 경우 3D 컨벌루션(ResNet-50 with 3D, ACS)이 일반적으로 2.5D보다 우수하게 성능을 발휘하며, 표준 3D 컨볼루션 모델이 실험된 방법들 중에서 평균 성능이 상위에 위치한다.
- Auto-sklearn은 특정 3D 데이터셋에서 일부 CNN 기본선을 능가할 수 있지만 일반적으로 2D 과제에서 뒤처진다; AutoKeras의 성능은 데이터셋 규모에 따라 다르게 나타난다.
- 3D 데이터셋 전체를 평균하기 보면 3D ResNet 백본이 강한 성능을 보이는 경향이 있으며, 2.5D 모델은 일반적으로 전체 3D 방법에 비해 성능이 떨어진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.