QUICK REVIEW

[论文解读] MedMNIST v2 -- A large-scale lightweight benchmark for 2D and 3D biomedical image classification

Jiancheng Yang, Rui Shi|arXiv (Cornell University)|Oct 27, 2021

AI in cancer detection参考文献 35被引用 73

一句话总结

MedMNIST v2 提供了一个类似 MNIST 的大规模标准化二维和三维生物医学图像集合（12 个二维数据集和 6 个三维数据集），分辨率较小（28×28 / 28×28×28），包含 train/validation/test 划分以及基线 AutoML 基准，用于评估 ML 模型在医学影像任务上的泛化能力。

ABSTRACT

We introduce MedMNIST v2, a large-scale MNIST-like dataset collection of standardized biomedical images, including 12 datasets for 2D and 6 datasets for 3D. All images are pre-processed into a small size of 28x28 (2D) or 28x28x28 (3D) with the corresponding classification labels so that no background knowledge is required for users. Covering primary data modalities in biomedical images, MedMNIST v2 is designed to perform classification on lightweight 2D and 3D images with various dataset scales (from 100 to 100,000) and diverse tasks (binary/multi-class, ordinal regression, and multi-label). The resulting dataset, consisting of 708,069 2D images and 10,214 3D images in total, could support numerous research / educational purposes in biomedical image analysis, computer vision, and machine learning. We benchmark several baseline methods on MedMNIST v2, including 2D / 3D neural networks and open-source / commercial AutoML tools. The data and code are publicly available at https://medmnist.com/.

研究动机与目标

创建一个多样化、标准化、轻量级的二维和三维生物医学图像分类基准，以评估跨模态和尺度的 ML 模型泛化能力。
提供 MNIST 风格的预处理数据（二维为 28×28；三维为 28×28×28），具备固定的 train/validation/test 划分并且教育用途许可较宽松的许可。
通过使用传统深度网络、开源 AutoML 以及商业 AutoML 工具进行系统化评估，尽量将机器学习方面与端到端系统调优分离。
通过提供公开数据、代码和可复现的基线，提升生物医学图像分类的教育访问和可重复性。

提出的方法

将来自多种生物医学模态的 12 个二维和 6 个三维预处理数据集组装成 MNIST 风格格式（28×28 或 28×28×28）。
使用源数据或分区划分，固定 train/validation/test 划分以最小化数据泄露，标准化数据集。
提供 NumPy npz 格式的数据，具有固定的图片和标签（train/val/test）键，以简化实验。
在所有数据集上基准化基线模型，包括 ResNet 变体（二维与三维/ACS/2.5D）以及 autoML 工具（auto-sklearn、AutoKeras、Google AutoML Vision）。
使用 AUC 和 ACC 进行评估，以实现无阈值和离散性能评估，报告跨试验的平均结果。
讨论数据集特有的特点（如 2D 与 3D 的比较、分辨率影响）以及跨数据集的泛化趋势。

实验结果

研究问题

RQ1不同的机器学习模型（包括 CNN 骨干网络和 AutoML 工具）在一组多样化、标准化的二维和三维生物医学图像任务上表现如何？
RQ2输入分辨率（2D 中的 28 与 224）和维度（2D 与 3D 与 2.5D/ACS）对分类性能有什么影响？
RQ3当与端到端系统相比时，一个轻量级的 MNIST 风格基准能否可靠地反映医学成像领域模型的泛化潜力？
RQ4开源 AutoML 工具与商业 AutoML 工具相比于手工基线，在广泛的生物医学图像分类基准上表现如何？

主要发现

Google AutoML Vision 往往在二维数据集上取得较强的平均性能，但并非在所有情况下都优于 ResNet 基线。
在相同骨干下，较高分辨率输入（224）通常在 2D 数据集上提升 AUC/ACC，相较于 28 的情况；而 2D ResNet 在较小分辨率下可能超越更深的变体。
在三维方面，3D 卷积（3D 的 ResNet-50、ACS）通常优于 2.5D，标准的 3D 卷积模型在所测试的方法中提供了较高的平均性能。
Auto-sklearn 在某些三维数据集上可能超过某些 CNN 基线，但在 2D 任务上通常落后；AutoKeras 的表现因数据集规模而异。
在所有三维数据集的平均水平上，3D ResNet 骨干网络往往获得较好的性能，而 2.5D 模型通常不如完整的 3D 方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。