[論文レビュー] MedMNIST v2 -- A large-scale lightweight benchmark for 2D and 3D biomedical image classification
MedMNIST v2 は、医用画像タスクで機械学習モデルの一般化可能性を評価するための、標準化された2Dおよび3Dの大規模でMNIST風のコレクション(12の2Dデータセットと6の3Dデータセット)を、低解像度(28×28 / 28×28×28)で提供し、train/validation/testの分割とベースライン AutoML ベンチマークを用意します。
We introduce MedMNIST v2, a large-scale MNIST-like dataset collection of standardized biomedical images, including 12 datasets for 2D and 6 datasets for 3D. All images are pre-processed into a small size of 28x28 (2D) or 28x28x28 (3D) with the corresponding classification labels so that no background knowledge is required for users. Covering primary data modalities in biomedical images, MedMNIST v2 is designed to perform classification on lightweight 2D and 3D images with various dataset scales (from 100 to 100,000) and diverse tasks (binary/multi-class, ordinal regression, and multi-label). The resulting dataset, consisting of 708,069 2D images and 10,214 3D images in total, could support numerous research / educational purposes in biomedical image analysis, computer vision, and machine learning. We benchmark several baseline methods on MedMNIST v2, including 2D / 3D neural networks and open-source / commercial AutoML tools. The data and code are publicly available at https://medmnist.com/.
研究の動機と目的
- モダリティとスケールを横断する機械学習モデルの一般化を評価するために、2Dおよび3Dの生物医用画像分類の多様で標準化された軽量ベンチマークを作成する。
- 教育用の使用を想定した固定のtrain/validation/test分割と寛容なライセンスのもと、28×28(2D)および28×28×28(3D)のMNIST風前処理データを提供する。
- 従来の深層ネットワーク、オープンソースAutoML、商用AutoMLツールを用いた体系的な評価を可能にし、エンドツーエンドのシステム調整から機械学習の側面を分離する。
- 公開データ・コード・再現可能なベースラインを提供することで、教育的アクセスと再現性を確保する。
提案手法
- 多様な生物医用モダリティから、MNIST風フォーマット(28×28 または 28×28×28)で12の2Dと6の3D前処理データセットを構築する。
- データ漏洩を最小化するため、ソース由来または分割済みの固定のtrain/validation/test分割を用いてデータセットを標準化する。
- NumPy npz形式で、画像とラベル(train/val/test)の固定キーを提供し、実験を簡易化する。
- ResNet系(2Dおよび3D/ACS/2.5D)などのベースラインモデルとautoMLツール(auto-sklearn、AutoKeras、Google AutoML Vision)を、すべてのデータセットでベンチマークする。
- AUCとACCを用いて閾値のない評価と離散的な性能評価を可能にし、試行ごとの平均結果を報告する。
- データセット固有の特異性(例:2D対3Dの比較、解像度の影響)およびデータ間一般化傾向について議論する。
実験結果
リサーチクエスチョン
- RQ1さまざまな小規模で標準化された2Dおよび3D生物医用画像タスクに対して、異なる機械学習モデル(CNNバックボーンやAutoMLツールを含む)はどのように性能を発揮するか?
- RQ2入力解像度(2Dで28対224)および次元性(2D vs 3D vs 2.5D/ACS)が分類性能に与える影響は?
- RQ3軽量なMNIST風ベンチマークは、エンドツーエンドのシステムと比較したときに医用画像のモデルの一般化ポテンシャルを信頼性高く反映できるか?
- RQ4オープンソース対商用AutoMLツールは、広範な医用画像分類ベンチマークにおいて、手作りベースラインと比較してどうか?
主な発見
- Google AutoML Vision は2Dデータセットで平均的に高い性能を示すことが多いが、ResNetベースラインを普遍的に凌ぐわけではない。
- 同じバックボーン下では、より高解像度の入力(224)は一般に2DデータセットでAUC/ACCを28より改善する一方、2D ResNetは小さな解像度で深いバリアントより優れることがある。
- 3Dでは、3D畳み込み(3D付きResNet-50、ACS)が通常、2.5Dより優れ、標準の3D畳み込みモデルが試験した手法の中で平均性能トップを示す。
- Auto-sklearn は一部の3DデータセットでCNNベースラインより上回ることがあるが、一般に2Dタスクでは劣る。AutoKeras はデータセット規模に応じて成績が変動する。
- 3Dデータセット全体で平均すると、3D ResNetバックボーンが強いパフォーマンスを示す傾向があり、2.5Dモデルは一般に完全な3D手法に比べて劣る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。