[論文レビュー] BenchMD: A Benchmark for Unified Learning on Medical Images and Sensors
BenchMDは、7つのモダリティにまたがる19の実世界医療データセットに対して、統一的でモダリティ非依存の学習を評価し、few-shotおよびSSL/事前学習シナリオを用いてIDおよびOOD性能を検証する。
Medical data poses a daunting challenge for AI algorithms: it exists in many different modalities, experiences frequent distribution shifts, and suffers from a scarcity of examples and labels. Recent advances, including transformers and self-supervised learning, promise a more universal approach that can be applied flexibly across these diverse conditions. To measure and drive progress in this direction, we present BenchMD: a benchmark that tests how well unified, modality-agnostic methods, including architectures and training techniques (e.g. self-supervised learning, ImageNet pretraining),perform on a diverse array of clinically-relevant medical tasks. BenchMD combines 19 publicly available datasets for 7 medical modalities, including 1D sensor data, 2D images, and 3D volumetric scans. Our benchmark reflects real-world data constraints by evaluating methods across a range of dataset sizes, including challenging few-shot settings that incentivize the use of pretraining. Finally, we evaluate performance on out-of-distribution data collected at different hospitals than the training data, representing naturally-occurring distribution shifts that frequently degrade the performance of medical AI models. Our baseline results demonstrate that no unified learning technique achieves strong performance across all modalities, leaving ample room for improvement on the benchmark. Code is released at https://github.com/rajpurkarlab/BenchMD.
研究の動機と目的
- 医療AIのための普遍的でモダリティ非依存の学習手法の開発を促進する。
- 多様な医療モダリティにわたって、統一的なアーキテクチャと訓練手法の性能を評価する。
- 実世界の制約を反映するため、ラベル不足と分布シフト下での性能を評価する。
- 実世界タスクと専門家検証済みデータセットを備えた、標準化され公開可能なベンチマークを提供する。
提案手法
- 入力を共有の256次元空間に射影する、別個の1D、2D、3D埋め込みモジュールを備えたモダリティ非依存のトランスフォーマーアーキテクチャを用いる。
- 3つのSSL目的で事前学習を行う:e-Mix(対比的埋め込みミックスアップ)、ShED(シャッフル埋め込み予測)、およびMAE(マスク済み自己符号化)。
- モダリティ間で、SSL手法を2DモダリティのImageNet事前学習およびスクラッチベースラインと比較する。
- 線形評価とファインチューニングで訓練し、ラベル利用可能性を変化させる(単一ラベルタスクでクラスあたり8、64、256)。
- 分布シフト下での一般化を測るため、OODターゲットデータセットへのゼロショット転移を評価する。
- 前処理と検証指標を標準化する;評価指標としてAUROCを用いる。
実験結果
リサーチクエスチョン
- RQ1統一学習手法は複数の医療モダリティに対して高い性能を発揮するか?
- RQ2モダリティ間で、ラベル利用可能性と分布シフトに応じて性能はどのように変化するか?
- RQ3プリトレーニング戦略(SSL対ImageNet対スクラッチからの訓練)のうち、モダリティ間で頑健なOOD汎化を生むのはどれか?
- RQ41D、2D、3Dの医療データすべてに対して、単一のアーキテクチャ/手法で強力な結果を達成できるか?
主な発見
- いずれの単一手法も全モダリティで優位とは限らず、性能はモダリティとデータセットによって異なる。
- ImageNet事前学習は、いくつかの2Dモダリティ(CXRs、マンモグラフィ、眼底)でSSLを上回ることが多いが、OODの皮膚鏡写真ではSSLが上回ることがある。
- MAEはEEGおよび一部の皮膚鏡データセットで高い性能を示すが、ECGのような他のモダリティでは劣る。e-MixとShEDはモダリティ固有の強みを示す。
- スクラッチ訓練はトップ性能になることは稀だが、いくつかの設定では競争力がある。SSLベースラインは全体として控えめな利得をもたらす。
- 2段階の事前学習(ImageNetに続いてMAEのようなSSL)は、いくつかの2Dモダリティで利益をもたらす。
- ラベルの利用可能性は一般にOOD性能を向上させるが、全データを用いる場合には過学習が起こることがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。