[論文レビュー] Atlas: A Novel Pathology Foundation Model by Mayo Clinic, Charité, and Aignostics
Atlasは Mayo Clinic と Charité からの 120万件のWSIで訓練され、最大規模のモデルやデータセットでなくても、21の公開病理ベンチマークで平均性能が最先端に達する。
Recent advances in digital pathology have demonstrated the effectiveness of foundation models across diverse applications. In this report, we present Atlas, a novel vision foundation model based on the RudolfV approach. Our model was trained on a dataset comprising 1.2 million histopathology whole slide images, collected from two medical institutions: Mayo Clinic and Charité - Universtätsmedizin Berlin. Comprehensive evaluations show that Atlas achieves state-of-the-art performance across twenty-one public benchmark datasets, even though it is neither the largest model by parameter count nor by training dataset size.
研究の動機と目的
- 組織病理学のための頑健で一般化可能な表現を大規模自己教師付き学習で獲得する。
- 多染色・多倍率のWSIを活用して多様な組織タイプとスキャナー変動をカバーする。
- Atlasを広範な下流病理タスクで評価し、一般化能力を検証する。
- Atlasを他の先行する病理ファウンデーションモデルと比較して強みと限界を位置づける。
提案手法
- DINOv2フレームワークに基づく適応型 RudolfV 自己教師付き法を用いて ViT-H/14 病理ファウンデーションモデル(632M パラメータ)を訓練。
- Mayo Clinic と Charité からの同定済みデータを 120万 WSIs のデータセットとして使用し、タイルを複数解像度(0.25, 0.5, 1.0, 2.0 µm/pixel)で生成。
- 訓練データを約5.2億枚のタイルにサンプリングし、Mayo Clinic Platform 内の Nvidia H100 GPUで訓練を実施。
- 21の公開ベンチマークに対して CLS と CLS+Mean トークン表現の両方を用いた線形プロービングおよび ABMIL 風のスライドレベル手法で埋め込みを評価。
- パッチレベルタスクと ABMIL ベースのスライドレベルタスクの性能をバランスド精度で評価し、シード間の平均と標準誤差を報告。
実験結果
リサーチクエスチョン
- RQ1Atlasは既存のファウンデーションモデルと比較して、形態学および分子関連タスクの広範な範囲でどの程度の性能を示すか。
- RQ2多染色・多倍率の訓練が、多様なデータセットやスキャナーに対して頑健性と一般化能力をもたらすか。
- RQ3選択したトークン表現(CLS vs CLS+Mean)が下流性能に与える影響は何か。
- RQ4Atlasはパラメータ数やデータ量で最大ではなくても、最先端の結果を達成しうるか。
主な発見
| Group | Benchmark | Phikon v2 | UNI | Gigapath | RudolfV | Virchow2 | H-optimus-0 | Atlas |
|---|---|---|---|---|---|---|---|---|
| 分子関連 | HEST-COAD | 25.6 | 26.2 | 30.7 | 31.0 | 25.9 | 30.9 | 29.4 |
| HEST-HCC | 7.8 | 8.3 | 7.1 | 9.4 | 9.6 | 8.4 | 10.7 | |
| HEST-IDC | 56.6 | 58.5 | 56.8 | 57.4 | 59.3 | 61.0 | 60.4 | |
| HEST-LUAD | 54.8 | 55.2 | 55.8 | 57.7 | 56.9 | 57.3 | 58.0 | |
| HEST-LYMPH_IDC | 24.8 | 25.8 | 25.1 | 25.6 | 25.9 | 26.8 | 26.4 | |
| HEST-PAAD | 47.9 | 48.8 | 49.5 | 51.1 | 47.3 | 50.9 | 51.8 | |
| HEST-PRAD | 37.7 | 32.2 | 38.4 | 37.7 | 35.1 | 38.5 | 38.4 | |
| HEST-READ | 18.5 | 18.4 | 19.6 | 19.9 | 21.1 | 24.1 | 22.8 | |
| HEST-SKCM | 58.4 | 63.5 | 58.8 | 61.8 | 63.7 | 66.1 | 62.5 | |
| HEST-ccRCC | 27.3 | 25.3 | 24.9 | 25.3 | 27.4 | 29.0 | 29.4 | |
| MSI CRC (patch) | 68.8 | 69.5 | 70.4 | 69.9 | 74.0 | 71.2 | 73.6 | |
| MSI STAD (patch) | 71.2 | 70.5 | 71.0 | 74.1 | 74.8 | 73.6 | 76.0 | |
| Pan-cancer TIL | 92.9 | 92.6 | 92.3 | 92.6 | 93.1 | 93.0 | 93.0 | |
| TCGA Uniform (10x) | 64.0 | 68.6 | 69.1 | 70.6 | 73.0 | 70.4 | 71.8 | |
| TCGA Uniform (20x) | 69.8 | 67.8 | 68.0 | 78.1 | 71.5 | 72.4 | 67.8 | |
| BACH | 73.8 | 80.1 | 80.2 | 76.9 | 88.7 | 75.8 | 93.1 | |
| CRC-100k | 95.5 | 95.4 | 95.9 | 96.0 | 96.7 | 96.2 | 97.1 | |
| MHIST | 78.4 | 84.4 | 83.1 | 80.5 | 85.9 | 85.0 | 86.4 | |
| PCAM | 90.0 | 93.6 | 94.5 | 94.6 | 93.9 | 94.3 | 94.9 | |
| CAMELYON16 | 79.8 | 85.0 | 82.1 | 77.1 | 86.5 | 84.0 | 86.8 | |
| PANDA | 65.3 | 69.6 | 69.6 | 69.6 | 66.4 | 68.0 | 70.5 | |
| Morphology-average | ||||||||
| - | - | - | - | - | - | - |
- Atlasは21ベンチマークで平均61.9%の性能を達成し、Virchow2および H-Optimus-0を平均で1.1ポイント上回った。
- Atlasは分子関連・形態学関連タスクの21ベンチマークのうち11において最高性能を示し、多くの他タスクでも第2位に位置。
- 分子関連タスクでは、Atlasは複数のHESTタスクで1位、全体の成績もトップ2に多くのベンチマークで入る。
- 形態学関連ベンチマークでは、MSI CRC、MSI STAD、TCGA Uniform、BACH、CRC-100k、MHIST、PCAM、CAMELYON16、PANDAなど複数のデータセットで最高性能を発揮。
- Atlasの性能はパラメータ数やデータ量の点で最大級ではないにもかかわらず、最新モデルと肩を並べるかそれを超える水準であり、多様な訓練データからの強力な一般化を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。