[論文レビュー] Towards Large-Scale Training of Pathology Foundation Models
本論文は、オンラインパッチ作成を用いた大規模病理基盤モデルの学習パイプラインを提案し、TCGAデータ上で複数のハイパーパラメータと倍率を評価し、標準化された下流タスク用の評価フレームワーク(eva)を公開している。
Driven by the recent advances in deep learning methods and, in particular, by the development of modern self-supervised learning algorithms, increased interest and efforts have been devoted to build foundation models (FMs) for medical images. In this work, we present our scalable training pipeline for large pathology imaging data, and a comprehensive analysis of various hyperparameter choices and training techniques for building pathology FMs. We release and make publicly available the first batch of our pathology FMs (https://github.com/kaiko-ai/towards_large_pathology_fms) trained on open-access TCGA whole slide images, a commonly used collection of pathology images. The experimental evaluation shows that our models reach state-of-the-art performance on various patch-level downstream tasks, ranging from breast cancer subtyping to colorectal nuclear segmentation. Finally, to unify the evaluation approaches used in the field and to simplify future comparisons of different FMs, we present an open-source framework (https://github.com/kaiko-ai/eva) designed for the consistent evaluation of pathology FMs across various downstream tasks.
研究の動機と目的
- 大規模WSI上で病理基盤モデルのスケーラブルな学習パイプラインを実証する。
- 初期化、倍率ミックス、データサイズなどのハイパーパラメータが下流性能に与える影響を分析する。
- オンラインパッチ作成が事前作成なしで高スループットなパッチ読み込みを可能にすることを示す。
- 下流タスク全体で一貫した評価を可能にするオープンフレームワーク(eva)を提供する。
提案手法
- Blobストレージに保存されたWSIからパッチレベルの読み込みを高スループットで行うオンラインパッチングを開発。
- TCGAのパッチを複数の倍率で用いて、DINOおよびDINOv2でViTベースの基盤モデルを事前学習。
- ImageNet SSL重みから初期化し、収束の利点を検討。
- 線形プロービングを用いて、BACH、CRC、MHIST、PCam、TP53、CoNSeP の複数のパッチレベル下流タスクで評価。
- モデルサイズと倍率戦略を比較し、頑健性と一般化を評価。
実験結果
リサーチクエスチョン
- RQ1オンラインパッチングは性能を損なうことなく、スケーラブルで多様なパッチサンプリングを可能にするか?
- RQ2ImageNetでの初期化と事前学習が収束と下流の精度にどう影響するか?
- RQ3複数の倍率での訓練が頑健性とタスク性能に与える影響は?
- RQ4訓練データサイズ(スライドとパッチ)が分布内/分布外の性能にどう影響するか?
主な発見
| Model | Training data | BACH | CRC | MHIST | PCam | TP53 ** | CoNSeP ** |
|---|---|---|---|---|---|---|---|
| ViT-S16 (rand.) | None | 0.410 | 0.617 | 0.501 | 0.728 | 0.500 | 0.583 |
| DINO ViT-S16 [24] | ImageNet | 0.695 | 0.935 | 0.831 | 0.849 | 0.519 | 0.611 |
| DINO ViT-B8 [24] | ImageNet | 0.710 | 0.939 | 0.814 | 0.856 | 0.548 | 0.710 |
| Lunit [29] | TCGA (21k WSIs) | 0.801 | 0.934 | 0.768 | 0.895 | 0.571 | 0.654 |
| Phikon [30] | TCGA (6k WSIs) | 0.725 | 0.935 | 0.777 | 0.915 | 0.630 | 0.666 |
| DINO ViT-S16 (ours) | TCGA (29k WSIs) | 0.797 | 0.943 | 0.828 | 0.893 | 0.633 | 0.649 |
| DINO ViT-S8 (ours) | TCGA (29k WSIs) | 0.834 | 0.946 | 0.832 | 0.887 | 0.621 | 0.724 |
| DINO ViT-B16 (ours) | TCGA (29k WSIs) | 0.810 | 0.960 | 0.826 | 0.898 | 0.651 | 0.658 |
| DINOv2 ViT-L14 (ours) | TCGA (29k WSIs) | 0.870 | 0.930 | 0.809 | 0.898 | 0.656 | 0.679 |
| Virchow [33] | Private (1.5M WSIs) | n/a | 0.962 * | 0.830 * | 0.933 * | n/a | n/a |
- オンラインパッチングは最先端と比較してパッチレベルの性能で競争力が高いまたは優れており、データ処理のスケーラビリティを実現する。
- ImageNet事前学習 weights からの初期化は収束を加速し、下流の性能を向上させる。
- 複数倍率で訓練することで頑健性が向上し、単一倍率モデルを上回る。
- 訓練スライド数を増やすと一般に性能が向上するが、法則的には利得は減少し、OODデータへの一般化には多様なデータが必要。
- 異なる訓練パッチの数を増やすとID性能が向上するが、パッチの多様性を大幅に高めない限りOODタスクでの利得は限定的。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。