[論文レビュー] PLUTO: Pathology-Universal Transformer
PLUTOは、多様なサイトと染色で195Mの画像タイルを前処理した軽量の病理ファウンデーションモデルで、スライド-, 組織-, 細胞レベルの病理タスクに適応するマルチスケール埋め込みを生成し、タスク固有のヘッドを用いた適応を可能にします。データ効率が高く、分布シフトに対して堅牢で、タスク固有のベースラインと同等またはそれを上回ります。
Pathology is the study of microscopic inspection of tissue, and a pathology diagnosis is often the medical gold standard to diagnose disease. Pathology images provide a unique challenge for computer-vision-based analysis: a single pathology Whole Slide Image (WSI) is gigapixel-sized and often contains hundreds of thousands to millions of objects of interest across multiple resolutions. In this work, we propose PathoLogy Universal TransfOrmer (PLUTO): a light-weight pathology FM that is pre-trained on a diverse dataset of 195 million image tiles collected from multiple sites and extracts meaningful representations across multiple WSI scales that enable a large variety of downstream pathology tasks. In particular, we design task-specific adaptation heads that utilize PLUTO's output embeddings for tasks which span pathology scales ranging from subcellular to slide-scale, including instance segmentation, tile classification, and slide-level prediction. We compare PLUTO's performance to other state-of-the-art methods on a diverse set of external and internal benchmarks covering multiple biologically relevant tasks, tissue types, resolutions, stains, and scanners. We find that PLUTO matches or outperforms existing task-specific baselines and pathology-specific foundation models, some of which use orders-of-magnitude larger datasets and model sizes when compared to PLUTO. Our findings present a path towards a universal embedding to power pathology image analysis, and motivate further exploration around pathology foundation models in terms of data diversity, architectural improvements, sample efficiency, and practical deployability in real-world applications.
研究の動機と目的
- サイト、スキャナー、染色のばらついによる病理AIのデータ多様性と頑健性の課題を動機づけ、対処する。
- 多様なデータ源からマルチスケールのWSI表現を学習する普遍的な病理ファウンデーションモデル(PLUTO)を開発する。
- 単一のバックボーンをスライド-, 組織-, 細胞/細胞小区画レベルの分析にわたる下流タスクへ効率的に適応させることを可能にする。
- 複数のベンチマークとモダリティに跨って、PLUTOを最先端のタスク別モデルおよび病理ファウンデーションモデルと評価する。
提案手法
- 自己教師付き目的(DINOv2, iBOT)とMAE再構成を用い、50以上の出典から得た195Mタイルの4解像度で軽量なViTバックボーン(FlexiViT)を事前学習する。
- MAE訓練中に周波数領域ベースの再構成損失を組み込み、低周波および高周波成分を個別に最適化する。
- 可変パッチサイズとマルチスケールマスキングを可能にするFlexiViTを用い、効率的な多解像度の事前学習と適応的推論を実現する。
- タイルからマルチスケール埋め込みを抽出し、タスク別適応ヘッドを訓練する(スライドレベルにはMIL、組織レベルにはタイル分類器、細胞/細胞小区画タスクにはインスタンスセグメンテーションヘッド等)。
- 適応ヘッドにはMask2Former、Mask R-CNN、その他の軽量分類器を含み、データレジームやアノテーション粒度の異なる条件に最適化される。
実験結果
リサーチクエスチョン
- RQ1多様で複数サイトのデータで訓練された単一の病理ファウンデーションモデルは、複数のWSIスケール(スライド、組織、細胞)および染色プロトコルに対して堅牢な埋め込みを提供できるか?
- RQ2PLUTOはスライドレベル分類、タイルレベル分類、インスタンスセグメンテーションにおいて、タスク別ベースラインや既存の病理ファウンデーションモデルと比較してどうか。
- RQ3多尺度マスキングとフーリエ損失を用いた軽量バックボーンは、一般化、サンプル効率、実世界の病理ワークフローでの展開性を改善するか。
- RQ4異なる適応ヘッド(MIL、Mask2Former、Mask R-CNN、線形分類器)は、スケールとデータセット全体の性能にどのような影響を与えるか。
主な発見
| モデル | データセット | パッチサイズ | チューニング | イン-domain F1 | イン-domain AUROC | OOD F1 | OOD AUROC |
|---|---|---|---|---|---|---|---|
| PLUTO | NSCLC | 16 | Frozen | 90.2(1.9) | 94.0(1.6) | 86.1(2.8) | 91.2(2.5) |
| Meta-DINOv2 ViT-S | NSCLC | 14 | Frozen | 88.6(2.0) | 92.0(1.9) | 72.1(4.1) | 81.9(3.8) |
| ShuffleNet | NSCLC | - | Frozen | 83.6(2.4) | 90.1(2.0) | 72.2(4.2) | 83.5(3.5) |
| ShuffleNet | NSCLC | - | Fine-tuned | 88.1(2.2) | 93.9(1.5) | 42.5(8.0) | 90.8(2.1) |
| PLUTO | HER2 | 16 | Frozen | 71.5(2.8) | 89.5(1.5) | 71.0(3.0) | 93.7(1.1) |
| Meta-DINOv2 ViT-S | HER2 | 14 | Frozen | 56.4(3.2) | 83.4(1.7) | 57.2(3.5) | 88.7(1.3) |
| ShuffleNet | HER2 | - | Frozen | 51.3(3.2) | 84.4(1.7) | 46.6(3.0) | 86.5(1.5) |
| ShuffleNet | HER2 | - | Fine-tuned | 62.9(3.1) | 87.2(1.5) | 66.3(3.4) | 91.6(1.3) |
- PLUTOは多様なベンチマークで、タスク別ベースラインおよび他の病理ファウンデーションモデルと同等かそれ以上である。
- NSCLCのスライドレベルサブタイピングでは、凍結特徴を用いたPLUTOはin-domainで90.2 F1と94.0 AUROC、out-of-domainで86.1 F1と91.2 AUROCを達成し、いくつかのベースラインを上回る。
- HER2スコアリングでは、凍結特徴を用いたPLUTOがin-domainで71.5 F1と89.5 AUROC、out-of-domainで71.0 F1と93.7 AUROCを達成し、同等のバックボーンを上回る。
- CRC-100KとCamelyon17-WILDSでのタイル分類は、PLUTOの埋め込みと線形ヘッドを用いることで高い精度を示す(CRC-100K: 96.6% Acc, 95.3% Bal. Acc; Camelyon17-WILDS: 96.2% Acc)。
- Glandおよび核セグメンテーションのベンチマーク(GlaS, PanNuke)は、適切なセグメンテーションヘッド(Mask2Former, Mask R-CNNなど)と組み合わせたPLUTOが競争力のある性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。