[論文レビュー] Phikon-v2, A large and public feature extractor for biomarker prediction
Phikon-v2 は、30超の癌種からの4.6億枚の組織学タイルで訓練された大規模 ViT-L 自己教師付き特徴量抽出器であり、複数コホート評価でバイオマーカー予測性能が競合的で、いくつかのベースラインを上回る。アンサンブルにより下流の AUC が大幅に向上する。
Gathering histopathology slides from over 100 publicly available cohorts, we compile a diverse dataset of 460 million pathology tiles covering more than 30 cancer sites. Using this dataset, we train a large self-supervised vision transformer using DINOv2 and publicly release one iteration of this model for further experimentation, coined Phikon-v2. While trained on publicly available histology slides, Phikon-v2 surpasses our previously released model (Phikon) and performs on par with other histopathology foundation models (FM) trained on proprietary data. Our benchmarks include eight slide-level tasks with results reported on external validation cohorts avoiding any data contamination between pre-training and evaluation datasets. Our downstream training procedure follows a simple yet robust ensembling strategy yielding a +1.75 AUC increase across tasks and models compared to one-shot retraining (p<0.001). We compare Phikon (ViT-B) and Phikon-v2 (ViT-L) against 14 different histology feature extractors, making our evaluation the most comprehensive to date. Our result support evidences that DINOv2 handles joint model and data scaling better than iBOT. Also, we show that recent scaling efforts are overall beneficial to downstream performance in the context of biomarker prediction with GigaPath and H-Optimus-0 (two ViT-g with 1.1B parameters each) standing out. However, the statistical margins between the latest top-performing FMs remain mostly non-significant; some even underperform on specific indications or tasks such as MSI prediction - deposed by a 13x smaller model developed internally. While latest foundation models may exhibit limitations for clinical deployment, they nonetheless offer excellent grounds for the development of more specialized and cost-efficient histology encoders fueling AI-guided diagnostic tools.
研究の動機と目的
- 大規模なドメイン内自己教師付き組織学事前学習がバイオマーカー予測を改善する必要性を動機づける。
- データとモデルサイズを拡大して組織学ファウンデーションモデルのスケーリング効果を評価する。
- 研究者がベンチマークし構築できる公開の非商用特徴量抽出器を提供する。
- Phikon-v2 を複数の外部コホートで評価し、一般化とデータ流出コントロールを検証する。
提案手法
- DINOv2 を用いて、30以上の癌種にまたがる58,359 の公開WSIから抽出された4億6,006万0584枚のタイル上に ViT-L モデルを事前訓練する。
- 20x倍率の組織マスクベースのタイル抽出パイプラインを用い、224x224 タイル、組織含有率少なくとも60%。
- 凍結抽出器を用いてパッチ特徴を抽出し、それをABMILでスライドレベル予測へ集約する2段階MIL設定でファインチューニングと評価を行う。
- タスクごとに5ケースのラベル分割ストラタified 分割と5-fold クロスバリデーションを採用し、25個のABMILモデルのアンサンブルを訓練し、外部検証推論のアンサンブルを行う。
- Phikon-v2(ViT-L)を Phikon(ViT-B)および14 の他の組織学エンコーダと8つの下流タスクで比較し、ブートストラップAUCとFisher-置換検定を用いて評価する。
実験結果
リサーチクエスチョン
- RQ1DINOv2 による事前学習データとモデル規模のスケーリングは、小規模なベースラインや従来の Phikon モデルと比較して下流性能を上回るか。
- RQ2Phikon-v2 は、さまざまな外部で保持されたバイオマーカータスクにおいて他の公開組織学エンコーダと比較してどのように性能を示すか。
- RQ3アンサンブルとワンショット再訓練のどちらがスライドレベルのバイオマーカ予測に影響を与えるか。
- RQ4タスクとデータセット全体で一貫した性能トレンドは、組織学ファウンデーションモデルの配備を示唆するか。
主な発見
| Extractor | Bcnb | Bcnb | Bcnb | Herohe | Ebrains | Panda | Cam16 | Cy1 | Paip | Dhmc | Average |
|---|---|---|---|---|---|---|---|---|---|---|---|
| GigaPath | 0.878 | 0.836 | 0.736 | 0.723 | 0.895 | 0.944 | 0.995 | 0.888 | 0.980 | 0.996 | 0.883 |
| Phikon-v2 (Ours) | 0.856 | 0.804 | 0.669 | 0.770 | 0.842 | 0.936 | 0.997 | 0.882 | 0.991 | 0.989 | 0.874 |
| UNI chen2024uni | 0.876 | 0.816 | 0.736 | 0.675 | 0.889 | 0.935 | 0.998 | 0.827 | 0.982 | 0.993 | 0.873 |
| H-Optimus-0 hoptimus0 | 0.872 | 0.836 | 0.697 | 0.685 | 0.790 | 0.944 | 1.000 | 0.881 | 0.971 | 0.996 | 0.867 |
| Virchow2 virchow2 | 0.831 | 0.735 | 0.693 | 0.732 | 0.863 | 0.942 | 0.995 | 0.875 | 0.986 | 0.996 | 0.865 |
| Phikon Filiot2023.07.21.23292757 (Ours) | 0.803 | 0.780 | 0.699 | 0.685 | 0.851 | 0.938 | 1.000 | 0.830 | 0.977 | 0.986 | 0.855 |
| CTransPath ctranspath | 0.800 | 0.788 | 0.678 | 0.723 | 0.895 | 0.923 | 0.896 | 0.838 | 0.977 | 0.996 | 0.851 |
| Kaiko (B/8) kaiko | 0.788 | 0.734 | 0.702 | 0.716 | 0.866 | 0.939 | 0.984 | 0.798 | 0.941 | 0.996 | 0.846 |
| Virchow virchow | 0.801 | 0.800 | 0.681 | 0.718 | 0.788 | 0.940 | 0.989 | 0.793 | 0.966 | 0.987 | 0.846 |
| CONCH CONCH | 0.835 | 0.782 | 0.700 | 0.604 | 0.846 | 0.922 | 0.981 | 0.830 | 0.941 | 0.995 | 0.844 |
| Lunit-DINO (B/8) lunit_dino | 0.836 | 0.749 | 0.648 | 0.649 | 0.822 | 0.927 | 0.998 | 0.818 | 0.971 | 0.994 | 0.841 |
| PathDINO-512 alfasly2023rotationagnostic | 0.807 | 0.749 | 0.659 | 0.731 | 0.851 | 0.913 | 0.955 | 0.647 | 0.980 | 0.990 | 0.828 |
| Hibou (B/8) hibou | 0.831 | 0.777 | 0.630 | 0.618 | 0.846 | 0.937 | 0.995 | 0.693 | 0.962 | 0.994 | 0.828 |
| Remedis azizirobust2023 | 0.716 | 0.731 | 0.578 | 0.715 | 0.711 | 0.911 | 0.958 | 0.760 | 0.965 | 0.994 | 0.804 |
| PLIP huang2023visual | 0.739 | 0.728 | 0.706 | 0.605 | 0.745 | 0.903 | 0.924 | 0.700 | 0.910 | 0.989 | 0.795 |
| DINOv2 ViT-L Imagenet oquab2024DINOv2 | 0.765 | 0.731 | 0.578 | 0.515 | 0.820 | 0.906 | 0.689 | 0.673 | 0.919 | 0.981 | 0.757 |
- Phikon-v2(ViT-L)は、8つの外部スライドレベルタスクで最先端の組織学ファウンデーションモデルと競合する性能を示す。
- アンサンブル予測は、タスク間でワンショット再訓練と比較して平均で+1.75から+1.75のAUC向上をもたらす(p<0.001)。
- Phikon および他の14エンコーダと比較して、ViT-L+ モデル(Phikon-v2 を含む)は一般に上位層にランクされるが、タスク依存のばらつきがある。
- DINOv2ベースのスケーリングは一般に下流のバイオマーカー予測に利益をもたらすが、トップモデル間のマージンはタスク間でしばしば有意でない。
- 特化した小型モデル(例:iBOTベースのMSI予測子)は特定のタスクでより大きなFMを上回ることがあり、単なるスケーリングが最良のバイオマーカー性能を保証しないことを示す。
- アンサンブルは堅牢な利得を提供し、弱教師ありの組織学タスクのベンチマークと実運用展開で推奨される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。