[論文レビュー] Virchow2: Scaling Self-Supervised Mixed Magnification Models in Pathology
論文は Virchow2 と Virchow2G を紹介し、病理適応の自己教師付き ViT モデルを 3.1M WSIs で訓練、データ量とモデルサイズをスケールして 12 タスクでタイルレベルの最先端性能を達成。
Foundation models are rapidly being developed for computational pathology applications. However, it remains an open question which factors are most important for downstream performance with data scale and diversity, model size, and training algorithm all playing a role. In this work, we propose algorithmic modifications, tailored for pathology, and we present the result of scaling both data and model size, surpassing previous studies in both dimensions. We introduce three new models: Virchow2, a 632 million parameter vision transformer, Virchow2G, a 1.9 billion parameter vision transformer, and Virchow2G Mini, a 22 million parameter distillation of Virchow2G, each trained with 3.1 million histopathology whole slide images, with diverse tissues, originating institutions, and stains. We achieve state of the art performance on 12 tile-level tasks, as compared to the top performing competing models. Our results suggest that data diversity and domain-specific methods can outperform models that only scale in the number of parameters, but, on average, performance benefits from the combination of domain-specific methods, data scale, and model scale.
研究の動機と目的
- 計算病理の基盤モデルをデータ規模と多様性を主要な性能推進力として動機づける。
- 既存の Virchow モデルを超える病理適応型自己教師付きトレーニング手法を開発する。
- データの多様性、モデルサイズ、トレーニングアルゴリズムがタイルレベルのベンチマークに与える影響を評価する。
- 広範な組織と染色の網羅性を持つ、拡張性のある公開の ViT ベース病理モデルを提供する。)
- method:[
提案手法
- ドメインに着想を得た拡張法を提案する、特に拡張コンテキスト翻訳(ECT)とエントロピー正則化のための KDE を用いる多様な正則化。
- 大規模 ViT 訓練の安定化技術を採用する。デュアルパッチ正規化(DPN)とクエリ - キー正規化(QKN)、および StableAdamW 最適化。
- 1.5M から 3.1M WSIs へ、組織、機関、染色の多様性を持たせデータをスケールし、モデルサイズを 632M(Virchow)から 1.9B(Virchow2G)へ拡張。
- DINOv2 に触発されたマルチビューのレシピに従い、グローバルおよびローカルビューを用いた混合倍率タイル(5x–40x)を訓練し、KoLeo 上の KDE ベースの多様性正則化を使用する。
- 長尾効果を緩和するため、組織タイプ、診断、染色、倍率間で訓練データをバランスさせる。
- Virchow2 向けに 2B のアンバランスなタイル、 Virchow2G 向けに 2B のバランスの取れたタイルを提供し、安定性のためにアーキテクチャとハイパーパラメータを調整する。
実験結果
リサーチクエスチョン
- RQ1データスケールとモデルスケールは、病理基盤モデルのタイルレベルの性能にどのように影響し合うか?
- RQ2ドメイン特有のデータ拡張と正則化手法は、混合倍率の病理データに適用した場合、標準的な自然画像SSLパイプラインより優れているか?
- RQ3混合倍率トレーニングと多様性指向の目的が、分布内(In-Distribution)と分布外(Out-of-Distribution)のタイルベンチマークに与える影響は?
- RQ4より大きな ViT モデル(例: 1.9B パラメータ)は、 diverse WSIs で訓練した場合、より小さな病理適合モデルより追加の利得を提供できるか?
- RQ5安定化技術(DPN、QKN、StableAdamW)は、訓練安定性と最終性能にどう影響するか?
主な発見
- Virchow2 は平均分布内重み付き F1 を 0.944(Virchow)から 0.966 に改善。
- Virchow2G はさらに平均分布内重み付き F1 を 0.971 に増加。
- 分布外の平均重み付き F1 は、0.877(Virchow)から 0.885(Virchow2)および 0.894(Virchow2G)へ上昇。
- モデルとデータ規模に伴う平均 OOD 性能には対数線形の傾向が観察される。
- ドメイン着想の適用(ECT、KDE)とデータ・モデルのスケーリングにより、12タスクにわたる複数のタイルベンチマークで最先端の結果を達成。
- Virchow2G は本研究で評価されたモデルのすべてのベンチマーク課題で最高の性能を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。