Skip to main content
QUICK REVIEW

[论文解读] Virchow2: Scaling Self-Supervised Mixed Magnification Models in Pathology

Eric Zimmermann, Eugene Vorontsov|arXiv (Cornell University)|Aug 1, 2024
Body Composition Measurement Techniques被引用 40
一句话总结

论文介绍了 Virchow2 和 Virchow2G,这是在 3.1M WSIs 上训练的病理自监督 ViT 模型,通过扩展数据和模型规模,在12项任务上实现了棋块级别的最先进表现。

ABSTRACT

Foundation models are rapidly being developed for computational pathology applications. However, it remains an open question which factors are most important for downstream performance with data scale and diversity, model size, and training algorithm all playing a role. In this work, we propose algorithmic modifications, tailored for pathology, and we present the result of scaling both data and model size, surpassing previous studies in both dimensions. We introduce three new models: Virchow2, a 632 million parameter vision transformer, Virchow2G, a 1.9 billion parameter vision transformer, and Virchow2G Mini, a 22 million parameter distillation of Virchow2G, each trained with 3.1 million histopathology whole slide images, with diverse tissues, originating institutions, and stains. We achieve state of the art performance on 12 tile-level tasks, as compared to the top performing competing models. Our results suggest that data diversity and domain-specific methods can outperform models that only scale in the number of parameters, but, on average, performance benefits from the combination of domain-specific methods, data scale, and model scale.

研究动机与目标

  • 以数据规模与多样性作为关键性能驱动因素,推动计算病理的基础模型。
  • 开发病理适应的自监督训练方法,改进先前的 Virchow 模型。
  • 评估数据多样性、模型规模与训练算法对棋块级基准的影响。
  • 提供可扩展的、公开的基于 ViT 的病理模型,覆盖广泛的组织与染色情形。

提出的方法

  • 提出领域启发的增强,尤其是扩展上下文翻译(ECT)与使用 KDE 进行熵正则化的多样化正则化。
  • 采用大 ViT 训练的稳定化技巧,包括双补丁归一化(DPN)和查询-键归一化(QKN),以及 StableAdamW 优化。
  • 将数据规模从 1.5M 扩展到 3.1M WSIs,涵盖多样的组织、机构与染色,并将模型规模从 632M(Virchow)扩展到 1.9B(Virchow2G)。
  • 按照受 DINOv2 启发的多视图配方,使用 KDE 基于多样性正则化在 KoLeo 上对混合放大倍率的瓦片(5x–40x)进行全局与局部视图训练。
  • 在组织类型、诊断、染色与放大倍率之间平衡训练数据,以缓解长尾效应。
  • 提供 2B 不平衡瓦片用于 Virchow2 与 2B 平衡瓦片用于 Virchow2G,架构与超参数经过稳定性调优。

实验结果

研究问题

  • RQ1数据规模和模型规模如何相互作用以影响病理基础模型在棋块级别的表现?
  • RQ2领域特定的增强与正则化方法在应用于混合放大倍率的病理数据时,是否优于标准自然图像自监督学习流程?
  • RQ3混合放大倍率训练与面向多样性目标对分布内与分布外的瓦片基准有何影响?
  • RQ4在用多样性 WSIs 训练时,较大的 ViT 模型(如 1.9B 参数)是否比较小的病理定制模型带来额外收益?
  • RQ5稳定化技术(DPN、QKN、StableAdamW)如何影响大规模训练的稳定性与最终性能?

主要发现

  • Virchow2 将平均分布内加权 F1 从 0.944(Virchow)提升至 0.966。
  • Virchow2G 进一步将平均分布内加权 F1 提升至 0.971。
  • 分布外平均加权 F1 从 0.877(Virchow)提升到 0.885(Virchow2)以及 0.894(Virchow2G)。
  • 在模型和数据规模的跨模型中,分布外性能呈对数线性趋势。
  • 领域启发的适应(ECT、KDE)结合数据和模型扩展,在 12 项任务的多个瓦片基准上达到最新的行业最佳结果。
  • Virchow2G 在本研究评估的模型中,在所有基准任务上均达到最高性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。