Skip to main content
QUICK REVIEW

[论文解读] Atlas: A Novel Pathology Foundation Model by Mayo Clinic, Charité, and Aignostics

Maximilian Alber, Stephan Tietz|arXiv (Cornell University)|Jan 9, 2025
Tuberculosis Research and Epidemiology被引用 3
一句话总结

Atlas 是一个基于 Mayo Clinic 与 Charité 的120万张数字病理切片自监督学习训练的病理基础模型,在21项公开病理基准上实现了总体最优性能,但并非参数量或数据量最大的模型。

ABSTRACT

Recent advances in digital pathology have demonstrated the effectiveness of foundation models across diverse applications. In this report, we present Atlas, a novel vision foundation model based on the RudolfV approach. Our model was trained on a dataset comprising 1.2 million histopathology whole slide images, collected from two medical institutions: Mayo Clinic and Charité - Universtätsmedizin Berlin. Comprehensive evaluations show that Atlas achieves state-of-the-art performance across twenty-one public benchmark datasets, even though it is neither the largest model by parameter count nor by training dataset size.

研究动机与目标

  • 通过大规模自监督学习,推动病理组学中鲁棒、可推广的表征学习。
  • 利用多染色、多放大倍数的 WSIs,覆盖不同组织类型与扫描仪变异。
  • 在广泛的下游病理任务中评估 Atlas 以考察其泛化能力。
  • 将 Atlas 与其他领先的病理基础模型进行对比,定位其优势与局限性。

提出的方法

  • 使用改进的 RudolfV 自监督方法,基于 DINOv2 框架训练一个 ViT-H/14 病理基础模型(632M 参数)。
  • 使用来自 Mayo Clinic 与 Charité 的120万张去标识化 WSIs 数据集,切片在多分辨率(0.25、0.5、1.0、2.0 μm/像素)下生成。
  • 为训练抽样约5.2亿张切片;在 Mayo Clinic Platform 内使用 Nvidia H100 GPU 进行训练。
  • 通过线性探针和 ABMIL 风格的切片级方法在21项公开基准上评估嵌入,使用 CLS 与 CLS+Mean token 表示。
  • 以Patch-level任务的平衡准确度和基于 ABMIL 的切片级任务评估性能;报告不同随机种子下的均值与标准误。

实验结果

研究问题

  • RQ1Atlas 与现有基础模型相比,在形态学与分子相关的病理任务上表现如何?
  • RQ2多染色、多放大培训是否在不同数据集和扫描仪上带来鲁棒性与泛化优势?
  • RQ3所选 token 表示(CLS vs CLS+Mean)对下游性能有何影响?
  • RQ4在不以参数或数据量为最大前提下,Atlas 是否能实现最先进的结果?

主要发现

GroupBenchmarkPhikon v2UNIGigapathRudolfVVirchow2H-optimus-0Atlas
Molecular-relatedHEST-COAD25.626.230.731.025.930.929.4
HEST-HCC7.88.37.19.49.68.410.7
HEST-IDC56.658.556.857.459.361.060.4
HEST-LUAD54.855.255.857.756.957.358.0
HEST-LYMPH_IDC24.825.825.125.625.926.826.4
HEST-PAAD47.948.849.551.147.350.951.8
HEST-PRAD37.732.238.437.735.138.538.4
HEST-READ18.518.419.619.921.124.122.8
HEST-SKCM58.463.558.861.863.766.162.5
HEST-ccRCC27.325.324.925.327.429.029.4
MSI CRC (patch)68.869.570.469.974.071.273.6
MSI STAD (patch)71.270.571.074.174.873.676.0
Pan-cancer TIL92.992.692.392.693.193.093.0
TCGA Uniform (10x)64.068.669.170.673.070.471.8
TCGA Uniform (20x)69.867.868.078.171.572.467.8
BACH73.880.180.276.988.775.893.1
CRC-100k95.595.495.996.096.796.297.1
MHIST78.484.483.180.585.985.086.4
PCAM90.093.694.594.693.994.394.9
CAMELYON1679.885.082.177.186.584.086.8
PANDA65.369.669.669.666.468.070.5
Morphology-average
-------
  • Atlas 在21项基准上的平均表现为61.9%,平均领先 Virchow2 与 H-Optimus-0 1.1个百分点。
  • Atlas 在21项基准中有11项在分子-形态相关任务上表现最佳,在其他任务上多处处于第二名。
  • 在分子相关任务中,Atlas 在若干 HEST 任务上排名第一,整体化合物表现亦名列前茂,且在多项基准中实现前二名。
  • 在形态相关基准中,Atlas 在 MSI CRC、MSI STAD、TCGA Uniform、BACH、CRC-100k、MHIST、PCAM、CAMELYON16、PANDA 等多个数据集上实现顶尖表现。
  • 尽管 Atlas 不是参数量或数据量最大的模型,其表现仍接近或超越最先进模型,显示其对多样化训练数据的强泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。