[论文解读] Self-Supervised Vision Transformers Learn Visual Concepts in Histopathology
该论文基准自监督学习在病理切片和 slide 级任务,展示基于 DINO 的 Vision Transformers 能学习可解释的形态特异视觉概念,在数据稀缺设置下常常优于 ImageNet 预训练基线。
Tissue phenotyping is a fundamental task in learning objective characterizations of histopathologic biomarkers within the tumor-immune microenvironment in cancer pathology. However, whole-slide imaging (WSI) is a complex computer vision in which: 1) WSIs have enormous image resolutions with precludes large-scale pixel-level efforts in data curation, and 2) diversity of morphological phenotypes results in inter- and intra-observer variability in tissue labeling. To address these limitations, current efforts have proposed using pretrained image encoders (transfer learning from ImageNet, self-supervised pretraining) in extracting morphological features from pathology, but have not been extensively validated. In this work, we conduct a search for good representations in pathology by training a variety of self-supervised models with validation on a variety of weakly-supervised and patch-level tasks. Our key finding is in discovering that Vision Transformers using DINO-based knowledge distillation are able to learn data-efficient and interpretable features in histology images wherein the different attention heads learn distinct morphological phenotypes. We make evaluation code and pretrained weights publicly-available at: https://github.com/Richarizardd/Self-Supervised-ViT-Path.
研究动机与目标
- 评估一系列自监督模型作为 whole-slide image (WSI) 表型任务的实例级预训练编码器。
- 评估自监督方法的归纳偏置如何影响后续的切片级和弱监督组织表型任务。
- 将自监督预训练(SimCLR、DINO)与 ImageNet 迁移学习在多样化病理数据集上进行对比。
- 检查学习表示的可解释性,特别是注意力头是否定位到组织病理概念。
提出的方法
- 在 256x256 的组织切片(20x)上使用自监督方法进行预训练 φ(SimCLR 与 ResNet-50,DINO 与 Vision Transformer)。
- 在 varying training data fractions(100%、75%、50%、25%)下,对弱监督乳腺癌亚型分型(IDC vs ILC)和切片级组织表型(CRC-100K、BreastPathQ)进行评估。
- 使用 MIL 框架与 CLAM 作为包分类器来汇集切片嵌入以进行 slide-level 预测。
- 与 ImageNet 预训练的 ResNet-50 基线进行比较;可视化 DINO 的注意力头以解释学习到的视觉概念。
- 通过 UMAP 分析全局结构,并评估自监督特征的数据效能和鲁棒性。
实验结果
研究问题
- RQ1自监督对病理切片的预训练方法是否能产生优于 ImageNet 预训练编码器的表示、用于切片级和病理任务?
- RQ2在不同数据可用性条件下,SimCLR 与 DINO 在弱监督癌症亚型分型和切片级组织表型方面的比较如何?
- RQ3DINO 的注意力头是否能够定位有意义的组织病理概念(细胞、基质、脂肪/气腔等),并反映组织切片中的部分-整体层级?
主要发现
| 表 / 背景 | 方法 | 架构 | 100% 训练 | 75% 训练 | 50% 训练 | 25% 训练 |
|---|---|---|---|---|---|---|
| BRCA Subtyping (IDC vs ILC) | IN Transfer | ResNet-50 | 0.884 ± 0.059 | 0.850 ± 0.069 | 0.835 ± 0.087 | 0.756 ± 0.081 |
| BRCA Subtyping (IDC vs ILC) | SimCLR | ResNet-50 | 0.879 ± 0.069 | 0.859 ± 0.079 | 0.820 ± 0.102 | 0.774 ± 0.094 |
| BRCA Subtyping (IDC vs ILC) | DINO | ViT | 0.886 ± 0.059 | 0.852 ± 0.049 | 0.862 ± 0.052 | 0.809 ± 0.034 |
| CRC-100K Patch-Level (Macenko SN, All Classes) | IN Transfer | ResNet-50 | 0.983 | |||
| CRC-100K Patch-Level (Macenko SN, All Classes) | SimCLR | ResNet-50 | 0.988 | |||
| CRC-100K Patch-Level (Macenko SN, All Classes) | DINO | ViT | 0.999 | |||
| CRC-100K Patch-Level (Macenko SN, All Classes) – No SN | IN Transfer | ResNet-50 | 0.988 | |||
| CRC-100K Patch-Level (Macenko SN, All Classes) – No SN | SimCLR | ResNet-50 | 0.981 | |||
| CRC-100K Patch-Level (Macenko SN, All Classes) – No SN | DINO | ViT | 0.991 | |||
| BRCA Tumor Cellularity (BreastPathQ) | IN Transfer | ResNet-50 | 0.058 | |||
| BRCA Tumor Cellularity (BreastPathQ) | SimCLR | ResNet-50 | 0.078 | |||
| BRCA Tumor Cellularity (BreastPathQ) | DINO | ViT | 0.029 |
- ImageNet 特征是一个强基线,在多项任务中与自监督方法具有竞争力。
- 在 BRCA 亚型分型中,DINO 在自监督方法中获得最高的 AUC,并且在不同训练数据分数下接近或略低于 ImageNet 基线。
- 在 CRC-100K 切片级表型中,自监督方法(特别是 DINO)表现稳健,甚至超越或与基于 ImageNet 的特征接近,同时嵌入的全局结构保持更好。
- 在大多数任务中 DINO 优于 SimCLR,尤其在数据稀缺条件下,表明知识蒸馏的预训练更好地捕捉了组织病理形态。
- 可视化表明 DINO 的多头注意力定位了不同的形态表型(如细胞位置、基质、脂肪/气腔),支持可解释的部分-整体表征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。