[论文解读] Multi-level Multiple Instance Learning with Transformer for Whole Slide Image Classification
MMIL-Transformer 使用带有 messenger tokens 的分层 MIL 框架,以实现对大规模全切片图像的非近似自注意力,在 CAMELYON16 和 TCGA-NSCLC 上取得了优异的结果。
Whole slide image (WSI) refers to a type of high-resolution scanned tissue image, which is extensively employed in computer-assisted diagnosis (CAD). The extremely high resolution and limited availability of region-level annotations make employing deep learning methods for WSI-based digital diagnosis challenging. Recently integrating multiple instance learning (MIL) and Transformer for WSI analysis shows very promising results. However, designing effective Transformers for this weakly-supervised high-resolution image analysis is an underexplored yet important problem. In this paper, we propose a Multi-level MIL (MMIL) scheme by introducing a hierarchical structure to MIL, which enables efficient handling of MIL tasks involving a large number of instances. Based on MMIL, we instantiated MMIL-Transformer, an efficient Transformer model with windowed exact self-attention for large-scale MIL tasks. To validate its effectiveness, we conducted a set of experiments on WSI classification tasks, where MMIL-Transformer demonstrate superior performance compared to existing state-of-the-art methods, i.e., 96.80% test AUC and 97.67% test accuracy on the CAMELYON16 dataset, 99.04% test AUC and 94.37% test accuracy on the TCGA-NSCLC dataset, respectively. All code and pre-trained models are available at: https://github.com/hustvl/MMIL-Transformer
研究动机与目标
- 通过提出一个可扩展的多级 MIL 框架来解决弱标签、高分辨率 WSI 的挑战。
- 引入 MMIL-Transformer,使在大规模实例集合中实现精确的局部和全局自注意力。
- 在 CAMELYON16 和 TCGA-NSCLC 数据集上展示更优的全切片图像分类性能。
- 提供可配置的分组和掩码机制,以平衡精度和计算量。
- 发布代码和预训练模型以实现可重复性和进一步研究。
提出的方法
- 提出一个可微分的多级 MIL (MMIL) 公式,将原始实例分组到子袋中以形成更高层级的袋。
- 引入各种分组操作符(坐标、嵌入、随机、顺序、基于 MSA)来创建子袋并实现定向注意力。
- 将 MSG tokens 附加到子袋上,在子袋内执行自注意力;使用 MSG tokens 构建更高层级的袋。
- 使用基于 messenger 的生成器将子袋中的 MSG tokens 合并到更高层级的袋,并附加一个 CLS token 进行最终分类。
- 结合按嵌入维度的掩蔽机制,以减少活动实例数量并提升性能。
- 提供复杂度分析,显示通过子袋划分和掩蔽可以减少自注意力开销。
实验结果
研究问题
- RQ1MMIL 是否能够处理包含非近似自注意力的大规模 MIL 的 WSIs?
- RQ2分组和掩蔽如何影响 WSI 分类的准确性和效率?
- RQ3MMIL-Transformer 与 CAMELYON16 和 TCGA-NSCLC 上的最先进 MIL/Transformer 方法相比如何?
- RQ4在 MMIL-Transformer 框架内,patch 编码器(如 ResNet 与 ViT)有何影响?
主要发现
| 数据集 | 方法 | 准确率 | AUC |
|---|---|---|---|
| CAMELYON16 | MMIL-Transformer | 0.9341 | 0.9474 |
| TCGA-NSCLC | MMIL-Transformer | 0.9437 | 0.9904 |
- MMIL-Transformer 在 CAMELYON16 上取得了强劲的表现,测试 AUC 为 96.80%,测试准确率为 97.67%(如摘要所述)。
- MMIL-Transformer 在 TCGA-NSCLC 上达到 99.04% 的测试 AUC 和 94.37% 的测试准确率(如摘要所述)。
- 在 CAMELYON16 上,MMIL-Transformer 使用 ResNet-50 作为 patch 编码器在表 1 中报告的准确率为 0.9341,AUC 为 0.9474。
- 在 TCGA-NSCLC 上,MMIL-Transformer 在表 1 中报告的准确率为 0.9437,AUC 为 0.9904。
- 消融研究表明分组类型、掩蔽比率以及多层框架显著影响性能和效率,其中掩蔽提升准确性,而高层袋的构建使非近似自注意力成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。