Skip to main content
QUICK REVIEW

[论文解读] Multi-level Multiple Instance Learning with Transformer for Whole Slide Image Classification

Ruijie Zhang, Qiaozhe Zhang|arXiv (Cornell University)|Jun 8, 2023
Image Retrieval and Classification Techniques被引用 10
一句话总结

MMIL-Transformer 使用带有 messenger tokens 的分层 MIL 框架,以实现对大规模全切片图像的非近似自注意力,在 CAMELYON16 和 TCGA-NSCLC 上取得了优异的结果。

ABSTRACT

Whole slide image (WSI) refers to a type of high-resolution scanned tissue image, which is extensively employed in computer-assisted diagnosis (CAD). The extremely high resolution and limited availability of region-level annotations make employing deep learning methods for WSI-based digital diagnosis challenging. Recently integrating multiple instance learning (MIL) and Transformer for WSI analysis shows very promising results. However, designing effective Transformers for this weakly-supervised high-resolution image analysis is an underexplored yet important problem. In this paper, we propose a Multi-level MIL (MMIL) scheme by introducing a hierarchical structure to MIL, which enables efficient handling of MIL tasks involving a large number of instances. Based on MMIL, we instantiated MMIL-Transformer, an efficient Transformer model with windowed exact self-attention for large-scale MIL tasks. To validate its effectiveness, we conducted a set of experiments on WSI classification tasks, where MMIL-Transformer demonstrate superior performance compared to existing state-of-the-art methods, i.e., 96.80% test AUC and 97.67% test accuracy on the CAMELYON16 dataset, 99.04% test AUC and 94.37% test accuracy on the TCGA-NSCLC dataset, respectively. All code and pre-trained models are available at: https://github.com/hustvl/MMIL-Transformer

研究动机与目标

  • 通过提出一个可扩展的多级 MIL 框架来解决弱标签、高分辨率 WSI 的挑战。
  • 引入 MMIL-Transformer,使在大规模实例集合中实现精确的局部和全局自注意力。
  • 在 CAMELYON16 和 TCGA-NSCLC 数据集上展示更优的全切片图像分类性能。
  • 提供可配置的分组和掩码机制,以平衡精度和计算量。
  • 发布代码和预训练模型以实现可重复性和进一步研究。

提出的方法

  • 提出一个可微分的多级 MIL (MMIL) 公式,将原始实例分组到子袋中以形成更高层级的袋。
  • 引入各种分组操作符(坐标、嵌入、随机、顺序、基于 MSA)来创建子袋并实现定向注意力。
  • 将 MSG tokens 附加到子袋上,在子袋内执行自注意力;使用 MSG tokens 构建更高层级的袋。
  • 使用基于 messenger 的生成器将子袋中的 MSG tokens 合并到更高层级的袋,并附加一个 CLS token 进行最终分类。
  • 结合按嵌入维度的掩蔽机制,以减少活动实例数量并提升性能。
  • 提供复杂度分析,显示通过子袋划分和掩蔽可以减少自注意力开销。

实验结果

研究问题

  • RQ1MMIL 是否能够处理包含非近似自注意力的大规模 MIL 的 WSIs?
  • RQ2分组和掩蔽如何影响 WSI 分类的准确性和效率?
  • RQ3MMIL-Transformer 与 CAMELYON16 和 TCGA-NSCLC 上的最先进 MIL/Transformer 方法相比如何?
  • RQ4在 MMIL-Transformer 框架内,patch 编码器(如 ResNet 与 ViT)有何影响?

主要发现

数据集方法准确率AUC
CAMELYON16MMIL-Transformer0.93410.9474
TCGA-NSCLCMMIL-Transformer0.94370.9904
  • MMIL-Transformer 在 CAMELYON16 上取得了强劲的表现,测试 AUC 为 96.80%,测试准确率为 97.67%(如摘要所述)。
  • MMIL-Transformer 在 TCGA-NSCLC 上达到 99.04% 的测试 AUC 和 94.37% 的测试准确率(如摘要所述)。
  • 在 CAMELYON16 上,MMIL-Transformer 使用 ResNet-50 作为 patch 编码器在表 1 中报告的准确率为 0.9341,AUC 为 0.9474。
  • 在 TCGA-NSCLC 上,MMIL-Transformer 在表 1 中报告的准确率为 0.9437,AUC 为 0.9904。
  • 消融研究表明分组类型、掩蔽比率以及多层框架显著影响性能和效率,其中掩蔽提升准确性,而高层袋的构建使非近似自注意力成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。