QUICK REVIEW

[论文解读] Multi-level Multiple Instance Learning with Transformer for Whole Slide Image Classification

Ruijie Zhang, Qiaozhe Zhang|arXiv (Cornell University)|Jun 8, 2023

Image Retrieval and Classification Techniques被引用 10

一句话总结

MMIL-Transformer 使用带有 messenger tokens 的分层 MIL 框架，以实现对大规模全切片图像的非近似自注意力，在 CAMELYON16 和 TCGA-NSCLC 上取得了优异的结果。

ABSTRACT

Whole slide image (WSI) refers to a type of high-resolution scanned tissue image, which is extensively employed in computer-assisted diagnosis (CAD). The extremely high resolution and limited availability of region-level annotations make employing deep learning methods for WSI-based digital diagnosis challenging. Recently integrating multiple instance learning (MIL) and Transformer for WSI analysis shows very promising results. However, designing effective Transformers for this weakly-supervised high-resolution image analysis is an underexplored yet important problem. In this paper, we propose a Multi-level MIL (MMIL) scheme by introducing a hierarchical structure to MIL, which enables efficient handling of MIL tasks involving a large number of instances. Based on MMIL, we instantiated MMIL-Transformer, an efficient Transformer model with windowed exact self-attention for large-scale MIL tasks. To validate its effectiveness, we conducted a set of experiments on WSI classification tasks, where MMIL-Transformer demonstrate superior performance compared to existing state-of-the-art methods, i.e., 96.80% test AUC and 97.67% test accuracy on the CAMELYON16 dataset, 99.04% test AUC and 94.37% test accuracy on the TCGA-NSCLC dataset, respectively. All code and pre-trained models are available at: https://github.com/hustvl/MMIL-Transformer

研究动机与目标

通过提出一个可扩展的多级 MIL 框架来解决弱标签、高分辨率 WSI 的挑战。
引入 MMIL-Transformer，使在大规模实例集合中实现精确的局部和全局自注意力。
在 CAMELYON16 和 TCGA-NSCLC 数据集上展示更优的全切片图像分类性能。
提供可配置的分组和掩码机制，以平衡精度和计算量。
发布代码和预训练模型以实现可重复性和进一步研究。

提出的方法

提出一个可微分的多级 MIL (MMIL) 公式，将原始实例分组到子袋中以形成更高层级的袋。
引入各种分组操作符（坐标、嵌入、随机、顺序、基于 MSA）来创建子袋并实现定向注意力。
将 MSG tokens 附加到子袋上，在子袋内执行自注意力；使用 MSG tokens 构建更高层级的袋。
使用基于 messenger 的生成器将子袋中的 MSG tokens 合并到更高层级的袋，并附加一个 CLS token 进行最终分类。
结合按嵌入维度的掩蔽机制，以减少活动实例数量并提升性能。
提供复杂度分析，显示通过子袋划分和掩蔽可以减少自注意力开销。

实验结果

研究问题

RQ1MMIL 是否能够处理包含非近似自注意力的大规模 MIL 的 WSIs？
RQ2分组和掩蔽如何影响 WSI 分类的准确性和效率？
RQ3MMIL-Transformer 与 CAMELYON16 和 TCGA-NSCLC 上的最先进 MIL/Transformer 方法相比如何？
RQ4在 MMIL-Transformer 框架内，patch 编码器（如 ResNet 与 ViT）有何影响？

主要发现

数据集	方法	准确率	AUC
CAMELYON16	MMIL-Transformer	0.9341	0.9474
TCGA-NSCLC	MMIL-Transformer	0.9437	0.9904

MMIL-Transformer 在 CAMELYON16 上取得了强劲的表现，测试 AUC 为 96.80%，测试准确率为 97.67%（如摘要所述）。
MMIL-Transformer 在 TCGA-NSCLC 上达到 99.04% 的测试 AUC 和 94.37% 的测试准确率（如摘要所述）。
在 CAMELYON16 上，MMIL-Transformer 使用 ResNet-50 作为 patch 编码器在表 1 中报告的准确率为 0.9341，AUC 为 0.9474。
在 TCGA-NSCLC 上，MMIL-Transformer 在表 1 中报告的准确率为 0.9437，AUC 为 0.9904。
消融研究表明分组类型、掩蔽比率以及多层框架显著影响性能和效率，其中掩蔽提升准确性，而高层袋的构建使非近似自注意力成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。