[论文解读] Dual-stream Multiple Instance Learning Network for Whole Slide Image Classification with Self-supervised Contrastive Learning
本论文提出DSMIL,一种具有可训练距离聚合的双流MIL框架,以及自监督对比学习,用以对整张切片图像进行分类并定位肿瘤,无需 patch-level 标签,利用多尺度特征以提升准确性。
We address the challenging problem of whole slide image (WSI) classification. WSIs have very high resolutions and usually lack localized annotations. WSI classification can be cast as a multiple instance learning (MIL) problem when only slide-level labels are available. We propose a MIL-based method for WSI classification and tumor detection that does not require localized annotations. Our method has three major components. First, we introduce a novel MIL aggregator that models the relations of the instances in a dual-stream architecture with trainable distance measurement. Second, since WSIs can produce large or unbalanced bags that hinder the training of MIL models, we propose to use self-supervised contrastive learning to extract good representations for MIL and alleviate the issue of prohibitive memory cost for large bags. Third, we adopt a pyramidal fusion mechanism for multiscale WSI features, and further improve the accuracy of classification and localization. Our model is evaluated on two representative WSI datasets. The classification accuracy of our model compares favorably to fully-supervised methods, with less than 2% accuracy gap across datasets. Our results also outperform all previous MIL-based methods. Additional benchmark results on standard MIL datasets further demonstrate the superior performance of our MIL aggregator on general MIL problems. GitHub repository: https://github.com/binli123/dsmil-wsi
研究动机与目标
- 仅使用幻灯片级标签来进行弱监督的整张切片图像(WSI)分类。
- 缓解在不平衡的袋和大袋大小情况下MIL聚合的弱点。
- 通过自监督对比学习(SimCLR)为MIL学习鲁棒的patch表示。
- 开发多尺度金字塔融合以利用多尺度组织特征。
- 在WSI数据集上展示最先进的性能并在通用MIL基准上进行验证。
提出的方法
- 提出DSMIL:一种双流MIL聚合器:一个最大池化流用于识别关键实例,另一个基于距离的注意力流用于计算袋嵌入。
- 使用实例嵌入与关键实例之间的可训练距离U(h_i, h_m)来形成注意力权重。
- 将袋嵌入计算为实例信息向量v_i的加权和,权重为U(h_i, h_m),然后通过袋分类器进行打分;最终分数等于两条流的平均值。
- 使用自监督对比学习(SimCLR)训练特征提取器f,以获得用于MIL的鲁棒patch表示。
- 采用金字塔式多尺度特征融合,将5x和20x放大倍数的特征级联以形成多尺度嵌入,从而实现局部约束的注意力。
- 利用自监督学习框架,以缓解大袋中的内存与标签稀缺问题并提高表示质量。
实验结果
研究问题
- RQ1在弱标注的WSI中,具有可训练距离度量的双流MIL聚合器能否提升实例级和袋级的判别能力?
- RQ2与端到端训练或ImageNet预训练相比,自监督对比学习是否能为WSI中的MIL提供更优越的patch表示?
- RQ3多尺度(金字塔)特征融合是否优于单尺度方法在WSI分类与定位性能上的提升?
- RQ4DSMIL在除WSI之外的标准MIL基准上的表现如何,其聚合是否能在不同任务中泛化?
主要发现
| 模型 | 尺度 | 准确率 | AUC | 定位/FROC |
|---|---|---|---|---|
| Mean-pooling | Single | 0.7984 | 0.7620 | 0.1162 |
| Max-pooling | Single | 0.8295 | 0.8641 | 0.3313 |
| MILRNN | Single | 0.8062 | 0.8064 | 0.3048 |
| ABMIL | Single | 0.8450 | 0.8653 | 0.4056 |
| DSMIL | Single | 0.8682 | 0.8944 | 0.4296 |
| Fully-supervised | Single | 0.9147 | 0.9362 | 0.5254 |
| MS-MILRNN | Multiple | 0.8140 | 0.8371 | 0.2791 |
| MS-ABMIL | Multiple | 0.8760 | 0.8872 | 0.4191 |
| DSMIL-LC | Multiple | 0.8992 | 0.9165 | 0.4371 |
| Mean-pooling | Single | 0.8857 | 0.9369 | - |
| Max-pooling | Single | 0.8088 | 0.9014 | - |
| MIL-RNN | Single | 0.8619 | 0.9107 | - |
| ABMIL | Single | 0.9000 | 0.9488 | - |
| DSMIL | Single | 0.9190 | 0.9633 | - |
| MS-MIL-RNN | Multiple | 0.8905 | 0.9213 | - |
| MS-ABMIL | Multiple | 0.9000 | 0.9551 | - |
| DSMIL-LC | Multiple | 0.9286 | 0.9583 | - |
- DSMIL在WSI分类和肿瘤定位方面优于其他近来MIL模型,在Camelyon16和TCGA肺癌数据集上准确率约高出2-3%。
- 在多尺度注意力(DSMIL-LC)下,DSMIL将与全监督方法的准确率差距缩小到Camelyon16分类任务中的2%以下。
- 用于patch表示的自监督对比学习显著优于端到端训练,尤其在不平衡袋场景下(如Camelyon16)。
- 多尺度注意力优于单尺度及其他多尺度融合策略,DSMIL-LC在Camelyon16和TCGA数据集上实现了最先进的结果。
- 在经典MIL数据集上,DSMIL相对于最近的MIL聚合器表现出竞争力或优越性,证明了双流方法的泛化性。
- 消融研究证实DSMIL聚合器、对比学习和多尺度注意力在提升MIL性能方面的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。