Skip to main content
QUICK REVIEW

[论文解读] Towards a Visual-Language Foundation Model for Computational Pathology

Ming Y. Lu, Bowen Chen|arXiv (Cornell University)|Jul 24, 2023
AI in cancer detection被引用 18
一句话总结

论文提出 CONCH,是一个用于计算病理学的视觉-语言基础模型,在超过 1.17 百万对图像-字幕中进行训练,在分类、检索、分割和字幕生成等13个病理切片基准上实现零-shot 和少样本的最先进性能。

ABSTRACT

The accelerated adoption of digital pathology and advances in deep learning have enabled the development of powerful models for various pathology tasks across a diverse array of diseases and patient cohorts. However, model training is often difficult due to label scarcity in the medical domain and the model's usage is limited by the specific task and disease for which it is trained. Additionally, most models in histopathology leverage only image data, a stark contrast to how humans teach each other and reason about histopathologic entities. We introduce CONtrastive learning from Captions for Histopathology (CONCH), a visual-language foundation model developed using diverse sources of histopathology images, biomedical text, and notably over 1.17 million image-caption pairs via task-agnostic pretraining. Evaluated on a suite of 13 diverse benchmarks, CONCH can be transferred to a wide range of downstream tasks involving either or both histopathology images and text, achieving state-of-the-art performance on histology image classification, segmentation, captioning, text-to-image and image-to-text retrieval. CONCH represents a substantial leap over concurrent visual-language pretrained systems for histopathology, with the potential to directly facilitate a wide array of machine learning-based workflows requiring minimal or no further supervised fine-tuning.

研究动机与目标

  • 解决计算病理学(CPath)中的标签稀缺和任务特定数据的局限性。
  • 开发一个任务无关的视觉-语言基础模型,使其在多样的病理任务上实现泛化。
  • 利用大规模病理图像-字幕数据,实现在病理工作流中的零-shot、少-shot和多模态推理。

提出的方法

  • 构建具备图像编码器、文本编码器和基于 CoCa 的多模态融合解码器的 CONCH。
  • 使用对比对齐目标进行预训练,以对齐图像和文本表示,并通过以图像为条件生成字幕的字幕生成目标进行预训练。
  • 从 179 万对中自动清洗后,汇集 117 万对的人类字幕预训练数据。
  • 在13个下游基准上评估零-shot、少-shot和有监督的表现,包括切片级和 ROI 级任务。
  • 通过基于 tile 的聚合,在千亿级 WSIs 上评估跨模态检索(文本到图像和图像到文本)以及零-shot 分割。
  • 在有限标签数据下进行微调,以将少-shot 学习与零-shot 基线进行比较。

实验结果

研究问题

  • RQ1大规模病理特定的视觉-语言模型是否能够在没有任务特定微调的情况下,对不同任务实现强劲的零-shot 性能?
  • RQ2在零-shot 和少-shot 设置中,CONCH 模型在 ROI 和整幅 slide 图像任务上的分类、检索、分割和字幕生成表现如何?
  • RQ3联合视觉-语言预训练是否能提升标签效率并在病理学中实现有效的跨模态检索?
  • RQ4使用基于 tile 的聚合和重叠分块,WSI 的零-shot 分割有哪些潜力?
  • RQ5相较于为病理学设计的现有视觉-语言模型(如 PLIP、BiomedCLIP、OpenAICLIP),CONCH 在各基准中的表现如何?

主要发现

  • CONCH 在4个切片级任务和3个 ROI 级任务上实现零-shot 的最先进性能,且通常显著优于基线。
  • 零-shot CCN 测试在 NSCLC 分型(90.0%)和 RCC 分型(89.3%)上显示出高准确率,BRCA 分型为 84.0%;LUAD 模式的 kappa 指标相对于下一个最佳基线提升约 0.16。
  • 在 ROI 任务中,CONCH 达到 79.1% 的 CRC100k 准确率和 71.9% 的 WSSS4LUAD 准确率,分别比 PLIP 高出 11.7% 和 9.5%;SICAP 的 kappa 达到 0.711,超过 BiomedCLIP 0.158。
  • 跨模态检索(文本到图像和图像到文本)的平均召回在 Source A、Source B 和 TCGA-LUAD 数据集上普遍高于基线,显示 CONCH 的跨模态检索优越性。
  • 在 SICAP 和 DigestPath 上的零-shot 分割显示 Dice、召回率和精确度相较基线有所提升,证明在无标注数据下的粗粒度分割能力。
  • 字幕生成实验表明,在对 Held-out 的 Source A 数据集进行微调后,CONCH 在 METEOR 和 ROUGE 指标上优于 GIT 基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。