[论文解读] Quilt-1M: One Million Image-Text Pairs for Histopathology
Quilt-1M 是一个大型开源病理组织视图-语言数据集(1M 图像-文本对),由 Quilt 与其他来源构建,用于预训练一个类似 CLIP 的模型(QuiltNet),在13个外部病理数据集上实现零-shot、线性探测和跨模态检索的州立前沿。
Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has halted comparable progress. To enable similar representation learning for histopathology, we turn to YouTube, an untapped resource of videos, offering 1,087 hours of valuable educational histopathology videos from expert clinicians. From YouTube, we curate Quilt: a large-scale vision-language dataset consisting of 768,826 image and text pairs. Quilt was automatically curated using a mixture of models, including large language models, handcrafted algorithms, human knowledge databases, and automatic speech recognition. In comparison, the most comprehensive datasets curated for histopathology amass only around 200K samples. We combine Quilt with datasets from other sources, including Twitter, research papers, and the internet in general, to create an even larger dataset: Quilt-1M, with 1M paired image-text samples, marking it as the largest vision-language histopathology dataset to date. We demonstrate the value of Quilt-1M by fine-tuning a pre-trained CLIP model. Our model outperforms state-of-the-art models on both zero-shot and linear probing tasks for classifying new histopathology images across 13 diverse patch-level datasets of 8 different sub-pathologies and cross-modal retrieval tasks.
研究动机与目标
- 动机:在病理学中需要大规模的视图-语言数据,以获得比单标签注释更丰富的表征。
- 利用 YouTube 病理视频自动整理和质量控制来创建 Quilt,从而产生丰富的图像-文本对。
- 通过整合额外的公开病理数据源(LAION、Twitter、PubMed)来扩展 Quilt,形成 Quilt-1M 并增加多样性。
- 通过对 CLIP 风格模型(QuiltNet)进行微调,并在多样化的下游病理数据集上进行评估,来展示 Quilt-1M 的实用性。
提出的方法
- 从 1,087 小时的 YouTube 病理视频中整理 Quilt,生成 437,878 张图像及 802,144 对齐文本,覆盖 10x–40x 放大倍数。
- 使用多种模型的混合方式(病理图像分类器、自动语音识别 ASR、大型语言模型 LLM,以及像 UMLS 这样的领域数据库)从视频帧与叙述中提取并降噪图像-文本对。
- 应用一个四步文本降噪与质量控制管线,结合 ASR、RAKE 关键词提取、UMLS 验证和基于 LLM 的纠错,以获得医学相关的医学与 ROI 文本。
- 通过将视频分割为场景块、提取块级 ASR 派生的医学/ROI 文本、选择代表性图像,并通过关键词重叠将图像映射到相关文本,以对齐图像与文本模态。
- 将 Quilt 与 PubMed Open Access、LAION-5B 派生的病理数据,以及 OpenPath Twitter 数据结合,形成 Quilt-1M,具备一百万对图像-文本。
- 对一个 OpenAI CLIP 基线进行微调以创建 QuiltNet,并在 13 个外部病理数据集上评估零-shot、线性探测和跨模态检索。
实验结果
研究问题
- RQ1一个大型、多源的视觉-语言病理数据集是否能在零-shot 和少样本情形下提升对病理任务的表征学习?
- RQ2在 Quilt-1M 上微调的 CLIP 风格模型(QuiltNet)是否在多样化的次病理学和检索任务上优于现有的病理视图-语言模型?
- RQ3使用叙事性 YouTube 视频数据和领域特定文本处理对病理学中的图像-文本对齐的质量与有用性有何影响?
- RQ4将 Quilt 与额外数据源(LAION、PubMed、Twitter)整合如何影响病理分类与检索的下游性能?
主要发现
- Quilt-1M 迄今为止构成最大的开放病理组织视图-语言数据集,包含 1,000,000 对图像-文本对(Quilt 中为 437,878 张图像与 802,144 对文本;Quilt-1M 将 Quilt 与其他来源结合)。
- QuiltNet 在 Quilt-1M 上对一个预训练 CLIP 模型进行微调,在 13 个外部病理数据集上的零-shot 和线性探测任务中,优于 CLIP、BiomedCLIP 和 PLIP 基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。