[论文解读] LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching
LVM-Med 引入一个大规模自监督医学影像模型,在 ~1.3 million images from 55 public datasets 的训练上,使用一种新颖的二阶图匹配目标,以学习鲁棒表征,在 15 下游任务上优于若干 SSL 与基础模型。
Obtaining large pre-trained models that can be fine-tuned to new tasks with limited annotated samples has remained an open challenge for medical imaging data. While pre-trained deep networks on ImageNet and vision-language foundation models trained on web-scale data are prevailing approaches, their effectiveness on medical tasks is limited due to the significant domain shift between natural and medical images. To bridge this gap, we introduce LVM-Med, the first family of deep networks trained on large-scale medical datasets. We have collected approximately 1.3 million medical images from 55 publicly available datasets, covering a large number of organs and modalities such as CT, MRI, X-ray, and Ultrasound. We benchmark several state-of-the-art self-supervised algorithms on this dataset and propose a novel self-supervised contrastive learning algorithm using a graph-matching formulation. The proposed approach makes three contributions: (i) it integrates prior pair-wise image similarity metrics based on local and global information; (ii) it captures the structural constraints of feature embeddings through a loss function constructed via a combinatorial graph-matching objective; and (iii) it can be trained efficiently end-to-end using modern gradient-estimation techniques for black-box solvers. We thoroughly evaluate the proposed LVM-Med on 15 downstream medical tasks ranging from segmentation and classification to object detection, and both for the in and out-of-distribution settings. LVM-Med empirically outperforms a number of state-of-the-art supervised, self-supervised, and foundation models. For challenging tasks such as Brain Tumor Classification or Diabetic Retinopathy Grading, LVM-Med improves previous vision-language models trained on 1 billion masks by 6-7% while using only a ResNet-50.
研究动机与目标
- 由于自然图像的领域偏移,动机是需要在医学影像领域进行大规模、特定领域的自监督学习。
- 提出一个新的 SSL 框架(LVM-Med),它利用二阶图匹配来学习鲁棒的表征。
- 创建一个大型、多样化的医学影像数据集(~1.3M 张图像,来自 55 个公开数据集)以基准化医学中的 SSL 方法。
- 在包括分割、分类和检测在内的 15 个下游任务中,在含分布内与分布外设置下,展示了最先进的性能。
提出的方法
- 为每张图像构建两个扭曲视图,并通过共享骨干网络对它们进行编码以获得嵌入。
- 在一个批次内构建两个图,其中节点表示扭曲视图,边编码局部/全局亲和性。
- 使用全局余弦相似性和局部、区域感知代价来定义顶点亲和性,合并为统一的亲和性 c^v。
- 引入二阶图匹配,使用边缘亲和性 c^e 以捕捉匹配对之间的关系结构。
- 用组合目标求解图匹配问题,并通过基于 IMLE 的梯度估计进行端到端训练的梯度学习。
- 通过对代价引入 Gumbel 噪声并通过有限差分的 IMLE 方案估计梯度,在离散求解器上进行反向传播以实现训练。
实验结果
研究问题
- RQ1二阶图匹配 SSL 目标是否能改进医学影像的表征学习,相比传统的逐对对比损失?
- RQ2将全局和局部亲和信息整合到基于图的 SSL 框架是否能在多样化的医学模态和任务中带来鲁棒、可迁移的特征?
- RQ3与有监督、SSL 和基础模型相比,LVM-Med 在 15 个下游任务中的在分布内和分布外条件下的表现如何?
- RQ4在多模态、公开数据集上,使用对黑箱求解器的梯度估计,训练大规模医学 SSL 模型是否可行?
主要发现
- LVM-Med 在 15 个医学任务上显著优于多种最先进的有监督、自监督和基础模型。
- 在 Brain Tumor Classification 和 Diabetic Retinopathy Grading 上,LVM-Med 通过仅使用 ResNet-50 骨干,将此前在 1B 掩码上训练的视觉-语言模型提高了 6–7 个百分点。
- 二阶图匹配的形式化,结合顶点和边缘亲和性,相较于纯线性(成对)匹配方法带来更强的鲁棒性提升。
- LVM-Med 在 ResNet-50 与 SAM 的 ViT 骨干上在 2D 与 3D 分割任务上都取得了出色的结果,且常常超越基于 SAM 的提示设置。
- 该方法可扩展到大规模数据集,并且可以使用基于 IMLE 的梯度估计端到端训练,尽管图匹配具有组合性质。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。