[论文解读] Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain?
PubMedCLIP,是针对医学领域微调的 CLIP,在 MedVQA 上相对于基于 MAML 的视觉编码器提高多达 3%,并且在若干场景中 PubMedCLIP 也优于通用 CLIP。
Contrastive Language--Image Pre-training (CLIP) has shown remarkable success in learning with cross-modal supervision from extensive amounts of image--text pairs collected online. Thus far, the effectiveness of CLIP has been investigated primarily in general-domain multimodal problems. This work evaluates the effectiveness of CLIP for the task of Medical Visual Question Answering (MedVQA). To this end, we present PubMedCLIP, a fine-tuned version of CLIP for the medical domain based on PubMed articles. Our experiments are conducted on two MedVQA benchmark datasets and investigate two MedVQA methods, MEVF (Mixture of Enhanced Visual Features) and QCR (Question answering via Conditional Reasoning). For each of these, we assess the merits of visual representation learning using PubMedCLIP, the original CLIP, and state-of-the-art MAML (Model-Agnostic Meta-Learning) networks pre-trained only on visual data. We open source the code for our MedVQA pipeline and pre-training PubMedCLIP. CLIP and PubMedCLIP achieve improvements in comparison to MAML's visual encoder. PubMedCLIP achieves the best results with gains in the overall accuracy of up to 3%. Individual examples illustrate the strengths of PubMedCLIP in comparison to the previously widely used MAML networks. Visual representation learning with language supervision in PubMedCLIP leads to noticeable improvements for MedVQA. Our experiments reveal distributional differences in the two MedVQA benchmark datasets that have not been imparted in previous work and cause different back-end visual encoders in PubMedCLIP to exhibit different behavior on these datasets. Moreover, we witness fundamental performance differences of VQA in general versus medical domains.
研究动机与目标
- 推动在数据稀缺和领域特定挑战下的医学 VQA 的视觉-语言表示改进。
- 评估基于 CLIP 的表示在医学领域是否能获得与通用领域相似的提升。
- 通过对 ROCO 提取的 PubMed 医学图像– caption 对对 CLIP 进行微调来开发 PubMedCLIP。
- 将 PubMedCLIP 纳入既有的 MedVQA 主干(MEVF 和 QCR),以评估性能提升。
- 共享开源的 PubMedCLIP 与 MedVQA 流水线以便复现。
提出的方法
- 使用 ViT32、RN-50 和 RN-50x4 后端,在 ROCO 医学图像–caption 对上对 CLIP 进行微调 (PubMedCLIP)。
- 将 MEVF 的 MAML 视觉编码器替换为 PubMedCLIP 特征,同时保留 CDAE、GloVe 和 LSTM 问题编码器以及 BAN 融合。
- 用视觉-语言交叉熵损失和图像重建损失进行训练;将交叉熵损失和重建损失进行平均。
- 在 MEVF 和 QCR 的框架内对 VQA-RAD 和 SLAKE 数据集评估 PubMedCLIP,并进行重复试验(10x)以报告平均准确率。
实验结果
研究问题
- RQ1PubMedCLIP 是否在现有视觉编码器之上提升了 MedVQA 的性能,包含通用域 CLIP 及基于 MAML 的模型?
- RQ2在 question 分布不同的不同 MedVQA 数据集上,PubMedCLIP 的表现如何(定位与整体理解?)
- RQ3在使用 PubMedCLIP 时,后端视觉编码器是否存在数据集特异性差异?
- RQ4在医学领域的 VQA 中,医疗领域监督相较于通用领域监督的相对增益是多少?
主要发现
| 模型 | 编码器 | 开放(VQA-RAD) | 关闭(VQA-RAD) | 总体(VQA-RAD) | 开放(SLAKE) | 关闭(SLAKE) | 总体(SLAKE) |
|---|---|---|---|---|---|---|---|
| MAML + AE | (not PubMedCLIP) | 60.8% | 73.2% | 69.2% | 76.8% | 80.6% | 78.3% |
| MEVF | CLIP-ViT-B + AE | 65.4% | 75.0% | 65.4%? | 80.5% | 77.7% | 79.5% |
| MEVF | CLIP-RN50 + AE | 71.3% | 80.0% | 71.3% | 81.5% | 79.7% | 79.7% |
| MEVF | CLIP-RN50x4 + AE | 71.3% | 79.4% | 71.3% | 80.5% | 78.7% | 78.7% |
| PubMedCLIP-ViT-B + AE | PubMedCLIP-ViT-B + AE | 71.1% | 79.5% | 71.1% | 82.5% | 80.1% | 80.1% |
| PubMedCLIP-RN50 + AE | PubMedCLIP-RN50 + AE | 72.1% | 80.0% | 72.1% | 81.4% | 79.3% | 79.3% |
| PubMedCLIP-RN50x4 + AE | PubMedCLIP-RN50x4 + AE | 71.8% | 79.7% | 71.8% | 81.3% | 79.1% | 79.1% |
- PubMedCLIP 与基于 CLIP 的编码器在 MedVQA 的准确率上超越 MAML 基于视觉编码器。
- PubMedCLIP 在若干设置下取得最佳结果,总体增益在 SLAKE 和 VQA-RAD 上取决于后端可达 3%。
- PubMedCLIP-RN50x4 在某些数据集上偶尔不及 PubMedCLIP-RN50,因为过拟合,而基于 ViT 的后端在 SLAKE 上表现出色。
- 数据集分布差异(VQA-RAD vs. SLAKE)驱动了哪种视觉后端(ResNet vs. ViT)更有效。
- 在定性示例中,使用相同的问题-图像输入时,PubMedCLIP 提供的答案比 MEVF 更准确、相关。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。