Skip to main content
QUICK REVIEW

[论文解读] Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing

Shruthi Bannur, Stephanie L. Hyland|arXiv (Cornell University)|Jan 11, 2023
Multimodal Machine Learning Applications被引用 11
一句话总结

BioViL-T 引入一个多图像编码器,利用先前图像和报告来对生物医学数据的视觉–语言模型进行预训练,在报告生成、时序图像分类和短语定位等时序性和非时序性任务上达到最先进结果。

ABSTRACT

Self-supervised learning in vision-language processing exploits semantic alignment between imaging and text modalities. Prior work in biomedical VLP has mostly relied on the alignment of single image and report pairs even though clinical notes commonly refer to prior images. This does not only introduce poor alignment between the modalities but also a missed opportunity to exploit rich self-supervision through existing temporal content in the data. In this work, we explicitly account for prior images and reports when available during both training and fine-tuning. Our approach, named BioViL-T, uses a CNN-Transformer hybrid multi-image encoder trained jointly with a text model. It is designed to be versatile to arising challenges such as pose variations and missing input images across time. The resulting model excels on downstream tasks both in single- and multi-image setups, achieving state-of-the-art performance on (I) progression classification, (II) phrase grounding, and (III) report generation, whilst offering consistent improvements on disease classification and sentence-similarity tasks. We release a novel multi-modal temporal benchmark dataset, MS-CXR-T, to quantify the quality of vision-language representations in terms of temporal semantics. Our experimental results show the advantages of incorporating prior images and reports to make most use of the data.

研究动机与目标

  • 激发并解决生物医学视觉–语言预训练中时序信息的错配和利用不足的问题。
  • 开发 BioViL-T,一种能够优雅处理缺失/先前图像以及空间错位的多图像 CNN–Transformer 编码器,而无需进行图像配准。
  • 通过利用图像引导的掩码语言模型和对比学习目标,学习时序感知的图像–文本联合表示。
  • 展示数据效率和在静态与时序下游任务中的广泛适用性,并发布 MS-CXR-T 作为一个时序 VLP 基准。
  • 证明引入先验上下文能够提升时序与非时序任务的性能,包括报告生成、肺炎检测和短语定位。

提出的方法

  • 提出 BioViL-T:一个将当前图像信息与先前图像信息汇聚的 CNN–Transformer 混合多图像编码器,在不进行显式图像配准的情况下实现信息整合。
  • 使用从 CXR-BERT 初始化的文本编码器,并将图像/文本特征投射到共享潜在空间。
  • 通过图像引导的掩码语言建模和全局/局部对比损失(InfoNCE)来对齐跨模态表示。
  • 通过在存在先前图像时将当前图像特征与进展特征拼接来分解静态与时序图像特征;否则使用一个学习得到的缺失标记。
  • 通过专用提示符/分隔符将报告生成与先前报告相关联,以在上下文中呈现当前发现。
  • 整理并 curate 时序数据(MS-CXR-T)并进行数据集筛选以获得更高质量的多图像研究;在静态和时序任务中评估零-shot/小样本和全监督设置。

实验结果

研究问题

  • RQ1如何将时序结构和先前成像信息纳入生物医学视觉–语言预训练以提升下游任务?
  • RQ2具有时序对齐的多图像编码器是否在时序和非时序生物医学 VLP 任务中都优于单图像基线?
  • RQ3显式时序上下文(先前报告和先前图像)对报告生成质量与真实性有何影响?
  • RQ4时序感知的预训练能否推广到静态任务如肺炎检测和短语定位,且该方法的数据效率如何?
  • RQ5哪些基准和度量最能反映胸部 X 光数据的时序语义在视觉–语言模型中的表现?

主要发现

方法预训练PI / PRBLEU-4ROUGECHEXBERTTEM
NN Baseline (NN) CXR-RePaiR-2BioViL✗ / ✗2.114.328.112.5
Baseline (NN) [9]BioViL✗ / ✗3.720.028.311.1
Proposed (NN) BioViL-T✓ / ✗4.520.529.013.0
AR Baseline (AR) [9]BioViL✗ / ✗7.5 p m 0.127.9 p m 0.129.3 p m 0.313.8 p m 0.1
Proposed BioViL-T✓ / ✗8.2 p m 0.128.7 p m 0.130.2 p m 0.716.0 p m 0.3
Proposed BioViL-T✓ / ✓9.2 p m 0.329.6 p m 0.131.7 p m 1.017.5 p m 0.1
  • 在使用先前图像上下文时,BioViL-T 在时序图像分类和报告生成任务上达到最新水平。
  • 带有先前图像的时序预训练在多项任务上提升了零-shot/小样本和全数据下的性能。
  • 将先前报告作为提示提升报告生成质量,尤其是对时序变化的描述,TEM 分数更高表示更好的变化描述。
  • 静态任务如肺炎分类和短语定位也从时序学习中获益,优于非时序基线。
  • 用 BioViL-T 训练的文本嵌入显示出增强的时序敏感性,提升时序句子相似性基准。
  • 一个专用的多图像编码器,结合特征分解(静态 vs. 进展)和时序编码,对在姿态变化和缺失输入下的鲁棒性至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。