Skip to main content
QUICK REVIEW

[论文解读] BiomedJourney: Counterfactual Biomedical Image Generation by Instruction-Learning from Multimodal Patient Journeys

Yu Gu, Jianwei Yang|arXiv (Cornell University)|Oct 16, 2023
Multimodal Machine Learning Applications被引用 12
一句话总结

BiomedJourney 通过对前一张图像和自然语言进展描述进行条件化,使用 GPT-4 生成指令数据并采用带潜在扩散的两阶段课程,优于基线在 MIMIC-CXR 上的表现。

ABSTRACT

Rapid progress has been made in instruction-learning for image editing with natural-language instruction, as exemplified by InstructPix2Pix. In biomedicine, such methods can be applied to counterfactual image generation, which helps differentiate causal structure from spurious correlation and facilitate robust image interpretation for disease progression modeling. However, generic image-editing models are ill-suited for the biomedical domain, and counterfactual biomedical image generation is largely underexplored. In this paper, we present BiomedJourney, a novel method for counterfactual biomedical image generation by instruction-learning from multimodal patient journeys. Given a patient with two biomedical images taken at different time points, we use GPT-4 to process the corresponding imaging reports and generate a natural language description of disease progression. The resulting triples (prior image, progression description, new image) are then used to train a latent diffusion model for counterfactual biomedical image generation. Given the relative scarcity of image time series data, we introduce a two-stage curriculum that first pretrains the denoising network using the much more abundant single image-report pairs (with dummy prior image), and then continues training using the counterfactual triples. Experiments using the standard MIMIC-CXR dataset demonstrate the promise of our method. In a comprehensive battery of tests on counterfactual medical image generation, BiomedJourney substantially outperforms prior state-of-the-art methods in instruction image editing and medical image generation such as InstructPix2Pix and RoentGen. To facilitate future study in counterfactual medical generation, we plan to release our instruction-learning code and pretrained models.

研究动机与目标

  • 在生物医学成像中引入反事实分析以揭示因果结构和对疾病进展的鲁棒解释。
  • 利用多模态的患者旅程(影像与报告)在大规模上合成遵循指令的数据。
  • 开发一个能够根据任意医学进展描述进行图像编辑且保持患者不变量的专用模型。
  • 通过两阶段课程解决数据稀缺问题:在有丰富的单图像–文本对前先进行预训练,再在含真实前图像的反事实三元组上微调。
  • 在 MIMIC-CXR 上以强调病理准确性和特征保留的综合指标进行评估。

提出的方法

  • 将潜在扩散模型(LDM)扩展为同时以文本进展描述和前一张图像为条件。
  • 使用 BiomedCLIP 作为文本编码器以更好地适应生物医学数据,并对 UNet 引入可学习的投影。
  • 通过 GPT-4 将两份报告映射为(前一图像、进展描述、新图像)三元组,从多模态旅程中生成遵循指令的数据。
  • 实现两阶段课程:阶段1 在带虚拟前图像的图像–文本对上进行预训练;阶段2 在带真实前图像的反事实三元组上进行微调。
  • 使用两部分损失训练,将前图像嵌入与潜在状态拼接并对文本描述进行注意:L = E[||epsilon - f_theta(z_t, t, E(D), E(I_P))||^2]。
  • 与 Stable Diffusion、RoentGen 和 InstructPix2Pix 进行对比,以展示病理准确性和特征保留方面的改进。

实验结果

研究问题

  • RQ1一个基于扩散的模型能否在前图像和任意自由形式的进展描述条件下生成准确的反事实医学影像?
  • RQ2将多模态旅程与指令学习结合是否能够在保持患者不变量(种族、年龄、解剖结构)的同时提升与病理变化的一致性?
  • RQ3通过两阶段课程进行数据增强在反事实三元组稀缺时对稳定训练有何作用?

主要发现

模型病理学 AUC种族 AUC年龄 Pearson 相关CMIG 分数
SD (Rombach et al., 2022)49.9077.132.7318.14
IP2P (Brooks et al., 2023)58.1078.2517.8242.12
RoentGen (Chambon et al., 2022a)79.6184.7128.9166.08
BiomedJourney (Ours)80.5497.2279.3883.23
  • BiomedJourney 在病理准确性方面取得更高的分数(Pathology AUC = 80.54)优于基线。
  • BiomedJourney 在种族特征保留方面取得更高的分数(Race AUC = 97.22)优于基线。
  • BiomedJourney 更好地保留年龄相关特征(Age Pearson Corr. = 79.38)相较于基线。
  • BiomedJourney 在比较方法中达到最高的 CMIG 分数(CMIG = 83.23)。
  • 消融实验显示两阶段训练和图像配准提高了病理准确性和特征保留,其中 GPT-4 描述优于基于 Impression 的描述。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。