Skip to main content
QUICK REVIEW

[论文解读] Zero-shot-Learning Cross-Modality Data Translation Through Mutual Information Guided Stochastic Diffusion

Zihao Wang, Yingyu Yang|arXiv (Cornell University)|Jan 31, 2023
Cancer-related molecular mechanisms research被引用 8
一句话总结

该论文提出 MIDiffusion,一种零样本无监督的跨模态数据翻译方法,利用局部互信息(LMI)层来在没有源域训练数据的情况下引导基于扩散的翻译。

ABSTRACT

Cross-modality data translation has attracted great interest in image computing. Deep generative models ( extit{e.g.}, GANs) show performance improvement in tackling those problems. Nevertheless, as a fundamental challenge in image translation, the problem of Zero-shot-Learning Cross-Modality Data Translation with fidelity remains unanswered. This paper proposes a new unsupervised zero-shot-learning method named Mutual Information guided Diffusion cross-modality data translation Model (MIDiffusion), which learns to translate the unseen source data to the target domain. The MIDiffusion leverages a score-matching-based generative model, which learns the prior knowledge in the target domain. We propose a differentiable local-wise-MI-Layer ($LMI$) for conditioning the iterative denoising sampling. The $LMI$ captures the identical cross-modality features in the statistical domain for the diffusion guidance; thus, our method does not require retraining when the source domain is changed, as it does not rely on any direct mapping between the source and target domains. This advantage is critical for applying cross-modality data translation methods in practice, as a reasonable amount of source domain dataset is not always available for supervised training. We empirically show the advanced performance of MIDiffusion in comparison with an influential group of generative models, including adversarial-based and other score-matching-based models.

研究动机与目标

  • 在训练阶段无需成对数据或源域数据的情况下,解决跨模态翻译的需求。
  • 提出一个由局部互信息引导的扩散框架,实现零-shot 翻译。
  • 避免对循环一致性、对抗训练或预训练生成器作为条件的依赖。
  • 在多种医学成像模态下证明翻译保真度(忠实性和真实感)的提升。

提出的方法

  • 采用带 VE-SDE (Variance Exploding SDE) 的得分基扩散模型实现跨模态翻译。
  • 引入可微的局部互信息(LMI)层,将扩散过程条件化为源模态与目标模态之间的统计相似性。
  • 将 LMI 定义为通过核密度估计与邻域补丁来衡量局部统计依赖性。
  • 将 LMI 条件嵌入到前向扰动和后向去噪步骤,实现无需源域训练数据的零-shot 指导。
  • 提供一个高效算子(定义 4–5 与 命题 1)以在可控、GPU 友好的方式计算 LMI。
  • 通过损失函数中包含 LMI 指导作为条件信号的 s_theta 训练(公式 12),并通过反向 SDE 采样(公式 13)实现采样。

实验结果

研究问题

  • RQ1在训练阶段未见源模态时,是否可以实现零-shot 跨模态数据翻译?
  • RQ2局部互信息引导是否相较于基于 GAN 的基线和其它扩散基线 提高翻译的真实感与忠实性?
  • RQ3在不同医学成像模态对(CT↔MR、T1↔FLAIR、PD↔T1)下,MIDiffusion 在保真度与真实感方面的表现如何?

主要发现

  • MIDiffusion 在跨数据集上实现了更高的翻译保真度(更好的 SSIM、较低的 MSE、较高的 MI)与竞争性的真实感(更低的 FID),优于 GAN 基线和扩散基线。
  • 零-shot 无监督的 MIDiffusion 在 GoldAtlas 与 CuRIOUS 数据集上优于少样本的 CycleGAN,表明强的零-shot 泛化能力。
  • 与 SDEdit 相比,MIDiffusion 常能获得更好的对源域与目标域的 SSIM,并且翻译误差更低,同时保持有竞争力的真实感。
  • 在 GoldAtlas、CuRIOUS 与 IXI 数据集上,MIDiffusion 在 SSIM(Tar 与 Src)、MSE、MI、PSNR、FID 等指标上相对于 CycleGAN、StyleGAN、SDEdit 基线表现更优或具竞争力。
  • LMI 引导的条件化提供了语义一致性,而无需单独的生成器或测试时反演。
  • 该方法能够有效翻译尚未见过的模态,尽管需要较高的迭代采样成本(数百步扩散采样)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。