Skip to main content
QUICK REVIEW

[论文解读] Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Xin Huang, Junjie Liang|arXiv (Cornell University)|Mar 11, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

简要结论:引入一个可视引导的文本解耦扩散框架,利用跨模态视觉先验来在医学提示中分离解剖结构与成像风格,从而实现对生成图像的细粒度可控、提升保真度并带来下游分类收益。

ABSTRACT

Medical image synthesis is crucial for alleviating data scarcity and privacy constraints. However, fine-tuning general text-to-image (T2I) models remains challenging, mainly due to the significant modality gap between complex visual details and abstract clinical text. In addition, semantic entanglement persists, where coarse-grained text embeddings blur the boundary between anatomical structures and imaging styles, thus weakening controllability during generation. To address this, we propose a Visually-Guided Text Disentanglement framework. We introduce a cross-modal latent alignment mechanism that leverages visual priors to explicitly disentangle unstructured text into independent semantic representations. Subsequently, a Hybrid Feature Fusion Module (HFFM) injects these features into a Diffusion Transformer (DiT) through separated channels, enabling fine-grained structural control. Experimental results in three datasets demonstrate that our method outperforms existing approaches in terms of generation quality and significantly improves performance on downstream classification tasks. The source code is available at https://github.com/hx111/VG-MedGen.

研究动机与目标

  • 通过生成条件于细粒度语义提示的高质量合成图像,解决医学影像中的数据稀缺和隐私问题。
  • 在医学文本提示中克服解剖结构与成像风格之间的语义纠缠。
  • 在保持保真度与下游任务实用性的前提下,实现对生成的医学图像的精确、细粒度控制。

提出的方法

  • 利用一个跨模态潜在对齐与预训练视觉编码器来监督文本解耦为解剖学和风格嵌入。
  • 实现一个双分支视觉编码器(解剖 via U-Net,风格 via 变分编码器),通过显式的 Dice 与 KL 损失获得解耦的视觉特征。
  • 引入两个文本映射网络(E_a^T 和 E_s^T)将 ClinicalBERT 嵌入映射到解剖和风格潜在空间,以与视觉先验对齐。
  • 在 Diffusion Transformer 中通过跨注意力的分离通道,以类型嵌入注入解耦的解剖和风格特征,采用 Hybrid Feature Fusion Module (HFFM)。
  • 在生成过程中仅对注意力投影进行微调,采用 Low-Rank Adaptation (LoRA) 以提高参数效率。
  • 包含一个在线颜色分布损失,以强制生成图像的颜色保真度。

实验结果

研究问题

  • RQ1视觉先验是否能够从非结构化医学文本中可靠实现解剖结构与成像风格的解耦?
  • RQ2跨模态对齐是否相较于现有医疗文本到图像(T2I)方法提升了细粒度可控性与生成保真度?
  • RQ3当使用合成数据时,解耦表征是否提升下游诊断/分类性能?

主要发现

  • 提出的可视引导解耦框架在三个医学数据集上比强基线在 FID、KID 以及领域特定指标(HFD/KFD)上表现更好。
  • 在 HAM10000 上,该方法达到 FID 51.56 与 HFD 3.22,优于 PixArt-α 与其他基线。
  • 在 Kvasir-SEG 与 BUSI 上,该方法持续获得最低的 HFD/KID(如 Kvasir-SEG 的 HFD 3.70)。
  • Ours 模型参数量为 0.833B,比 Med-Art 少约 84.7%,也比 SD1.5/SDXL 系列小22%,推理更快(每张图像 1.457s)。
  • 该方法生成的合成数据在 HAM10000 上提升下游分类指标(最佳 F1 0.619、BACC 0.348)相较基线及部分真实数据基线。
  • 消融研究显示属性-描述质量与解耦+ HFFM 的组合对实现低 FID(51.56)至关重要,较劣变体则表现下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。