[论文解读] RoentGen: Vision-Language Foundation Model for Chest X-ray Generation
RoentGen 将潜在扩散模型调整为在医疗文本提示条件下生成高保真胸部X光片,为下游任务实现领域特定微调和数据增强。
Multimodal models trained on large natural image-text pair datasets have exhibited astounding abilities in generating high-quality images. Medical imaging data is fundamentally different to natural images, and the language used to succinctly capture relevant details in medical data uses a different, narrow but semantically rich, domain-specific vocabulary. Not surprisingly, multi-modal models trained on natural image-text pairs do not tend to generalize well to the medical domain. Developing generative imaging models faithfully representing medical concepts while providing compositional diversity could mitigate the existing paucity of high-quality, annotated medical imaging datasets. In this work, we develop a strategy to overcome the large natural-medical distributional shift by adapting a pre-trained latent diffusion model on a corpus of publicly available chest x-rays (CXR) and their corresponding radiology (text) reports. We investigate the model's ability to generate high-fidelity, diverse synthetic CXR conditioned on text prompts. We assess the model outputs quantitatively using image quality metrics, and evaluate image quality and text-image alignment by human domain experts. We present evidence that the resulting model (RoentGen) is able to create visually convincing, diverse synthetic CXR images, and that the output can be controlled to a new extent by using free-form text prompts including radiology-specific language. Fine-tuning this model on a fixed training set and using it as a data augmentation method, we measure a 5% improvement of a classifier trained jointly on synthetic and real images, and a 3% improvement when trained on a larger but purely synthetic training set. Finally, we observe that this fine-tuning distills in-domain knowledge in the text-encoder and can improve its representation capabilities of certain diseases like pneumothorax by 25%.
研究动机与目标
- 在医学影像中由于自然图像与医学概念之间的分布差异,推动需要领域自适应的生成模型。
- 通过将预训练的潜在扩散模型适配到胸部X光数据和放射科报告来开发 RoentGen。
- 使用定量指标和专家评估来评估图像保真度、多样性以及文本-图像对齐。
- 展示下游收益:通过领域特定微调实现分类器性能提升以及文本编码器表示的提升。
提出的方法
- 在胸部X光和放射科报告语料上微调或重新训练 Stable Diffusion 管道(VAE、U-Net、文本编码器)。
- 在简短的领域内医疗提示上进行条件生成,使用领域特定的文本编码器(RadBERT、SapBERT)或领域适应的 CLIP 编码器。
- 使用联合损失,在扩散过程中使真实噪声与 U-Net 预测噪声之间的均方误差最小化。
- 比较策略:微调 U-Net、微调文本编码器、替换/保留编码器,以及改变训练步数和学习率。
- 在多个提示以及具有不同标记长度的提示上,使用 FID、MS-SSIM 及领域相关指标评估保真度和多样性。
- 通过放射科报告生成、图像-图像与图像-文本检索,以及基于合成数据的多标签分类来评估事实正确性。
实验结果
研究问题
- RQ1能否有效地将预训练的潜在扩散模型适配以生成以放射科领域提示为条件的高保真胸部X光片?
- RQ2哪种微调策略组合(U-Net、文本编码器、领域特定编码器)可在CXRs上达到最佳保真度和概念对齐?
- RQ3在共享 U-Net 条件下,领域特定文本编码器是否能提升生成质量?文本编码器是否能够从领域内微调中受益?
- RQ4由 RoentGen 生成的合成 CXRs 是否能扩充真实数据以提升下游任务,如图像分类?
- RQ5面向领域的评估(文本到图像对齐、放射科报告生成、检索任务)如何反映生成的 CXRs 的事实正确性?
主要发现
- RoentGen 能在放射科专用语言条件下生成视觉上逼真且多样的合成 CXRs。
- 同时微调 U-Net 和领域特定文本编码器比仅部分或单一组件微调获得更高的图像保真度和概念正确性。
- 将 CLIP 文本编码器替换为领域特定编码器(RadBERT 或 SapBERT)并联合训练 U-Net 可提升 FID、XRV 及相关指标。
- 微调将领域内知识蒸馏到文本编码器中,使诸如气胸等疾病的表示提升多达 25%。
- 在其设置中,使用真实数据+合成数据的训练下,合成 CXRs 的数据扩增将下游分类器性能提升 5%,仅合成数据则提升 3%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。