[论文解读] Controlling Vision-Language Models for Multi-Task Image Restoration
DA-CLIP 引入了一个降解感知控制器,使固定的 CLIP 编码器输出高质量的内容嵌入,同时预测降解类型,从而在现有修复框架内实现降解特定与统一图像修复。
Vision-language models such as CLIP have shown great impact on diverse downstream tasks for zero-shot or label-free predictions. However, when it comes to low-level vision such as image restoration their performance deteriorates dramatically due to corrupted inputs. In this paper, we present a degradation-aware vision-language model (DA-CLIP) to better transfer pretrained vision-language models to low-level vision tasks as a multi-task framework for image restoration. More specifically, DA-CLIP trains an additional controller that adapts the fixed CLIP image encoder to predict high-quality feature embeddings. By integrating the embedding into an image restoration network via cross-attention, we are able to pilot the model to learn a high-fidelity image reconstruction. The controller itself will also output a degradation feature that matches the real corruptions of the input, yielding a natural classifier for different degradation types. In addition, we construct a mixed degradation dataset with synthetic captions for DA-CLIP training. Our approach advances state-of-the-art performance on both \emph{degradation-specific} and \emph{unified} image restoration tasks, showing a promising direction of prompting image restoration with large-scale pretrained vision-language models. Our code is available at https://github.com/Algolzw/daclip-uir.
研究动机与目标
- 利用大规模视觉-语言模型(VLMs)来推动并实现通用图像修复。
- 通过预测降解嵌入来缓解降级输入与 VLM 文本提示之间的特征错位。
- 通过跨注意力将经过调优的 VLM 的高质量内容嵌入集成到修复网络中。
- 开发一个混合降解数据集,带有合成描述以训练具备降解能力的模型。
- 在降解特定和统一图像修复任务上展示改进。
提出的方法
- 引入一个图像控制器,该控制器是 CLIP 图像编码器的零初始化增强,用以产生两个输出:一个是降解嵌入,另一个是用于调制编码器块的隐藏控制。
- 冻结 CLIP 编码器,并通过对比目标函数训练图像控制器,使图像内容与降解嵌入与其文本对应项对齐。
- 使用联结对比损失,将 HQ 内容嵌入与干净描述对齐,将降解嵌入与相应降解提示对齐。
- 通过跨注意力在基于 U-Net 的扩散骨干(IR-SDE)的底部块中将 HQ 内容嵌入整合到修复网络中。
- 用控制器预测降解嵌入以实现统一的图像修复,并使用提示学习模块来利用降解上下文。
- 在由 BLIP 描述生成的 HQ 图像配对低质量输入和降解标签的混合降解数据集上训练。
实验结果
研究问题
- RQ1降解感知控制器能否使一个预训练的视觉-语言模型为降级图像产生 HQ 内容特征?
- RQ2通过跨注意力整合 HQ 内容嵌入是否能在多个任务上提升降解特异性修复性能?
- RQ3降解嵌入能否帮助一个处理多种降解类型的统一图像修复模型?
- RQ4混合降解、描述生成的训练数据在实现跨模态对齐以用于修复任务方面有多大效果?
- RQ5在引入 DA-CLIP 时,模型复杂度与修复收益之间的权衡如何?
主要发现
- DA-CLIP 在十种降解上提升感知和失真指标(LPIPS、FID、PSNR、SSIM),在降解特定任务上优于基线。
- DA-CLIP 在去雨任务上达到最先进的感知结果,并在所有评估任务中始终改进 IR-SDE。
- 在统一图像修复中,整合 DA-CLIP 可实现最佳感知结果(尤其是 FID),并在平均降解上优于 IR-SDE。
- DA-CLIP 的降解分类器在十种降解上达到高准确度(除模糊外;91.6%),展示出有效的降解判别能力。
- DA-CLIP 兼容基于扩散和非扩散的修复模型(如 NAFNet),提升多种降解上的性能。
- 该方法相对于基线增加了内存需求,对测试时成本几乎无显著变化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。