[论文解读] Generative Diffusion Prior for Unified Image Restoration and Enhancement
GDP 使用一个预训练的去噪扩散概率模型作为统一的、无监督先验,通过条件引导和降解模型优化实现线性、非线性和盲图像修复与增强。
Existing image restoration methods mostly leverage the posterior distribution of natural images. However, they often assume known degradation and also require supervised training, which restricts their adaptation to complex real applications. In this work, we propose the Generative Diffusion Prior (GDP) to effectively model the posterior distributions in an unsupervised sampling manner. GDP utilizes a pre-train denoising diffusion generative model (DDPM) for solving linear inverse, non-linear, or blind problems. Specifically, GDP systematically explores a protocol of conditional guidance, which is verified more practical than the commonly used guidance way. Furthermore, GDP is strength at optimizing the parameters of degradation model during the denoising process, achieving blind image restoration. Besides, we devise hierarchical guidance and patch-based methods, enabling the GDP to generate images of arbitrary resolutions. Experimentally, we demonstrate GDP's versatility on several image datasets for linear problems, such as super-resolution, deblurring, inpainting, and colorization, as well as non-linear and blind issues, such as low-light enhancement and HDR image recovery. GDP outperforms the current leading unsupervised methods on the diverse benchmarks in reconstruction quality and perceptual quality. Moreover, GDP also generalizes well for natural images or synthesized images with arbitrary sizes from various tasks out of the distribution of the ImageNet training set.
研究动机与目标
- 为多样的图像修复与增强任务提供一个统一的、无监督的先验,超越已知的降级情形。
- 在单一框架中利用预训练的 DDPM 作为先验,解决线性、非线性和盲降解问题。
- 通过分层引导和块级策略实现任意尺寸的图像修复。
- 在扩散过程中同时估计未知降解模型,从而实现盲修复。
- 展示在数据集(ImageNet、LSUN、CelebA)和任务(超分辨率、去模糊、修补、着色、低光增强、HDR)上的多样性,以及具有竞争力的质量指标。
提出的方法
- 使用一个预训练的无条件 DDPM 作为先验,并对其逆过程进行条件化,以 degraded observations 进行修复。
- 采用一个概率框架,其中 p_theta(x_{t-1}|x_t,y) 通过用来自 p(y|x_t) 的数据一致性项引导无条件转移来近似。
- 引入重建项 L 和可选的质量增强项 Q,通过对降解参数的梯度更新来引导降解感知的采样过程。
- 提出两种引导变体:GDP-x_t(对 x_t 的引导)和 GDP-tilde{x}_0(对预测的干净图像的引导),并讨论为提高质量而进行的方差消除。
- 将 GDP 扩展到未知(盲)的降解,通过在反向扩散步骤中联合优化降解参数 φ,如算法 2 所示。
- 通过基于块的生成方案和分层引导策略实现任意分辨率输出,包括用于 HDR 的多图像引导。
实验结果
研究问题
- RQ1一个单一的预训练扩散模型是否可以作为多种修复与增强任务的多功能先验,而无需再训练?
- RQ2条件引导和联合降解参数优化如何在扩散框架内实现盲和非线性图像修复?
- RQ3分层和基于块的策略是否能够在任意图像尺寸上实现高质量修复?
- RQ4相对于无监督基线,GDP 在线性、非线性和盲任务上的表现如何?
- RQ5GDP 对分布外输入是否鲁棒,是否能够处理多图像引导(如 HDR)?
主要发现
- GDP 在若干线性反问题上在重建质量和感知指标方面优于领先的无监督方法。
- GDP 能通过在扩散去噪过程中迭代估计和更新降解参数,处理非线性和盲修复任务。
- 分层引导和基于块的生成实现任意分辨率图像的修复,保持竞争性的保真度。
- GDP 展现出对分布外自然或合成图像的强泛化能力,并在多样数据集(ImageNet、LSUN、CelebA)上保持性能。
- 该方法在超分辨、去模糊、修补、着色、低光增强和 HDR 恢复等任务中实现高保真且忠实的重建,通常超越零-shot 基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。