[论文解读] DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior
DiffBIR 使用一个两阶段管线,结合一个恢复模块与冻结的 Stable Diffusion 先验,使对通用图像和人脸的盲图像恢复既现实又忠实。它引入 LAControlNet 和潜在图像引导,以在真实感和保真度之间取得平衡。
We present DiffBIR, a general restoration pipeline that could handle different blind image restoration tasks in a unified framework. DiffBIR decouples blind image restoration problem into two stages: 1) degradation removal: removing image-independent content; 2) information regeneration: generating the lost image content. Each stage is developed independently but they work seamlessly in a cascaded manner. In the first stage, we use restoration modules to remove degradations and obtain high-fidelity restored results. For the second stage, we propose IRControlNet that leverages the generative ability of latent diffusion models to generate realistic details. Specifically, IRControlNet is trained based on specially produced condition images without distracting noisy content for stable generation performance. Moreover, we design a region-adaptive restoration guidance that can modify the denoising process during inference without model re-training, allowing users to balance realness and fidelity through a tunable guidance scale. Extensive experiments have demonstrated DiffBIR's superiority over state-of-the-art approaches for blind image super-resolution, blind face restoration and blind image denoising tasks on both synthetic and real-world datasets. The code is available at https://github.com/XPixelGroup/DiffBIR.
研究动机与目标
- 将盲图像恢复扩展到未知退化的通用图像.
- 将降解去除阶段与扩散先验生成阶段结合以实现真实感.
- 实现用户可控的图像保真度与感知真实感之间的折衷.
- 利用注入变调网络(LAControlNet)在不重新训练的情况下自适应 Stable Diffusion.
- 在盲图像超分辨和盲人脸恢复任务中展示卓越性能。
提出的方法
- 采用两阶段管线:首先在多样化降级上预训练一个基于 SwinIR 的恢复模块以实现良好泛化.
- 通过在潜在扩散过程中注入降解- regenerated 提示,对 Stable Diffusion 进行并行 LAControlNet 微调.
- 引入潜在图像引导,实现在扩散采样过程中的可控保真度-真实感折衷.
- 使用包含模糊、缩放、噪声和高阶降级的降级模型来模拟真实世界的低质量图像.
- 使用 L2 像素损失训练恢复模块,扩散阶段使用潜在扩散目标.
- 允许通过梯度缩放参数在 I_reg 与 I_diff 之间转换,实现推理时控制。

实验结果
研究问题
- RQ1 DiffBIR 是否能在通用未知降级下实现对图像的现实恢复,而不仅仅是人脸?
- RQ2 将预训练的 Stable Diffusion 先验整合对盲恢复的保真度和真实感有何影响?
- RQ3 基于 LAControlNet 的微调是否能在保持生成能力的同时实现任务特定的恢复?
- RQ4 用户在不重新训练模型的情况下,能否控制保真度-真实感之间的折衷?
- RQ5 与 state-of-the-art 方法相比,DiffBIR 在 BSR 和 BFR 基准测试中的表现如何?
主要发现
| 数据集 | 指标 | DDNM | GDP | Real-ESRGAN+ | BSRGAN | SwinIR-GAN | FeMaSR | DiffBIR(ours) | 注 |
|---|---|---|---|---|---|---|---|---|---|
| RealSRSet | MANIQA↑ | 0.4535 | 0.4581 | 0.5376 | 0.5640 | 0.5295 | 0.5247 | 0.5906 | Best among listed methods |
| RealSRSet | NIQE↓ | 6.8415 | 5.0626 | 5.7401 | 5.6074 | 5.6093 | 5.2353 | 6.0738 | 越低越好 |
| Real47 | MANIQA↑ | 0.4813 | 0.5237 | 0.5900 | 0.5889 | 0.5721 | 0.5718 | 0.6293 | Best among listed methods |
| Real47 | NIQE↓ | 6.4768 | 3.9866 | 3.9103 | 4.0338 | 3.9910 | 4.1731 | 3.9240 | 越低越好 |
- DiffBIR 在现实世界的 BSR 和 BFR 上在合成与真实数据集上设定新基线。
- 在 RealSRSet 和 Real47 上的感知质量(MANIQA)优于多项基线。
- 对于 BFR,在合成和真实数据集上提供了强保真度和真实感,具备有利的 IDS 和 FID 指标。
- 两阶段设计(RM 与 LAControlNet)避免了单阶段方法常见的过度平滑和错误细节问题。
- 潜在图像引导提供了从忠实恢复到高真实感纹理的可调光谱。
- 消融研究证实恢复模块的必要性、Stable Diffusion 的微调以及 LAControlNet 相对于 ControlNet 的有效性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。