[论文解读] Towards Robust Blind Face Restoration with Codebook Lookup Transformer
CodeFormer 使用离散码本和 Transformer 来预测盲脸修复的码序列,具备可控特征变换以在保真度和质量之间权衡,达到业界领先的结果并对强劣化具有鲁棒性。
Blind face restoration is a highly ill-posed problem that often requires auxiliary guidance to 1) improve the mapping from degraded inputs to desired outputs, or 2) complement high-quality details lost in the inputs. In this paper, we demonstrate that a learned discrete codebook prior in a small proxy space largely reduces the uncertainty and ambiguity of restoration mapping by casting blind face restoration as a code prediction task, while providing rich visual atoms for generating high-quality faces. Under this paradigm, we propose a Transformer-based prediction network, named CodeFormer, to model the global composition and context of the low-quality faces for code prediction, enabling the discovery of natural faces that closely approximate the target faces even when the inputs are severely degraded. To enhance the adaptiveness for different degradation, we also propose a controllable feature transformation module that allows a flexible trade-off between fidelity and quality. Thanks to the expressive codebook prior and global modeling, CodeFormer outperforms the state of the arts in both quality and fidelity, showing superior robustness to degradation. Extensive experimental results on synthetic and real-world datasets verify the effectiveness of our method.
研究动机与目标
- 通过降低映射不确定性来解决盲脸修复的病态性质。
- 引入通过向量量化自编码器学习的离散码本先验,以提供丰富的 HQ 细节。
- 使用 Transformer 全局预测码序列以实现健壮的修复。
- 通过可控特征变换模块实现可调的保真度与质量之间的权衡。
提出的方法
- 通过自重建学习一个离散码本和解码器(Stage I),以存储高质量的可视部分。
- 固定码本/解码器并训练一个 Transformer,从低质量输入预测码序列(Stage II)。
- 在保持码本和解码器固定的同时,用 Transformer 对编码器进行微调。
- 引入可控特征变换(CFT)模块,通过权重 w 控制编码器到解码器的信息流。
- 分三阶段训练,阶段特定损失聚焦于码本重构、码令牌预测,以及必要时的图像级保真度。
- 在合成数据和真实世界数据集上进行评估,包括一个用于严重劣化的新 WIDER-Test。
实验结果
研究问题
- RQ1离散码本先验是否能降低盲脸修复中的 LQ-HQ 映射不确定性?
- RQ2基于 Transformer 的码预测是否在码本重建上优于最近邻或基于 CNN 的码查找?
- RQ3可控特征变换是否在不同劣化水平上实现有效的保真度-质量权衡?
- RQ4与最先进方法相比,CodeFormer 在真实世界的严重劣化数据上表现如何?
主要发现
- CodeFormer 在 CelebA-Test 的 LPIPS、FID 和 MUSIQ 得分以及 IDS 方面达到列出方法中的最佳水平。
- 它更好地保留身份(高 IDS),同时保持具有竞争力的 PSNR 和 SSIM。
- 在真实世界测试中,CodeFormer 在温和/中等劣化下与同业持平或超越,在严重劣化(WIDER-Test)下获得最佳 FID。
- 消融实验显示去掉码本或使用最近邻/ CNN 查找会降低性能;基于 Transformer 的码预测优于最近邻和 CNN 基线;保持解码器固定对保留学习的先验很重要。
- 运行时具有竞争力(在 V100 上约 0.07s/图像),利于实际使用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。