QUICK REVIEW

[論文レビュー] Towards Robust Blind Face Restoration with Codebook Lookup Transformer

Shangchen Zhou, Kelvin C. K. Chan|arXiv (Cornell University)|Jun 22, 2022

Face recognition and analysis被引用数 95

ひとこと要約

CodeFormer は、離散コードブックと Transformer を用いて盲目の顔修復のためのコード列を予測し、忠実度と品質をトレードオフする制御可能な特徴変換を備え、最先端の結果と重度の劣化に対する堅牢性を実現します。

ABSTRACT

Blind face restoration is a highly ill-posed problem that often requires auxiliary guidance to 1) improve the mapping from degraded inputs to desired outputs, or 2) complement high-quality details lost in the inputs. In this paper, we demonstrate that a learned discrete codebook prior in a small proxy space largely reduces the uncertainty and ambiguity of restoration mapping by casting blind face restoration as a code prediction task, while providing rich visual atoms for generating high-quality faces. Under this paradigm, we propose a Transformer-based prediction network, named CodeFormer, to model the global composition and context of the low-quality faces for code prediction, enabling the discovery of natural faces that closely approximate the target faces even when the inputs are severely degraded. To enhance the adaptiveness for different degradation, we also propose a controllable feature transformation module that allows a flexible trade-off between fidelity and quality. Thanks to the expressive codebook prior and global modeling, CodeFormer outperforms the state of the arts in both quality and fidelity, showing superior robustness to degradation. Extensive experimental results on synthetic and real-world datasets verify the effectiveness of our method.

研究の動機と目的

盲目の顔修復の不定性を解消するため、マッピングの不確実性を低減する。
豊富な高品質（HQ）ディテールを提供するため、ベクトル量子化オートエンコーダで学習された離散コードブック事前分布を導入する。
堅牢な修復のため、グローバルにコード列を予測するために Transformer を用いる。
制御可能な特徴変換モジュールを通じて、忠実度と品質のトレードオフを調整可能にする。

提案手法

自己再建（Stage I）を通じて離散コードブックとデコーダを学習し、高品質な視覚的部品を格納する。
コードブック/デコーダを固定し、低品質入力からコード列を予測する Transformer を訓練する（Stage II）。
コードブックとデコーダを固定したまま、エンコーダを Transformer で微調整（ファインチューニング）する。
エンコーダからデコーダへの情報フローを制御する制御可能な特徴変換（CFT）モジュールを導入し、重み w で制御する。
3つの段階で訓練し、段階ごとの損失は、コードブック再構成、コードトークン予測、必要に応じた画像レベルの忠実度に焦点を当てる。
合成データと実世界データセットで評価し、深刻な劣化を含む新しい WIDER-Test を含む。

実験結果

リサーチクエスチョン

RQ1離散コードブック事前分布は、盲目顔修復における低品質-to高品質（LQ-HQ）マッピングの不確実性を低減するか？
RQ2Transformer ベースのコード予測は、コードブック修復のための最近傍（NN）やCNNベースのコードルックアップよりも優れているか？
RQ3制御可能な特徴変換は、劣化レベルにわたる効果的な忠実度-品質のトレードオフを可能にするか？
RQ4実世界の重度劣化データに対する CodeFormer の性能は、最先端手法と比べてどうか？

主な発見

CodeFormer は、CelebA-Test において、一覧の手法の中で最高の LPIPS、FID、MUSIQ スコアと最高の IDS を達成。
識別性をより良く保持（高い IDS）しつつ、PSNRとSSIM も競合的な水準を維持。
実世界のテストでは、軽度/中等度の劣化で同等かそれ以上の成績を示し、重度の劣化（WIDER-Test）では最良の FID を示す。
アブレーションでは、コードブックを削除する、または NN/CNN ルックアップを使用すると性能が低下することが示された。Transformer ベースのコード予測は NN および CNN のベースラインを上回り、デコーダを固定して学習済み事前知識を保持することが重要である。
実行時間は競争力があり（V100 で約0.07s/画像）、実用的な利用を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。