[논문 리뷰] Towards Robust Blind Face Restoration with Codebook Lookup Transformer
CodeFormer는 이산 코드북과 Transformer를 이용해 블라인드 얼굴 복원을 위한 코드 시퀀스를 예측하고, 충실도와 품질 사이의 trade-off를 가능하게 하는 제어 가능한 특징 변환으로 최첨단 성능과 심한 열화에 대한 강건성을 달성한다.
Blind face restoration is a highly ill-posed problem that often requires auxiliary guidance to 1) improve the mapping from degraded inputs to desired outputs, or 2) complement high-quality details lost in the inputs. In this paper, we demonstrate that a learned discrete codebook prior in a small proxy space largely reduces the uncertainty and ambiguity of restoration mapping by casting blind face restoration as a code prediction task, while providing rich visual atoms for generating high-quality faces. Under this paradigm, we propose a Transformer-based prediction network, named CodeFormer, to model the global composition and context of the low-quality faces for code prediction, enabling the discovery of natural faces that closely approximate the target faces even when the inputs are severely degraded. To enhance the adaptiveness for different degradation, we also propose a controllable feature transformation module that allows a flexible trade-off between fidelity and quality. Thanks to the expressive codebook prior and global modeling, CodeFormer outperforms the state of the arts in both quality and fidelity, showing superior robustness to degradation. Extensive experimental results on synthetic and real-world datasets verify the effectiveness of our method.
연구 동기 및 목표
- 블라인드 얼굴 복원의 ill-posed 문제를 매핑 불확실성을 줄임으로써 해결한다.
- 벡터 양자화(autoencoder)로 학습된 이산 코드북 프라이어(discrete codebook prior)를 도입하여 풍부한 HQ 디테일을 제공한다.
- Transformer를 사용하여 전역적으로 코드 시퀀스를 예측하여 강건한 복원을 수행한다.
- 제어 가능한 특징 변환 모듈을 통해 인코더에서 디코더로의 정보 흐름에 대해 충실도-품질 trade-off를 조정한다.
제안 방법
- Stage I에서 자기 재구성을 통해 이산 코드북과 디코더를 학습하여 고품질 시각 부분을 저장한다.
- 코드북/디코더를 고정하고 Stage II에서 저품질 입력으로부터 코드 시퀀스를 예측하도록 Transformer를 학습한다.
- 코드북과 디코더를 고정한 채로 Transformer와 함께 인코더를 미세 조정한다.
- 인코더에서 디코더로의 정보 흐름을 가중치 w로 제어하는 제어 가능한 특징 변환(CFT) 모듈을 도입한다.
- 필요에 따라 코드북 재구성, 코드 토큰 예측, 영상 수준 충실도에 초점을 맞춘 단계별 손실로 세 단계로 학습한다.
- 합성 및 실제 데이터 세트에서 평가하며, 심한 열화를 위한 새로운 WIDER-Test를 포함한다.
실험 결과
연구 질문
- RQ1이산 코드북 프라이어가 블라인드 얼굴 복원에서 LQ-HQ 매핑 불확실성을 감소시키는가?
- RQ2Transformer 기반 코드 예측이 코드북 복원에서 최근접 이웃(nearest-neighbor)이나 CNN 기반 코드 조회를 능가하는가?
- RQ3제어 가능한 특징 변환이 열화 수준에 걸쳐 효과적인 충실도-품질 트레이드오프를 가능하게 하는가?
- RQ4실제 세계의 심한 열화 데이터에서 CodeFormer의 성능은 최신 방법과 비교하여 어떠한가?
주요 결과
- CodeFormer는 나열된 방법들 중 CelebA-Test에서 최상의 LPIPS, FID, MUSIQ 점수와 가장 높은 IDS를 달성한다.
- 식별성(identity)을 더 잘 보존하여(높은 IDS) PSNR 및 SSIM도 경쟁력 있게 유지한다.
- 실세계 테스트에서 경미/중간 열화에서 동료들과 맞먹거나 이를 능가하고, 심한 열화(WIDER-Test)에서 가장 좋은 FID를 얻는다.
- 변성 실험은 코드북 제거나 NN/CNN 조회를 사용하는 경우 성능이 저하되고, Transformer 기반 코드 예측이 NN 및 CNN 기반 비교대비를 상회하며, 디코더를 고정해 두는 것이 학습된 프리오리를 보존하는 데 중요하다고 보여준다.
- 실행 시간은 경쟁력이 있으며(V100에서 이미지당 약 0.07초), 실용적인 사용을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.