QUICK REVIEW

[논문 리뷰] FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

Yu Chen, Ying Tai|arXiv (Cornell University)|2017. 11. 29.

Advanced Image Processing Techniques참고 문헌 38인용 수 35

한 줄 요약

FSRNet은 얼굴 랜드마크 히트맵과 파싱 맵을 기하학적 사전 지식으로 활용하여 매우 낮은 해상도 입력(예: 16×16 픽셀)에서 정렬이 필요 없이 고해상도 얼굴 이미지를 복원하는 엔드 투 엔드 딥 러닝 프레임워크이다. 공통된 특징과 사전 추정을 공유하는 코arse SR 네트워크와 피니어 SR 네트워크를 공동으로 훈련시킴으로써, 정량적 지표와 시각적 품질 모두에서 최신 기술 수준의 성능을 달성한다. FSRGAN은 적대적 훈련을 통해 더욱 현실적인 결과를 향상시킨다.

ABSTRACT

Face Super-Resolution (SR) is a domain-specific super-resolution problem. The specific facial prior knowledge could be leveraged for better super-resolving face images. We present a novel deep end-to-end trainable Face Super-Resolution Network (FSRNet), which makes full use of the geometry prior, i.e., facial landmark heatmaps and parsing maps, to super-resolve very low-resolution (LR) face images without well-aligned requirement. Specifically, we first construct a coarse SR network to recover a coarse high-resolution (HR) image. Then, the coarse HR image is sent to two branches: a fine SR encoder and a prior information estimation network, which extracts the image features, and estimates landmark heatmaps/parsing maps respectively. Both image features and prior information are sent to a fine SR decoder to recover the HR image. To further generate realistic faces, we propose the Face Super-Resolution Generative Adversarial Network (FSRGAN) to incorporate the adversarial loss into FSRNet. Moreover, we introduce two related tasks, face alignment and parsing, as the new evaluation metrics for face SR, which address the inconsistency of classic metrics w.r.t. visual perception. Extensive benchmark experiments show that FSRNet and FSRGAN significantly outperforms state of the arts for very LR face SR, both quantitatively and qualitatively. Code will be made available upon publication.

연구 동기 및 목표

매우 낮은 해상도(16×16)이자 정렬되지 않은 얼굴 이미지를 초해상도로 복원하는 데 있어, 후속 얼굴 분석 작업의 성능 저하 문제를 해결하기 위함이다.
기존의 다단계 얼굴 초해상도 방법들이 엔드 투 엔드로 훈련되지 않으며, 얼굴 기하학적 사전 지식을 효과적으로 활용하지 못하는 한계를 극복하기 위함이다.
얼굴 정렬과 파싱을 새로운, 인지에 부합하는 평가 지표로 도입하여 기존의 PSNR/SSIM보다 기하학적 정확성을 더 잘 반영하는 것을 목표로 한다.
이미지 복원과 사전 추정을 공동 최적화하는 엔드 투 엔드 학습 가능한 아키텍처를 개발하여 얼굴 구조 복원을 향상시키는 것

제안 방법

코arse SR 네트워크가 저해상도 입력에서 초기 고해상도 얼굴 이미지를 생성한다.
코어스 HR 출력은 두 개의 병렬 브랜치로 공급된다: 이미지 특징 추출을 위한 피니어 SR 인코더와 얼굴 랜드마크 히트맵 및 파싱 맵을 예측하기 위한 사전 추정 네트워크.
피니어 SR 인코더의 특징과 추정된 얼굴 사전 지식이 융합되어 피니어 SR 디코더에 의해 처리되어 최종 고해상도 얼굴 이미지를 생성한다.
사전 추정 네트워크는 다중 작업 학습을 통해 코어스 HR 이미지에서 랜드마크 히트맵과 파싱 맵을 동시에 예측한다.
FSRGAN은 FSRNet에 적대적 손실을 통합하여 생성된 고해상도 얼굴의 인지적 현실감을 향상시킨다.
L1, 지각적, 적대적 손실을 포함하는 복합 손실 함수를 사용하여 엔드 투 엔드로 훈련함으로써 이미지 품질과 기하학적 사전 지식의 공동 최적화를 가능하게 한다.

실험 결과

연구 질문

RQ1얼굴 기하학적 사전 지식(랜드마크와 파싱 맵)을 공통으로 사용하는 엔드 투 엔드 훈련이 매우 낮은 해상도의 얼굴 이미지 초해상도 성능을 크게 향상시킬 수 있는가?
RQ2훈련 중 얼굴 사전 지식 추정을 통합할 경우, 기존의 표준 초해상도 방법에 비해 재구성된 얼굴의 기하학적 정확도가 향상되는가?
RQ3얼굴 정렬과 파싱 성능이 PSNR/SSIM과 시각적 품질 간의 불일치를 해결하는 신뢰할 수 있는, 인지 중심 평가 지표로 기능할 수 있는가?
RQ4특히 8배 이상의 초해상도 배수에서, 제안된 FSRNet이 정량적 지표와 시각적 현실감 모두에서 최신 기술 수준의 방법과 비교해 어떻게 성능을 내는가?
RQ5얼굴 사전 지식과 이미지 복원의 공동 추정이 반복적 또는 다단계 훈련 파이프라인의 필요성을 줄일 수 있는가?

주요 결과

Helen 데이터셋에서 FSRNet은 얼굴 정렬에 대해 평균 NRMSE 3.97을 기록하여 SRResNet(4.87)과 비쿠빅(5.87)을 압도적으로 뛰어넘어 뛰어난 기하학적 정확도를 입증한다.
얼굴 파싱 평가에서 FSRNet은 Helen 데이터셋에서 PSNR 16.11과 SSIM 0.629를 기록하여 SRResNet(PSNR: 15.32, SSIM: 0.603)보다 유의미하게 뛰어나다.
FSRGAN은 MSE를 0.934로 줄이고 PSNR를 16.11로 높여 지각적 품질을 향상시키면서도 높은 기하학적 정확도를 유지함을 보였다.
Titan X GPU에서 128×128 이미지를 처리하는 데 단 0.012초가 소요되어, 이전 방법(CBN: 3.84초)과 전통적 접근 방식(8~20분)보다 현저히 빠르다.
저해상도 입력에서 시작하더라도 FSRNet의 랜드마크 추정 성능은 고해상도 정답을 기반으로 훈련된 몇몇 최신 기술 수준의 방법을 뛰어넘어 뛰어난 강건성을 보였다.
정렬과 파싱을 함께 평가 지표로 사용함으로써, GAN 기반 모델(FSRGAN)이 MSE 기반 모델보다 더 나은 얼굴 기하학적 유지 능력을 보이며 PSNR-시각적 품질 불일치 문제를 해결하는 것으로 드러났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.