QUICK REVIEW

[論文レビュー] FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

Yu Chen, Ying Tai|arXiv (Cornell University)|Nov 29, 2017

Advanced Image Processing Techniques参考文献 38被引用数 35

ひとこと要約

FSRNet は顔のランドマークヒートマップとパーサリングマップをジオメトリーピアリングとして用い、アライメントを必要とせずに非常に低解像度の入力（例：16×16ピクセル）から高解像度顔画像を再構築するエンドツーエンドのディーブラーニングフレームワークである。共通の特徴量とピアリング推定を共有する粗いSRネットワークと細かいSRネットワークを共同で訓練することで、定量的指標および視覚的品質の両面で最先端の性能を達成し、敵対的訓練によりFSRGANがさらに現実性を向上させている。

ABSTRACT

Face Super-Resolution (SR) is a domain-specific super-resolution problem. The specific facial prior knowledge could be leveraged for better super-resolving face images. We present a novel deep end-to-end trainable Face Super-Resolution Network (FSRNet), which makes full use of the geometry prior, i.e., facial landmark heatmaps and parsing maps, to super-resolve very low-resolution (LR) face images without well-aligned requirement. Specifically, we first construct a coarse SR network to recover a coarse high-resolution (HR) image. Then, the coarse HR image is sent to two branches: a fine SR encoder and a prior information estimation network, which extracts the image features, and estimates landmark heatmaps/parsing maps respectively. Both image features and prior information are sent to a fine SR decoder to recover the HR image. To further generate realistic faces, we propose the Face Super-Resolution Generative Adversarial Network (FSRGAN) to incorporate the adversarial loss into FSRNet. Moreover, we introduce two related tasks, face alignment and parsing, as the new evaluation metrics for face SR, which address the inconsistency of classic metrics w.r.t. visual perception. Extensive benchmark experiments show that FSRNet and FSRGAN significantly outperforms state of the arts for very LR face SR, both quantitatively and qualitatively. Code will be made available upon publication.

研究の動機と目的

非常に低解像度（16×16）でアライメントのない顔画像のスーパーエンリッチョンに取り組み、これにより下流の顔分析タスクの性能が低下することを是正すること。
エンドツーエンドで学習されず、顔のジオメトリーピアリングを効果的に活用できない従来のマルチステージ顔SR手法の限界を克服すること。
顔のアライメントとパーサリングを、従来のPSNR/SSIMよりも幾何学的正確性をよりよく反映する、新たな知覚に整合した評価指標として導入すること。
画像再構築とピアリング推定を同時に最適化するエンドツーエンドで学習可能なアーキテクチャを構築し、顔の構造回復を向上させること。

提案手法

粗いSRネットワークが、低解像度入力から一時的な高解像度顔画像を生成する。
粗いHR出力を二重の並列ブランチに供給する：画像特徴抽出のための細かいSRエンコーダーと、顔のランドマークヒートマップとパーサリングマップを予測するピアリング推定ネットワーク。
細かいSRエンコーダーの特徴量と推定された顔のピアリングを統合し、細かいSRデコーダーで復元することで最終的な高解像度顔画像を生成する。
ピアリング推定ネットワークは、粗いHR画像からランドマークヒートマップとパーサリングマップを同時に予測するマルチタスク学習を用いる。
FSRGAN は、生成されたHR顔画像の知覚的現実性を向上させるために敵対的損失を組み込んだ FSRNet の拡張版である。
L1損失、知覚的損失、敵対的損失を含む統合損失関数を用いてエンドツーエンドで学習することで、画像品質とジオメトリーピアリングの両方を共同最適化可能である。

実験結果

リサーチクエスチョン

RQ1顔のジオメトリーピアリング（ランドマークとパーサリングマップ）を用いたエンドツーエンド学習が、非常に低解像度の顔画像におけるスーパーエンリッチョン性能を顕著に向上させることができるか？
RQ2学習中に顔のピアリング推定を組み込むことで、標準的なSR手法と比較して再構築された顔の幾何学的正確性が向上するか？
RQ3顔のアライメントとパーサリング性能が、GANベースのSRにおけるPSNR/SSIMと視覚的品質の不一致を解消する信頼性の高い、知覚に基づいた評価指標として機能するか？
RQ4特に8倍のような高いアップスケーリング要因において、提案されたFSRNetが定量的指標および視覚的リアリズムの両面で最先端の手法と比較してどのように性能を発揮するか？
RQ5顔のピアリングと画像再構築の共同推定により、反復的またはマルチステージのトレーニングパイプラインの必要性が軽減されるか？

主な発見

Helen データセットにおいて、FSRNet は顔アライメントの平均NRMSEが3.97を達成し、SRResNet（4.87）とバイキュービック（5.87）を上回り、優れた幾何学的正確性を示している。
顔パーサリング評価において、Helen データセットでFSRNet はPSNRが16.11、SSIMが0.629を達成し、SRResNet（PSNR: 15.32、SSIM: 0.603）を顕著に上回っている。
FSRGAN はMSEを0.934に低下させ、PSNRを16.11に向上させ、高い知覚的品質を維持しながらも、高い幾何学的正確性を保っている。
Titan X GPU 上で128×128の画像をわずか0.012秒で処理でき、CBN（3.84秒）や従来手法（8〜20分）と比較して顕著に高速である。
LR入力からでも、FSRNet のランドマーク推定は、HRの正解データで学習されたいくつかの最先端手法を上回っており、その頑健性を示している。
アライメントとパーサリングを評価指標として併用することで、GANベースのモデル（FSRGAN）がMSEベースのモデルよりも顔の幾何学的構造をよりよく保持していることが明らかになり、PSNRと視覚的品質の不一致が解消された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。