QUICK REVIEW

[論文レビュー] Image Fine-grained Inpainting

Hui Zheng, Jie Li|arXiv (Cornell University)|Feb 7, 2020

Generative Adversarial Networks and Image Synthesis参考文献 40被引用数 39

ひとこと要約

本研究は DMFN を導入します。dense multi-scale fusion blocks と novel losses（self-guided regression と geometrical alignment）を備えたワンステージのインペインティングモデルにより、顔・建物・風景にわたって高忠実度かつ意味的に整合した結果を生成します。

ABSTRACT

Image inpainting techniques have shown promising improvement with the assistance of generative adversarial networks (GANs) recently. However, most of them often suffered from completed results with unreasonable structure or blurriness. To mitigate this problem, in this paper, we present a one-stage model that utilizes dense combinations of dilated convolutions to obtain larger and more effective receptive fields. Benefited from the property of this network, we can more easily recover large regions in an incomplete image. To better train this efficient generator, except for frequently-used VGG feature matching loss, we design a novel self-guided regression loss for concentrating on uncertain areas and enhancing the semantic details. Besides, we devise a geometrical alignment constraint item to compensate for the pixel-based distance between prediction features and ground-truth ones. We also employ a discriminator with local and global branches to ensure local-global contents consistency. To further improve the quality of generated images, discriminator feature matching on the local branch is introduced, which dynamically minimizes the similarity of intermediate features between synthetic and ground-truth patches. Extensive experiments on several public datasets demonstrate that our approach outperforms current state-of-the-art methods. Code is available at https://github.com/Zheng222/DMFN.

研究の動機と目的

高精細なテクスチャと意味的精度を有する大きな領域の画像インペインティングの改善を動機づける。
受容野を効率的に拡張する dense multi-scale fusion を備えたワンステージ生成器を提案する。
意味的忠実性と空間的整合性を高める自己誘導回帰損失と幾何学的整列損失を導入する。
訓練の安定性と品質を高めるため、ローカル・グローバルに焦点を合わせた二枝判別器と特徴マッチングを組み込む。
顔、建物、風景を含む複数のデータセットで最先端性能を実証する。

提案手法

dense multi-scale fusion blocks（DMFB）を提案し、異なるレートの4つの拡張畳み込みから特徴を融合して受容野を密に拡張する。
MAE、self-guided regression、VGG feature matching、discriminator feature matching、adversarial loss、alignment loss を組み合わせた損失でエンドツーエンドに訓練されるワンステージ生成器を用いる。
normalized discrepancy map を用いて VGG features を再重み付けし、不確実な領域に学習を集中させる self-guided regression loss を導入する。
出力とグラウンドトゥルース間で高レベル特徴中心点（VGG activations を介して）を整列させる geometrical alignment constraint を導入する。
Relativistic Average GAN（RaGAN）を採用し、global と local の二枝判別機でグローバルな整合性とローカルなリアリズムを強制する。
Paris Street View、Places2、CelebA-HQ、FFHQ のデータセットで訓練・評価を行い、CA、GMCNN、PICNet、PENNet と比較する。

実験結果

リサーチクエスチョン

RQ1dense multi-scale fusion を備えたワンステージのインペインティングモデルは、既存手法と比較してグローバルな構造とローカルの質感忠実性を上回ることができるのか？
RQ2self-guided regression と geometrical alignment 損失は、インペインティング領域の意味的一貫性と空間整列を改善するのか？
RQ3局所特徴マッチングを含む二枝 RaGAN 判別器はリアリズムとアーチファクト低減にどう影響するのか？
RQ4標準的なインペインティング指標（LPIPS、PSNR、SSIM）で、最先端手法と比較した定量的な改善はどれほどか？
RQ5提案手法は顔・建物・自然風景など多様なコンテンツで有効か？

主な発見

Method	Paris street view LPIPS	Paris street view PSNR	Paris street view SSIM	Places2 LPIPS	Places2 PSNR	Places2 SSIM	CelebA-HQ LPIPS	CelebA-HQ PSNR	CelebA-HQ SSIM	FFHQ LPIPS	FFHQ PSNR	FFHQ SSIM
CA	N/A	0.1524	21.32	0.0724	24.13	0.8661	N/A	N/A	N/A	N/A	N/A	N/A
GMCNN	0.1243	24.38	0.8444	0.1829	19.51	0.7817	0.0509	25.88	0.8879	N/A	N/A	N/A
PICNet	0.1263	23.79	0.8314	0.1622	20.70	0.7931	N/A	N/A	N/A	N/A	N/A	N/A
PENNet	N/A	N/A	N/A	0.2384	21.93	0.7586	N/A	N/A	N/A	N/A	N/A	N/A
DMFN (Ours)	0.1018	25.00	0.8563	0.1188	22.36	0.8194	0.0460	26.50	0.8932	0.0457	26.49	0.8985

DMFN は Paris Street View、Places2、CelebA-HQ、FFHQ の各データセットで、CA、GMCNN、PICNet、PENNet と比較して競合的または優れた LPIPS、PSNR、SSIM を達成している。
DMFB 設計は大規模カーネル代替手法よりもパラメータ数が少なく、密度の高い受容野を提供し、大きな穴のインペインティングを改善する。
self-guided regression はガイダンスマップを介して不確実領域の学習を集中させ、細粒度の意味的ディテールを改善する。
幾何学的整列制約は生成画像とグラウンドトゥルース画像間の高レベル特徴の空間対応を改善し、もっともらしい構造配置を助ける。
二枝の局所-global 判別器と discriminator feature matching はリアリズムを高め、アーチファクトを減少させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。