QUICK REVIEW

[論文レビュー] Patch-Based Image Inpainting with Generative Adversarial Networks

Uğur Demir, Gözde Ünal|arXiv (Cornell University)|Mar 20, 2018

Advanced Image Processing Techniques参考文献 6被引用数 94

ひとこと要約

Demir と Unal は PGGAN を提案します。PGGAN は、グローバル（G-GAN）とパッチベース（PatchGAN）判別器を共有前段層で結合し、グローバル構造とローカルテクスチャの両方を捉えることで、大きな穴のインペインティングの高品質を実現するGANベースのインペインティングモデルです。

ABSTRACT

Area of image inpainting over relatively large missing regions recently advanced substantially through adaptation of dedicated deep neural networks. However, current network solutions still introduce undesired artifacts and noise to the repaired regions. We present an image inpainting method that is based on the celebrated generative adversarial network (GAN) framework. The proposed PGGAN method includes a discriminator network that combines a global GAN (G-GAN) architecture with a patchGAN approach. PGGAN first shares network layers between G-GAN and patchGAN, then splits paths to produce two adversarial losses that feed the generator network in order to capture both local continuity of image texture and pervasive global features in images. The proposed framework is evaluated extensively, and the results including comparison to recent state-of-the-art demonstrate that it achieves considerable improvements on both visual and quantitative evaluations.

研究の動機と目的

大きな欠損領域のインペインティング品質を、グローバルな画像構造と局所的なテクスチャディテールの両方を捉えることで改善することを動機づける。
グローバルGANとPatchGANを共有・分岐経路で結合する判別器を提案する。
テクスチャ合成を改善しアーティファクトを低減するために、拡張畳み込みと補間畳み込みで生成器の訓練を強化する。
部品ごとの影響を理解し、最新手法と比較するためのアブレーション研究を実施する。

提案手法

ダウンサンプリング、残差ブロック、アップサンプリングを備えたResNetベースの生成器を用い、受容野を拡大するために拡張畳み込みと補間畳み込みを導入してチェッカーボードアーチファクトを回避する。
PGGANを設計する：グローバルG-GANパスとPatchGANパスの前段を共有する判別器を作成し、その後、全画像のリアリズムと局所パッチのリアリズムという2つの出力に分岐する。
再構成（L1）、g_adv（G-GANパス）、p_adv（PatchGANパス）を組み合わせた joint lossで訓練する。全体の損失に重みを割り当ててバランスを取る。
L_rec = L1距離、L_GAN、L_pGAN の3つの損失成分を導入し、Adamで最適化する。
Paris Street View、Google Street View、Placesデータセットを、256x256および512x512の画像サイズで評価する。

実験結果

リサーチクエスチョン

RQ1グローバルな画像リアリズムとパッチレベルのテクスチャリアリズムを組み合わせることで、大きな欠損領域のインペインティング品質を改善できるか。
RQ2共有前層と二重対立的パスは、グローバル整合性とローカルテクスチャをより良く強制できるか。
RQ3拡張/補間畳み込みがインペインティングにおけるテクスチャ合成とアーティファクト低減に与える影響は何か。
RQ4PGGANは定量的指標と知覚品質の点で、最先端のインペインティング手法と比較してどうか。

主な発見

Method	L1 Loss	L2 Loss	PSNR (dB)	SSIM
CE [25]	6.21	1.34	18.12	0.838
GLGAN [11]	5.82	2.33	18.28	0.863
PGGAN-DRes	5.54	1.19	19.03	0.866
PGGAN-Res	5.46	1.2	18.92	0.865
NPS [34]	10.01	2.21	18.0	-
PGGAN-DRes	5.42	1.16	18.9	0.884

PGGANは、256x256のParis Street ViewでCEおよびGLGANよりPSNRとSSIMが高く、L1/L2損失が低い。
256x256のParis Street Viewで、PGGAN-DResとPGGAN-ResはCEおよびGLGANを上回り、PSNRとSSIMが高く、再構成誤差が低い。
512x512のParis Street Viewでは、PGGAN-DResがNPSより優れており、L1/L2損失が低く、PSNRとSSIMが高い。
知覚評価はPGGAN変種がCEおよびGLGANより有利であり、インペインティング結果の自然さが向上していることを示唆する。
アブレーション研究は、G-GANとPatchGAN判別器を組み合わせると、いずれか一方のみを用いるよりも視覚的・定量的に優れた結果をもたらすことを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。