Skip to main content
QUICK REVIEW

[論文レビュー] SPG-Net: Segmentation Prediction and Guidance Network for Image Inpainting

Yuhang Song, Chao Yang|arXiv (Cornell University)|May 9, 2018
Generative Adversarial Networks and Image Synthesis参考文献 30被引用数 118
ひとこと要約

SPG-Netは画像の修復をセグメンテーション予測(SP-Net)とセグメンテーションガイド付き修復(SG-Net)に分解し、セグメンテーションマップを活用して境界を鋭くし、対話的で多模态な結果を実現します。公開データセットで従来手法を上回り、ユーザー主導の編集をサポートします。

ABSTRACT

In this paper, we focus on image inpainting task, aiming at recovering the missing area of an incomplete image given the context information. Recent development in deep generative models enables an efficient end-to-end framework for image synthesis and inpainting tasks, but existing methods based on generative models don't exploit the segmentation information to constrain the object shapes, which usually lead to blurry results on the boundary. To tackle this problem, we propose to introduce the semantic segmentation information, which disentangles the inter-class difference and intra-class variation for image inpainting. This leads to much clearer recovered boundary between semantically different regions and better texture within semantically consistent segments. Our model factorizes the image inpainting process into segmentation prediction (SP-Net) and segmentation guidance (SG-Net) as two steps, which predict the segmentation labels in the missing area first, and then generate segmentation guided inpainting results. Experiments on multiple public datasets show that our approach outperforms existing methods in optimizing the image inpainting quality, and the interactive segmentation guidance provides possibilities for multi-modal predictions of image inpainting.

研究の動機と目的

  • 修復において物体の形状を制約し境界のブラーを低減するために意味セグメンテーションの利用を動機づける。
  • 最初に穴の中のセグメンテーションを予測し、そのセグメンテーションを用いて画像合成を導く2段階のフレームワークを提案する。
  • セグメンテーションマスクの対話的編集を可能にし、多模态の修復結果を生成する。
  • 公開データセット上で修復品質の改善を示し、アブレーションで寄与を分析する。

提案手法

  • 修復パイプラインをセグメンテーション予測ネットワーク(SP-Net)とセグメンテーションガイダンスネットワーク(SG-Net)に分割する。
  • SP-Netは不完全な画像I0と不完全なセグメンテーションS0を入力として、欠落したセグメンテーションSRを4連↓/4連↑のFCN風ジェネレータと残差ブロックで予測し、多尺度GANとリアリズムのための知覚損失を用いる。
  • SG-NetはI0と予測された完全なセグメンテーションSを取り、SP-Netに似たアーキテクチャを用いながら出力をtanhにし、追加のAlexNetベースの知覚損失を用いて最終的な修復画像Iを生成する。
  • 敵対的損失は3つのマルチスケール PatchGAN 判別器を用いて全球的および局所的なリアリズムを担保する。知覚損失は生成データと真値データの中間表現をマスク重み付きで整合させる。
  • SG-Net向けのAlexNetベースの知覚損失は、局所的な穴のパッチに学習された層重みを用いて知覚的類似性を高める。

実験結果

リサーチクエスチョン

  • RQ1非ガイド手法と比較して、セグメンテーションガイダンスは修復画像の現実味と境界のシャープさを改善できるか?
  • RQ2欠落した穴のセグメンテーションを予測することは、修復のための妥当な物体配置と質感を制約するのに役立つか?
  • RQ3セグメンテーションマップの対話的編集は多模态の修復結果を生み出すことができるか?
  • RQ4標準的な修復ベンチマークでSPG-NetはPatchMatch、GL、GFCと比較してどの程度の性能か?

主な発見

Methodell_1ell_2SSIMPSNR
PatchMatch641.3169.30.941930.34
GL598.094.780.957633.57
Ours392.498.950.959134.26
  • SPG-NetとSG-Netを組み合わせると、意味的に一貫した領域内で境界が鋭く、テクスチャも向上する(非セグメンテーションガイド手法より)。
  • Cityscapesでは、4つの品質指標のうち3つ(ell_1、ell_2、SSIM、PSNR)のうちPatchMatchとGLを上回る。
  • Table 1は、PatchMatchの ell_1=641.3、ell_2=169.3、SSIM=0.9419、PSNR=30.34;GLの ell_1=598.0、ell_2=94.78、SSIM=0.9576、PSNR=33.57;Oursの ell_1=392.4、ell_2=98.95、SSIM=0.9591、PSNR=34.26 を示す。
  • Cityscapesのユーザースタディは、600件の比較中70.8%のとき我々の結果を優れていると評価した。
  • アブレーションでは、SP-NetなしのSG-Netが境界をよりぼやけさせることを示し、セグメンテーションガイド予測の利点を強調している。
  • 対話的なセグメンテーション編集は、代替のセグメンテーションマップで穴の内容を誘導することで多模态の修復出力を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。