Skip to main content
QUICK REVIEW

[論文レビュー] Generative Image Inpainting with Contextual Attention

Jiahui Yu, Zhe Lin|arXiv (Cornell University)|Jan 24, 2018
Generative Adversarial Networks and Image Synthesis参考文献 37被引用数 214
ひとこと要約

二段階の生成型インペインティングネットワークと、欠損領域を埋めるため遠くの背景パッチを明示的に借用する新規の文脈アテンション層を導入し、顔・質感・自然画像全体で品質の高い結果を達成します。

ABSTRACT

Recent deep learning based approaches have shown promising results for the challenging task of inpainting large missing regions in an image. These methods can generate visually plausible image structures and textures, but often create distorted structures or blurry textures inconsistent with surrounding areas. This is mainly due to ineffectiveness of convolutional neural networks in explicitly borrowing or copying information from distant spatial locations. On the other hand, traditional texture and patch synthesis approaches are particularly suitable when it needs to borrow textures from the surrounding regions. Motivated by these observations, we propose a new deep generative model-based approach which can not only synthesize novel image structures but also explicitly utilize surrounding image features as references during network training to make better predictions. The model is a feed-forward, fully convolutional neural network which can process images with multiple holes at arbitrary locations and with variable sizes during the test time. Experiments on multiple datasets including faces (CelebA, CelebA-HQ), textures (DTD) and natural images (ImageNet, Places2) demonstrate that our proposed approach generates higher-quality inpainting results than existing ones. Code, demo and models are available at: https://github.com/JiahuiYu/generative_inpainting.

研究の動機と目的

  • 画像インペインティングにおける長距離の文脈モデリングの改善の必要性を動機づける。
  • 遠くの領域から情報を借用する文脈アテンションモジュールを備えた統一型のフィードフォワードネットワークを提案する。
  • 損失関数の強化と2段階の粗-細アーキテクチャによって訓練の安定性と速度を向上させる。
  • CelebA、CelebA-HQ、DTD、ImageNet、Places2 を含む多様なデータセットに適用性を示す。

提案手法

  • 粗段階が欠損コンテンツを再構成し、 refinement段階が結果を改善する2段階の粗→細ネットワークを提案する。
  • foregroundパッチを背景パッチにマッチングさせる新規の文脈アテンション層を、コサイン類似度、ソフトマックス重み付け、デコンボリューションを用いてパッチを再構成する。
  • 訓練の安定性とグローバルおよびローカルの忠実度を強制するため、再構成損失を伴うグローバルおよびローカルの2つのWasserstein GAN損失を使用する。
  • 穴の中心付近で過剰なペナルティを減らすために空間的に割引された再構成損失を実装し、学習を促進する。
  • パッチサンプリング/ストライドや入力の任意のダウンサケーリングを含む、文脈アテンションのメモリ効率の高い戦略を採用する。
  • 再構成損失と二つのGAN目的を組み合わせたエンドツーエンドで訓練し、収束を速め、視覚的品質を向上させる。

実験結果

リサーチクエスチョン

  • RQ1文脈アテンション機構は、遠くの背景パッチを明示的に借用してインペインティング品質を改善できるか。
  • RQ2グローバルおよびローカルの対向訓練監督を持つ粗-細の生成フレームワークは、既存のインペインティングモデルより優れているか。
  • RQ3空間的に割引された再構成損失とアテンションベースの融合は、訓練の安定性と最終的な画像忠実度にどのように影響するか。
  • RQ4提案手法は、顔・テクスチャ・自然風景など多様なデータ領域で有効か。

主な発見

  • 文脈アテンションを含むフルモデルは、複数のデータセットにおいて基準モデルよりもよりリアルなインペインティングを実現し、アーチファクトを減らす。
  • アテンションマップは、各前景ピクセルを埋める際にどの背景パッチが最も関連するかを可視化し、文脈的借用が成功していることを示す。
  • Places2での定量的結果は:PatchMatch 16.1% ell1, 3.9% ell2, PSNR 16.62, TV 25.0%; ベースライン 9.4% ell1, 2.4% ell2, PSNR 18.15, TV 25.7%; 我々の手法 8.6% ell1, 2.1% ell2, PSNR 18.91, TV 25.3%。
  • 提案された2段階ネットワークと文脈アテンションは、訓練をより速く進め、画像ブレンディングなどの後処理の必要性を低減する。
  • モデルはCelebA、CelebA-HQ、DTD、ImageNet、Places2データセット全体で良好な一般化を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。