QUICK REVIEW

[論文レビュー] Rethinking Image Inpainting via a Mutual Encoder-Decoder with Feature Equalizations

Hongyu Liu, Bin Jiang|arXiv (Cornell University)|Jul 14, 2020

Generative Adversarial Networks and Image Synthesis参考文献 39被引用数 28

ひとこと要約

本稿では、画像補完のための相互エンコーダ・デコーダネットワークを提案し、浅層特徴をテクスチャに、深層特徴を構造に活用することで、構造とテクスチャを同時に回復する特徴等価化を導入する。二重伝搬活性化関数とチャネル再重み付けを導入し、構造ブランチとテクスチャブランチ間の特徴を等価化することで、ぼやけやアーチファクトを顕著に低減し、Paris StreetView、Place2、CelebAといったベンチマークデータセットで最先端の性能を達成する。

ABSTRACT

Deep encoder-decoder based CNNs have advanced image inpainting methods for hole filling. While existing methods recover structures and textures step-by-step in the hole regions, they typically use two encoder-decoders for separate recovery. The CNN features of each encoder are learned to capture either missing structures or textures without considering them as a whole. The insufficient utilization of these encoder features limit the performance of recovering both structures and textures. In this paper, we propose a mutual encoder-decoder CNN for joint recovery of both. We use CNN features from the deep and shallow layers of the encoder to represent structures and textures of an input image, respectively. The deep layer features are sent to a structure branch and the shallow layer features are sent to a texture branch. In each branch, we fill holes in multiple scales of the CNN features. The filled CNN features from both branches are concatenated and then equalized. During feature equalization, we reweigh channel attentions first and propose a bilateral propagation activation function to enable spatial equalization. To this end, the filled CNN features of structure and texture mutually benefit each other to represent image content at all feature levels. We use the equalized feature to supplement decoder features for output image generation through skip connections. Experiments on the benchmark datasets show the proposed method is effective to recover structures and textures and performs favorably against state-of-the-art approaches.

研究の動機と目的

深層画像補完手法における回復された構造とテクスチャの不一致を解消すること。
構造とテクスチャ特徴を逐次的または独立に処理するのではなく、同時にモデリングすることで視覚的品質を向上させること。
CNN特徴空間における特徴の不整合が引き起こす穴領域周辺のぼやけやアーチファクトを低減すること。
新規の特徴等価化機構を用いて、穴境界および穴領域内での特徴の整合性を向上させること。

提案手法

共有エンコーダを用い、浅層はテクスチャ特徴、深層は構造特徴を別々のブランチで処理する。
テクスチャブランチおよび構造ブランチの両方で、増加するカーネルサイズを持つ3つの部分畳み込みストリームを用いてマルチスケールの穴埋めを実行する。
両ブランチからの特徴を連結し、自己注意を用いたチャネル再重み付けを施して、ブランチ間の注目マップを一致させる。
空間的一致性を強制するため、二重伝搬活性化（BPA）関数を提案：境界の整合性を保つためのグローバル伝搬と、類似性を維持するためのローカル操作を併用する。
等価化された特徴を統合し、スキップ接続を介してデコーダに供給することで、すべての特徴レベルでの再構成品質を向上させる。
知覚的損失と adversarial 損失を用いて、エンド・トゥ・エンドで学習することで、リアルさと構造的一致性を向上させる。

実験結果

リサーチクエスチョン

RQ1CNN特徴空間における構造とテクスチャ特徴の共同モデリングは、画像補完の品質を向上させるか？
RQ2構造ブランチとテクスチャブランチ間の特徴等価化は、視覚的一致性とアーチファクト低減にどのように寄与するか？
RQ3提案された二重伝搬活性化関数は、局所的およびグローバルな特徴の一貫性を保つ点で、非局所注目よりも優れているか？
RQ4構造ブランチとテクスチャブランチを別々に処理することは、最終的な補完性能にどの程度寄与するか？

主な発見

Paris StreetViewデータセットでは、提案手法がFID 25.10を達成し、等価化なしのベースライン（29.11）およびCSA（29.8%）といった最先端手法を顕著に上回った。
CelebAにおける人間被験評価では、提案手法が最もリアルとされた割合が56.4%に達し、CSA（29.6%）やGC（5.3%）を上回った。
除去実験の結果、テクスチャブランチを削除すると細部の喪失が生じ、構造ブランチを削除すると構造的要素が欠落することが確認され、両ブランチの必要性が裏付けられた。
特に二重伝搬活性化関数を含む特徴等価化機構により、Paris StreetViewおよびPlace2における定性的比較で、目立つアーチファクトやぼやけが低減された。
Place2データセットでは、FID 21.26を達成し、等価化なしのベースライン（29.11）を上回り、特徴等価化の有効性を示した。
非局所集約と特徴等価化の組み合わせにより、性能がさらなる向上を示し、FIDは24.07から21.26に低下した。これは相乗効果を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。