QUICK REVIEW

[論文レビュー] Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation

Hao Tang, Dan Xu|arXiv (Cornell University)|Apr 15, 2019

Generative Adversarial Networks and Image Synthesis参考文献 54被引用数 25

ひとこと要約

本稿では、任意の視点から高精細で写真のような品質の画像を生成するための2段階的生成対抗ネットワーク、SelectionGANを提案する。本モデルは段階的な意味的ガイダンスとマルチチャネル注目選択モジュールを活用し、粗い出力を注目に基づく特徴選択と不確実性を考慮した損失ガイダンスで精錬することで、Dayton、CVUSA、Ego2Topデータセットにおいて最先端の性能を達成し、構造的正確性と詳細の保持の面で従来手法を顕著に上回った。

ABSTRACT

Cross-view image translation is challenging because it involves images with drastically different views and severe deformation. In this paper, we propose a novel approach named Multi-Channel Attention SelectionGAN (SelectionGAN) that makes it possible to generate images of natural scenes in arbitrary viewpoints, based on an image of the scene and a novel semantic map. The proposed SelectionGAN explicitly utilizes the semantic information and consists of two stages. In the first stage, the condition image and the target semantic map are fed into a cycled semantic-guided generation network to produce initial coarse results. In the second stage, we refine the initial results by using a multi-channel attention selection mechanism. Moreover, uncertainty maps automatically learned from attentions are used to guide the pixel loss for better network optimization. Extensive experiments on Dayton, CVUSA and Ego2Top datasets show that our model is able to generate significantly better results than the state-of-the-art methods. The source code, data and trained models are available at https://github.com/Ha0Tang/SelectionGAN.

研究の動機と目的

視点の重複が少なく、幾何学的変形が著しい状況におけるクロスビュー画像変換の課題に対処すること。
特に真の意味的ラベルが不正確な場合に、意味マップを条件付きの監視として活用することで画像合成品質を向上させること。
単一段階のGANが視点間の複雑な構造的関係を捉えることの制限を克服すること。
注目に基づく精錬を組み込んだ粗いから細かい段階への2段階アーキテクチャにより、細部の生成を向上させること。
弱教師付きの意味的ラベルにおける不確実性を考慮したロバストな最適化戦略の開発。

提案手法

本手法は2段階のフレームワークを採用する：段階Iでは、入力画像とターゲットの意味マップをもとに、サイクル化された意味的ガイダンス付き生成ネットワークを用いて粗い画像と意味マップの予測を生成する。
段階IIでは、複数の中間特徴マップを生成し、学習された注目重みを用いて空間的に選択・統合することで、精錬された出力を得るマルチチャネル注目選択モジュールを適用する。
注目マップは不確実性マップを生成するために用いられ、ノイズの多い意味的監視下でも最適化のロバスト性を向上させるピクセル再構成損失をガイドする。
注目選択ステップの前段で、特徴表現を豊かにするためにマルチスケールの空間プーリングモジュールを適用する。
モデルは生成対抗損失、サイクル整合性損失、全変動正則化を用いて訓練され、構造的忠実性と滑らかさを向上させる。
参照画像と新しい意味マップに条件づけることで、非一対一の視点ペアを含む任意のクロスビュー変換をサポートする。

実験結果

リサーチクエスチョン

RQ1視点の重複が少ない状況において、意味的ガイダンスを有する2段階的・粗いから細かい段階のGANアーキテクチャが、クロスビュー画像変換の品質を顕著に向上させ得るか？
RQ2マルチチャネル注目選択は、中間特徴マップの精錬に効果的であり、より良い画像の詳細生成を実現できるか？
RQ3注目メカニズムから導出される不確実性マップは、意味的ラベルが不完全な状況でも訓練の安定性と性能を向上させ得るか？
RQ4サイクル整合性による段階的な意味的ガイダンスは、生成画像の構造的一致性を向上させるか？
RQ5提案手法は、ペアドされた航空写真から地上写真への変換にとどまらず、任意のクロスビュー変換に一般化可能か？

主な発見

SelectionGANはCVUSA、Dayton、Ego2Topデータセットにおいて最先端の性能を達成し、Pix2pix、Zhai et al.、X-Fork、X-Seqをすべての指標で上回った（Inception Scoreを除く）。
アブレーションスタディの結果、マルチチャネル注目選択モジュールを導入した場合、SSIMが4.67ポイント向上（ベースラインF対E）し、その有効性が確認された。
ピクセル損失を不確実性マップでガイドすることで、ベースラインと比較してSDは0.3205ポイント向上、PSNRは3.1771ポイント向上した。
段階Iにおけるサイクル化された意味的生成により、非意味的ベースラインと比較してSSIMは8.19ポイント、PSNRは3.1771ポイント、SDは0.3205ポイント向上し、意味的監視の価値が示された。
定性的な結果では、SelectionGANは、より明確な道路、木、建物の屋根など、構造的に整ったレイアウトを持つ、シャープで写真に似た画像を生成した。
Ego2Topデータセットにおいて、本モデルは1枚の参照画像と意味マップを用いて、新しい視点からの一貫性があり現実的な画像を生成し、任意のクロスビュー変換を成功裏に実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。