QUICK REVIEW

[論文レビュー] Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

Hao Tang, Philip H. S. Torr|arXiv (Cornell University)|Feb 3, 2020

Generative Adversarial Networks and Image Synthesis参考文献 58被引用数 26

ひとこと要約

本稿では、マルチスケール空間プーリングとマルチチャネルアテンション選択を用いて粗い生成結果を精錬する二段階型生成対抗ネットワーク、SelectionGANを提案する。アテンションから得られる不確実性マップを学習することで損失最適化を改善し、顔、手、身体、ストリートビュー翻訳タスクにおいて性能を向上させ、11のデータセットで最先端の結果を達成した。

ABSTRACT

We propose a novel model named Multi-Channel Attention Selection Generative Adversarial Network (SelectionGAN) for guided image-to-image translation, where we translate an input image into another while respecting an external semantic guidance. The proposed SelectionGAN explicitly utilizes the semantic guidance information and consists of two stages. In the first stage, the input image and the conditional semantic guidance are fed into a cycled semantic-guided generation network to produce initial coarse results. In the second stage, we refine the initial results by using the proposed multi-scale spatial pooling & channel selection module and the multi-channel attention selection module. Moreover, uncertainty maps automatically learned from attention maps are used to guide the pixel loss for better network optimization. Exhaustive experiments on four challenging guided image-to-image translation tasks (face, hand, body, and street view) demonstrate that our SelectionGAN is able to generate significantly better results than the state-of-the-art methods. Meanwhile, the proposed framework and modules are unified solutions and can be applied to solve other generation tasks such as semantic image synthesis. The code is available at https://github.com/Ha0Tang/SelectionGAN.

研究の動機と目的

多様な意味的ガイドの種類に一般化可能な、統合的かつアプリケーションに依存しないガイド付き画像間翻訳フレームワークの開発。
特に重複の少ない分布を示すソースドメインとターゲットドメイン間の複雑な構造的関係を捉えることのできない単一段階GANの限界に対処すること。
アテンション機構から得られる不確実性マップを学習することで、ノイズが多いまたは不正確な意味的ガイドの影響を軽減すること。
段階的生成アーキテクチャにおいてマルチスケール空間プーリングとチャネル選択を用いて特徴表現を強化すること。
フレームワークを意味的画像合成に拡張し、ガイド付き翻訳を越えた広範な適用可能性を示すこと。

提案手法

フレームワークは二段階のカスケードを採用：まず、画像とガイドペアを用いてサイクル化された意味的ガイド付き生成ネットワークが粗い出力を生成する。
第二段階では、マルチスケール空間プーリングおよびチャネル選択モジュールが空間的およびチャネル次元にわたる特徴を強化する。
マルチチャネルアテンション選択モジュールがアテンションマップを生成し、空間的に中間特徴を選択・統合して精錬された出力を得る。
アテンションマップから導出される不確実性マップがピクセル損失を誘導し、不完全なガイドにもかかわらず最適化を改善する。
敵対的損失、サイクル整合性損失、アテンション誘導型再構成損失を用いてモデルを訓練し、頑健な最適化を実現する。
GauGANと統合することで、アテンションモジュールを活用してレイアウトから画像への生成を向上させることで、意味的画像合成への応用を実現する。

実験結果

リサーチクエスチョン

RQ1統一的で二段階型のGANフレームワークは、多様なガイドタイプにわたるガイド付き画像間翻訳において、タスク特化型モデルを上回ることができるか？
RQ2マルチスケール空間プーリングとマルチチャネルアテンション選択は、画像翻訳における特徴表現と画像の詳細にどのように寄与するか？
RQ3アテンション機構から得られる不確実性マップは、ノイズが多いまたは不正確な意味的ガイドの悪影響をどの程度軽減できるか？
RQ4提案されたフレームワークは、セグメンテーションマップからリアルな画像を生成するような意味的画像合成タスクにも効果的に一般化できるか？
RQ5構造的忠実性と視覚的品質の観点から、カスケード設計はエンドツーエンドの単一段階GANと比較してどのように差をつけるか？

主な発見

SelectionGANは、顔、手、身体、ストリートビュー翻訳の4つのガイド付き画像間翻訳タスクで最先端の性能を達成し、既存手法と比べて顕著な改善を示した。
DeepFashionデータセットにおいて、SelectionGAN++は、髪、顔、足などの細部をよりリアルに生成する点でSelectionGANを上回った。
CityscapesおよびADE20Kにおける意味的画像合成では、SelectionGANおよびSelectionGAN++はPix2pixHD、CRN、SIMS、GauGANよりも高いmIoUとピクセル精度を達成した。
Cityscapesでは、SelectionGAN++はFIDスコアですべてのベースラインを上回った（SIMSを除く）が、優れたセグメンテーション精度を維持した。
Amazon Mechanical Turkを用いたユーザースタディーでは、参加者がSelectionGANおよびSelectionGAN++が生成した画像の視覚的忠実度を、既存手法よりも好む傾向が確認された。
生成されたセグメンテーションマップの可視化により、SelectionGANがGauGANよりもより正確な意味的レイアウトを生成していることが確認され、よりリアルで真値と整合性の高い出力が得られていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。