[論文レビュー] AttentionGAN: Unpaired Image-to-Image Translation using Attention-Guided Generative Adversarial Networks
AttentionGAN は、ペア無しの画像到画像翻訳において注意機構付きの生成器と識別器を導入し、前景に焦点を当てた翻訳を可能にしつつ背景を保持します。複数のデータセットにわたって、よりシャープで現実的な結果を実現します。
State-of-the-art methods in image-to-image translation are capable of learning a mapping from a source domain to a target domain with unpaired image data. Though the existing methods have achieved promising results, they still produce visual artifacts, being able to translate low-level information but not high-level semantics of input images. One possible reason is that generators do not have the ability to perceive the most discriminative parts between the source and target domains, thus making the generated images low quality. In this paper, we propose a new Attention-Guided Generative Adversarial Networks (AttentionGAN) for the unpaired image-to-image translation task. AttentionGAN can identify the most discriminative foreground objects and minimize the change of the background. The attention-guided generators in AttentionGAN are able to produce attention masks, and then fuse the generation output with the attention masks to obtain high-quality target images. Accordingly, we also design a novel attention-guided discriminator which only considers attended regions. Extensive experiments are conducted on several generative tasks with eight public datasets, demonstrating that the proposed method is effective to generate sharper and more realistic images compared with existing competitive models. The code is available at https://github.com/Ha0Tang/AttentionGAN.
研究の動機と目的
- .discriminative foreground content に焦点を当てつつ背景を保持することで、ペア無しの画像到画像翻訳の改善を動機付ける。
- 追加の監督なしで前景と背景の注意を学習できる、注意機構付きGANフレームワークを開発する。
- 単純な意味翻訳と複雑な意味翻訳を扱うための二つの生成方式を提案する(I と II)。
- 訓練を cycle-consistency と新規の注意付き識別器で正則化し、学習を安定化させる。
提案手法
- 専用の注意マスクとコンテンツマスクを持つ二つの注意機構付き生成器(G と F)で最終出力を生成する。
- Scheme I は単一のネットワークで注意マスクとコンテンツマスクの両方を生成し、入力画像とマスクを組み合わせて G(x)=C_y*A_y + x*(1-A_y) により融合する;F(y) についても同様。
- Scheme II は注意マスクとコンテンツマスクのサブネットワークを分離して(G_E, G_A, G_C)、複数の前景コンテンツマスクと背景注意マスクを学習し、よりリッチなマルチマスク生成を可能にする(G(x) = sum_f=1^{n-1} C_y^f*A_y^f + x*A_y^b)。
- 注意マスクとコンテンツマスクは cycle-consistency 損失(VIA modified schemes)と対抗的損失の下で共同学習される。
- Attention-guided discriminators D_YA and D_XA は注意マスクを入力として、アテンション領域での識別を焦点化する。
- Regularization には注意マスクの総変動損失とピクセルレベルの同一性損失を含め、訓練を安定化させる。
実験結果
リサーチクエスチョン
- RQ1注意機構付き GAN は、背景を保持しつつ識別的な前景領域に変化を集中させることで、ペアなしの画像翻訳を学習できるか。
- RQ2前景とコンテンツ生成を分離した Scheme II は、複雑な翻訳(例:馬からシマウマ)で Scheme I より優れた結果を出すか。
- RQ3注意付き識別器は、従来の識別器と比較して翻訳品質と欠陥低減にどのような影響を与えるか。
- RQ4 eight 公開データセットが、顔、自然風景、アートワークに渡る AttentionGAN の汎用性を示すには十分か。
- RQ5マルチマスク生成(前景/コンテンツ)が翻訳性能と出力の多様性に与える影響は何か。
主な発見
- AttentionGAN は、競合他社のベースラインよりも鋭く現実的な画像を生成し、背景の保持もより良く行う。
- 前景とコンテンツのネットワークを分離し、複数マスクを用いる Scheme II は、馬からシマウマのような複雑な翻訳で Scheme I より優れている。
- 注意付き識別器はアテンション領域に対する対戦を集中させ、目的の変化の忠実度を向上させる。
- 顔、動物、地図、スタイル転写を含む八つのデータセットでの広範な実験は、前提となる注意マスクの追加監督を必要とせず、最先端の性能を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。