QUICK REVIEW

[論文レビュー] U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

Junho Kim, Minjae Kim|arXiv (Cornell University)|Jul 25, 2019

Generative Adversarial Networks and Image Synthesis参考文献 42被引用数 300

ひとこと要約

新しい注意モジュールとAdaLIN正規化を備えた教師なし画像から画像への翻訳モデルを導入。アーキテクチャやハイパーパラメータを変更せずに、形状と質感の両方を変える翻訳を可能にする。

ABSTRACT

We propose a novel method for unsupervised image-to-image translation, which incorporates a new attention module and a new learnable normalization function in an end-to-end manner. The attention module guides our model to focus on more important regions distinguishing between source and target domains based on the attention map obtained by the auxiliary classifier. Unlike previous attention-based method which cannot handle the geometric changes between domains, our model can translate both images requiring holistic changes and images requiring large shape changes. Moreover, our new AdaLIN (Adaptive Layer-Instance Normalization) function helps our attention-guided model to flexibly control the amount of change in shape and texture by learned parameters depending on datasets. Experimental results show the superiority of the proposed method compared to the existing state-of-the-art models with a fixed network architecture and hyper-parameters. Our code and datasets are available at https://github.com/taki0112/UGATIT or https://github.com/znxlwm/UGATIT-pytorch.

研究の動機と目的

データセット特有の調整なしで、全体的な形状変化と質感/スタイル変化の両方を扱える頑健な教師なし画像→画像翻訳を動機づける。
生成と識別をドメイン区別可能な領域に基づいて導く注意機構の導入。
AdaLINを開発し、インスタンス正規化とレイヤー正規化のバランスを学習可能にしてデータセット特性に適応。
多様なデータセットで翻訳品質の改善を実証し、設計選択を正当化するアブレーションを提供。

提案手法

アシスタント分類器によって導かれる共有注意モジュールを備えた2つのジェネレーターと2つの識別機の枠組みを提案。
ジェネレーターでは、CAMに触発された重みからエンコーダ特徴から注意マップa_s(x)を計算し、G_t(a_s(x))で翻訳。
残差ブロックで、AdaLINを用い、注意マップから学習したgamma/betaでINとLNを動的に混合。
識別器は注意a_Dt(x)を用いてターゲットドメインの実画像対偽画像の違いに焦点を当てる。
L SGAN敵対損失、サイクル整合性損失、恒等損失、CAM損失の組み合わせで最適化し、注意と翻訳を導く。
CAMベースの監視を用いてX_sとX_tのペアなしデータで訓練を地付けし、ドメイン間整合性を強制。

実験結果

リサーチクエスチョン

RQ1幾何学が異なるドメイン間で注意誘導型生成器と識別器は教師なし画像翻訳を改善できるか？
RQ2AdaLINはネットワークアーキテクチャやハイパーパラメータを変更せずに形状と質感の変更を柔軟に制御できるか？
RQ3補助分類器からの注意マップは意味ある翻訳領域を局在化し訓練を安定化させるか？
RQ4U-GAT-ITは多様なデータセットで最先端の教師なし翻訳法と比較してどうか？
RQ5固定アーキテクチャがデータセット別のチューニングなしに大きな幾何学変化とテクスチャ転送の両方を扱えるか？

主な発見

提案された注意モジュールは生成器と識別器の両方を意味的に重要な領域に焦点付け、データセット間で翻訳品質を向上させる。
AdaLINは層ごとにIN/LNのバランスを適応させ、内容保存とスタイル変更の柔軟な制御を可能にし、形状重視と質感重視の翻訳の結果を改善。
CAMとAdaLINを組み合わせたU-GAT-ITは、CycleGAN, UNIT, MUNIT, DRIT, AGGANを上回る multiple datasets における定性的および定量的評価。
KIDアブレーションは、注意とAdaLINの両方を使用したとき最も低いスコアを示し、分離して使用しても競合力を維持。
ユーザ調査は、特に大きな形状変化を要するデータセット（selfie2animeなど）でU-GAT-IT翻訳の知覚的好みが高いことを示す。
固定アーキテクチャとハイパーパラメータで五つの多様なデータセットで強力な性能を達成し、ロバスト性と転移性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。