[論文レビュー] A Domain Gap Aware Generative Adversarial Network for Multi-domain Image Translation
本稿では、大きなドメインギャップに対処するために、サイクル整合性の代わりに知覚的自己正則化を採用する統合的生成対抗ネットワーク、UMITを提案する。入力出力ドローバーとマルチスケールの畳み込み層を用いることで、ドメイン間でグローバルな形状とローカルなテクスチャを両方保持し、猫から犬、人間からアニメへの翻訳といった困難なタスクで最先端の性能を達成し、FIDスコアと視覚的品質に優れた結果を得た。
Recent image-to-image translation models have shown great success in mapping local textures between two domains. Existing approaches rely on a cycle-consistency constraint that supervises the generators to learn an inverse mapping. However, learning the inverse mapping introduces extra trainable parameters and it is unable to learn the inverse mapping for some domains. As a result, they are ineffective in the scenarios where (i) multiple visual image domains are involved; (ii) both structure and texture transformations are required; and (iii) semantic consistency is preserved. To solve these challenges, the paper proposes a unified model to translate images across multiple domains with significant domain gaps. Unlike previous models that constrain the generators with the ubiquitous cycle-consistency constraint to achieve the content similarity, the proposed model employs a perceptual self-regularization constraint. With a single unified generator, the model can maintain consistency over the global shapes as well as the local texture information across multiple domains. Extensive qualitative and quantitative evaluations demonstrate the effectiveness and superior performance over state-of-the-art models. It is more effective in representing shape deformation in challenging mappings with significant dataset variation across multiple domains.
研究の動機と目的
- 大きな形状変形が生じる場合に特に問題となるサイクル整合性の限界を是正すること。
- 逆写像の教師信号を必要とせず、複数のドメインマッピングを1つの生成器に統合すること。
- 顕著なデータセットのばらつきを示す多様なドメイン間で、グローバル構造とローカルテクスチャの両方を保持すること。
- 逆写像のための追加パラメータを避けることで、複数の生成器と判別器を必要とするモデルと比較して、モデルの複雑さと訓練コストを低減すること。
提案手法
- ドメイン固有の特徴を分離し、ローカルテクスチャを保持するために、入力・出力ドローバーを備えた統合的生成器を提案する。
- サイクル整合性の代わりに、入力と変換出力の間の知覚的類似性を強制するための知覚的自己正則化損失を導入する。
- 低周波数の形状変化を検出するための受容 field を拡大するために、マルチスケール分類器と拡張畳み込みを採用する。
- 逆写像に起因する追加パラメータを避けるために、 adversarial loss と知覚的正則化を用いて、1つの生成器と判別器を訓練する。
- 高精度な画像生成を実現するために、エンコーダーとデコーダーの間にスキップ接続(残差ブロック)を統合する。
- 1つのモデルでmドメインをサポートできる統一アーキテクチャを採用し、計算コストとパラメータのオーバーヘッドを削減する。
実験結果
リサーチクエスチョン
- RQ1知覚的自己正則化は、マルチドメイン画像翻訳において形状とテクスチャを保持する点で、サイクル整合性を上回るか?
- RQ2入力出力ドローバー機構は、ドメイン固有の特徴を分離し、ローカルテクスチャ転送を向上させるのにどの程度有効か?
- RQ3統一された1生成器モデルは、CycleGAN や MUNIT のようなマルチ生成器モデルと比較して、高ドメインギャップ状況下でもより優れた性能を発揮するか?
- RQ4知覚的正則化は、ピクセルレベルのサイクル制約と比較して、形状変形の面でどの程度優れているか?
主な発見
- 人間からアニメへの翻訳タスクにおいて、すべてのベースラインと比較して最小のFréchet Inception Distance (FID)スコアを達成し、画像品質と分布の整合性に優れていることを示した。
- 10ドメインを含む顔の老化データセットにおいて、FIDスコアは12.3を記録し、CycleGAN (15.6) や StarGAN (14.1) を上回り、複雑で多段階的な翻訳において有効性を示した。
- 視覚的結果から、猫から犬、人間の顔からアニメへの翻訳においても、現実的なテクスチャと正確な構造的変化を伴う、大規模な形状変形を成功裏に実現していることが確認された。
- アブレーションスタディの結果、知覚的自己正則化損失が不可欠であることが確認された。これを除去するとFIDスコアが上昇し、ドメインマッピングの学習に失敗した。
- 入力出力ドローバーを備えたモデルは、ドローバーなしのバージョンと比較して、よりシャープなローカルテクスチャと少ないアーティファクトを生成し、ドローバー機構の有効性を裏付けた。
- 統一モデルは1つの生成器と判別器のみを用いており、パラメータ数は69.74M(DRITの123.42M、MUNITの54.06Mと比較)にまで削減されたが、すべてのmドメインにおいて性能を維持または向上させた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。