[論文レビュー] Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency
EGSC-IT は特徴マスクを用いた意味的一貫性と AdaIN によるスタイル転送で、模倣例-guided の多模態未監督画像間翻訳を実現し、多様でありながら意味的に整合した結果を生み出す。
Image-to-image translation has recently received significant attention due to advances in deep learning. Most works focus on learning either a one-to-one mapping in an unsupervised way or a many-to-many mapping in a supervised way. However, a more practical setting is many-to-many mapping in an unsupervised way, which is harder due to the lack of supervision and the complex inner- and cross-domain variations. To alleviate these issues, we propose the Exemplar Guided & Semantically Consistent Image-to-image Translation (EGSC-IT) network which conditions the translation process on an exemplar image in the target domain. We assume that an image comprises of a content component which is shared across domains, and a style component specific to each domain. Under the guidance of an exemplar from the target domain we apply Adaptive Instance Normalization to the shared content component, which allows us to transfer the style information of the target domain to the source domain. To avoid semantic inconsistencies during translation that naturally appear due to the large inner- and cross-domain variations, we introduce the concept of feature masks that provide coarse semantic guidance without requiring the use of any semantic labels. Experimental results on various datasets show that EGSC-IT does not only translate the source image to diverse instances in the target domain, but also preserves the semantic consistency during the process.
研究の動機と目的
- ペアデータを用いずにマルチモーダルな画像間翻訳を動機付ける。
- 内容意味を保持しつつターゲットドメインのスタイルを転送する、模倣例-guided フレームワークを開発する。
- 意味ラベルなしで粗い意味的ガイダンスを提供する特徴マスクを導入する。
- 共通のコンテンツ表現にターゲットドメインのスタイルを注入するためにAdaINを活用する。
- モード崩壊に対する頑健性を示し、データセットを横断して意味的一貫性を評価する。
提案手法
- 画像をドメイン共有のコンテンツ成分とドメイン固有のスタイル成分に分解する。
- ドメイン間でコンテンツの共通潜在空間を学ぶために重みを共有する(UNIT にインスパイア)。
- ターゲットドメインの模倣例から AdaIN のアフィンパラメータを計算し、共有コンテンツへのスタイル転送を行う。
- 特徴マスク m_A および m_B を導入し、セマンティック領域をスペクトル的にデカップリングしてラベルなしで意味的一貫性を維持する。
- 知覚的損失(内容損失とスタイル損失)とGAN/サイクル損失を適用してVAE-GANフレームワークを訓練する。
- ネットワークを段階的に訓練し、まず特徴マスクと AdaIN ネットワークを事前訓練し、その後複数の損失項での共同最適化を行う。
実験結果
リサーチクエスチョン
- RQ1模倣例を用いてターゲットドメインの未監督 I2I 翻訳を導き、多様でスタイル制御された出力を生み出せるか。
- RQ2特徴マスクは地上 truth 的セマンティックラベルなしで意味的一貫性のある翻訳を可能にするか。
- RQ3意味構造を保持したまま未監督設定でマルチモーダル翻訳は実現可能か。
- RQ4模倣例 guided AdaIN アプローチは多様性と意味的保持の点で既存の未監督 I2I 手法とどう比較されるか。
主な発見
- EGSC-IT は exemplars に条件付けられた多模態翻訳を生み出し、異なるターゲットドメインのスタイルへの転送を可能にする。
- 特徴マスクは AdaIN ベースのスタイル転送中にセマンティック領域を概ねデカップリングすることで意味的一貫性の維持を助ける。
- アブレーションでは AdaIN がモード崩壊を低減し、知覚損失が意味的忠実性を改善することを示し、特徴マスクまたは AdaIN を除去すると結果が劣化する。
- MNIST ベースのタスクでは、EGSC-IT は CycleGAN、UNIT、MUNIT、およびマスク/AdaIN/知覚損失なしのヴァリアントより高い SSIM を達成する。
- ストリートビュー翻訳(GTA5 から BDD)では、翻訳画像が下流の意味的セグメンテーション性能を改善し、mIoU は参照に対して報告される。
- 定性的には、EGSC-IT は大きなドメイン変動(日夜など)をベースラインよりもうまく扱い、意味的に整合したスタイル転送を生成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。