[論文レビュー] Image-to-image translation for cross-domain disentanglement
本論文は、画像表現の共有要因とドメイン専用要因を分離するクロスドメインディスエンタングルメントを提案し、ラベルなしで双方向のマルチモーダル画像翻訳とドメイン横断検索を可能にする。難易度の高いデータセットにおいて最先端のベースラインと比較して改善を示す。
Deep image translation methods have recently shown excellent results, outputting high-quality images covering multiple modes of the data distribution. There has also been increased interest in disentangling the internal representations learned by deep methods to further improve their performance and achieve a finer control. In this paper, we bridge these two objectives and introduce the concept of cross-domain disentanglement. We aim to separate the internal representation into three parts. The shared part contains information for both domains. The exclusive parts, on the other hand, contain only factors of variation that are particular to each domain. We achieve this through bidirectional image translation based on Generative Adversarial Networks and cross-domain autoencoders, a novel network component. Our model offers multiple advantages. We can output diverse samples covering multiple modes of the distributions of both domains, perform domain-specific image transfer and interpolation, and cross-domain retrieval without the need of labeled data, only paired images. We compare our model to the state-of-the-art in multi-modal image translation and achieve better results for translation on challenging datasets as well as for cross-domain retrieval on realistic datasets.
研究の動機と目的
- 潜在表現を分離して、ドメイン共有とドメイン排他的な要因を分離する動機付け。
- 三部構成の表現(共有、X排他、Y排他)を課す双方向の画像翻訳フレームワークを開発する。
- クロスドメインオートエンコーダとGRLベースの制約を通じて、多様でマルチモーダルな翻訳とクロスドメイン検索を可能にする。
- ラベル付きデータを必要とせず、分離表現がドメイン特異的転送、補間、視覚的類推をサポートすることを示す。
- MNISTの変種やより複雑なデータセットで評価し、最新のマルチモーダル翻訳手法に対する利点を示す。
提案手法
- 各ドメインに対して、潜在コードを共有Sと排他的Eの部分に分割する(E^X, E^Y)、およびドメイン不変な共有成分 S^{X} / S^{Y}。
- (S,E) に基づくエンコーダ/デコーダを用いつつ、排他的部分にはランダムノイズ z のみを使って画像を生成する、双方向のGANベースの翻訳器 G と F を使用する。
- 排他的特徴からターゲットドメインを再構築しようとする小さなデコーダに勾配反転層(GRL)を適用し、ドメイン固有の漏洩を抑制する。
- ドメイン間の共有表現の類似性をL1損失と制御されたノイズで強制し、崩壊を避ける(S^X ≈ S^Y、トリビアル解を防ぐためノイズを注入)。
- 同一ドメインの共有成分とクロスドメイン排他的成分の混合から入力を再構成して潜在空間を整合させる、クロスドメインオートエンコーダを導入する。
- 安定性のためにWGAN-GP損失で訓練し、翻訳間のクロスドメイン整合性を維持する再構成ベースのオートエンコーダ損失を用いる。
実験結果
リサーチクエスチョン
- RQ1三部構成の潜在表現(共有、X排他、Y排他)は、クロスドメイン翻訳を可能にしつつ、ドメイン変動因子を分離できるか。
- RQ2クロスドメインオートエンコーディングとGRLベースの制約は、ラベルなしでのマルチモーダル翻訳とクロスドメイン検索を改善するか。
- RQ3提案された表現は、二つのドメインにまたがるサンプルの多様性、ドメイン特異的転送、補間をどのように支えるか。
- RQ4ペアデータのみを用いて、効果的なクロスドメイン検索と視覚的アナロジーを達成できるか。
- RQ5アブレーション実験は、クロスドメインオートエンコーダ、GRL、および共有特徴のL1同意の必須性を示しているか。
主な発見
- 共有部を固定しつつ排他ノイズ z を変えることで、多様なマルチモーダル翻訳を生み出す。
- 共有特徴を用いたクロスドメイン検索は高いRecall@1を達成し、ピクセルベースのベースラインを上回り、ラベル不要の学習を可能にする。
- 共有成分と排他的成分の操作で視覚的アナロジーやドメイン特異的補間が、しばしば明示的な監視なしに実現可能。
- アブレーション結果は、クロスドメインオートエンコーダとGRLが分離と翻訳品質に顕著に寄与することを示し、これらを除くと性能が低下する。
- 現実的なデータセット(maps/satellite、facades/maps)にもスケールし、車両および椅子データセットで双方向翻訳のLPIPSスコア競争力を発揮する。
- BicycleGANおよびpix2pixベースラインと比較して、提案手法は知覚品質とモード多様性が向上し、特に大きな構造変化を扱う場合に顕著である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。