[論文レビュー] DRIT++: Diverse Image-to-Image Translation via Disentangled Representations
DRIT++ は、内容(ドメイン不変)と属性(ドメイン特有)の表現を分離することにより、マルチモーダルで対応なし画像対画像翻訳を学習し、多様で現実的な出力とマルチドメイン翻訳を実現します。
Image-to-image translation aims to learn the mapping between two visual domains. There are two main challenges for this task: 1) lack of aligned training pairs and 2) multiple possible outputs from a single input image. In this work, we present an approach based on disentangled representation for generating diverse outputs without paired training images. To synthesize diverse outputs, we propose to embed images onto two spaces: a domain-invariant content space capturing shared information across domains and a domain-specific attribute space. Our model takes the encoded content features extracted from a given input and attribute vectors sampled from the attribute space to synthesize diverse outputs at test time. To handle unpaired training data, we introduce a cross-cycle consistency loss based on disentangled representations. Qualitative results show that our model can generate diverse and realistic images on a wide range of tasks without paired training data. For quantitative evaluations, we measure realism with user study and Fréchet inception distance, and measure diversity with the perceptual distance metric, Jensen-Shannon divergence, and number of statistically-different bins.
研究の動機と目的
- 画像対画像翻訳におけるペア付きトレーニングデータの不足を解消する。
- 監視なしで単一入力からマルチモーダルかつ多様な出力を達成する。
- 表現をドメイン不変の内容とドメイン固有の属性に分離する。
- マルチドメインの画像対画像翻訳へ拡張する。
- 正則化とクロスサイクル制約を用いて現実性を損なうことなく多様性を向上させる。
提案手法
- エンコーダを用いて画像を共有の内容空間とドメイン固有の属性空間に埋め込む。
- コンテンツ判別器と重み共有を用いてドメイン間で共有の内容空間を強制する。
- ドメイン間で属性表現を入れ替えて入力を再構成することによりクロスサイクル一貫性損失を適用する。
- 出力の多様性を高めるためにモード探求正則化を組み込む。
- 単一のジェネレータとドメイン分類器を用いてマルチドメイン翻訳へフレームワークを拡張する。
- 学習済み属性ベクトルを用いた例指向の属性転送を任意で実行する。
実験結果
リサーチクエスチョン
- RQ1分離された表現を介してペアなしデータから多様で現実的なI2I翻訳を学習できるか?
- RQ2内容と属性を分離することで、ドメイン間およびドメイン内でのマルチモーダル出力と属性転送が可能になるか?
- RQ3単一のジェネレータでマルチドメインI2I翻訳へスケールできるか?
- RQ4コンテンツ判別器とモード探求正則化が現実性と多様性に及ぼす影響は何か?
主な発見
- DRIT++ は複数のペアなしI2Iタスクで多様かつ現実的な翻訳を達成する。
- 分離された表現を用いたクロスサイクル一貫性により、対応していない画像ペアからの信頼できる再構成を可能にする。
- モード探求正則化は多様性を大幅に向上させ、モード崩壊を抑制する。
- 内容判別器は共有された内容空間におけるドメイン特有のリークを減らし、ドメイン表現を整合させる。
- 単一のジェネレータによるマルチドメイン翻訳は、いくつかのドメイン(実画像や芸術的スタイル、天候の変化)にわたり多様な結果を生む。
- 定量指標(FID、LPIPS、JSD、NDB)は、テストされたタスクでDRIT++がいくつかのベースラインより優れていることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。