QUICK REVIEW

[論文レビュー] Multi-marginal Wasserstein GAN

Jiezhang Cao, Langyuan Mo|arXiv (Cornell University)|Nov 3, 2019

Multimodal Machine Learning Applications被引用数 35

ひとこと要約

MWGANは、ソースドメインと複数のターゲットドメイン間の Wasserstein 距離を同時に最小化するマルチマージナル Wasserstein GAN フレームワークを導入し、共有識別ポテンシャルとドメイン横断制約を活用して、マルチドメイン画像翻訳を改善します。

ABSTRACT

Multiple marginal matching problem aims at learning mappings to match a source domain to multiple target domains and it has attracted great attention in many applications, such as multi-domain image translation. However, addressing this problem has two critical challenges: (i) Measuring the multi-marginal distance among different domains is very intractable; (ii) It is very difficult to exploit cross-domain correlations to match the target domain distributions. In this paper, we propose a novel Multi-marginal Wasserstein GAN (MWGAN) to minimize Wasserstein distance among domains. Specifically, with the help of multi-marginal optimal transport theory, we develop a new adversarial objective function with inner- and inter-domain constraints to exploit cross-domain correlations. Moreover, we theoretically analyze the generalization performance of MWGAN, and empirically evaluate it on the balanced and imbalanced translation tasks. Extensive experiments on toy and real-world datasets demonstrate the effectiveness of MWGAN.

研究の動機と目的

ソースドメインを複数のターゲットドメインへ写像するためのマルチマージナル整合問題に対処する。
ペアワイズ/ドメイン別翻訳手法における非効率と分布のミスマッチを克服する。
共有識別ポテンシャルと多ドメイン OT 理論を通じてクロスドメイン相関を活用する。
最適化を実用的にし、GAN に基づく学習を可能にする双対定式化を提供する。
マルチドメイン翻訳の一般化性能を分析し、 toy データセットと実データセットで検証する。

提案手法

内ドメインおよびドメイン間制約を伴う双対のマルチマージナル OT 問題を用いて MWGAN を定式化する。
解は取り扱い可能な最適化を可能にするため、ドメイン間で共有された Kantorovich ポテンシャル f を採用する。
ドメイン特有の重み λ_i を用いた f の最大化によって多重 Wasserstein 距離 W を定義する。
MWGAN 目的関数を最適化するために識別器 f と複数のジェネレータ g_i を訓練する。
内ドメイン制約を課すために補助的なドメイン分類器 φ と相互情報項を組み込む。
厳密なドメイン間制約の適用を緩和し、クロスドメインの相関を捉えるためにドメイン間勾配ペナルティを導入する。

実験結果

リサーチクエスチョン

RQ1ソースドメインと複数のターゲットドメインに跨るマルチマージナル Wasserstein 距離をどのように測定・最適化できるか？
RQ2共有ポテンシャル関数は、クロスドメイン相関を効果的に活用してマルチドメイン翻訳を改善できるか？
RQ3MWGAN のマルチドメイン翻訳設定における一般化挙動はどうなるか？
RQ4内ドメイン制約とドメイン間制約は、不均衡なドメイン対における翻訳品質にどう影響するか？

主な発見

方法	髪型 FID	髪型精度	眼鏡 FID	眼鏡精度	口ひげ FID	口ひげ精度	肌の淡色 FID	肌の淡色精度
CycleGAN	20.45	95.07	23.69	96.94	24.94	93.89	18.09	80.75
UFDN	65.06	92.01	69.30	79.34	76.04	97.18	53.11	83.33
StarGAN	23.47	96.00	25.36	99.51	23.75	99.06	18.12	92.48
MWGAN	19.63	97.65	22.94	99.53	23.69	98.35	15.91	93.66

MWGANは、CycleGAN、UFDN、StarGANと比較して低い FID を達成し、CelebA 属性翻訳タスク（単一属性および複数属性）で競争力があるまたは優れている属性分類精度を示す。
MWGANは不均衡なエッジ→ CelebA 翻訳で強力な性能を示し、最も低い FID と自然な結果を得る。
toy 分布では、MWGAN はターゲット分布に密接に一致し、いくつかのベースラインとは異なり意味のある識別器勾配を提供する。
MWGAN は絵画スタイル転送で質的・量的に有利な結果を示し、極めて不均衡なドメインセットを扱う。
本論文は、十分なドメインサンプルがあれば MWGAN が良好に一般化できることを示す理論的一般化界を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。