QUICK REVIEW

[논문 리뷰] Multi-marginal Wasserstein GAN

Jiezhang Cao, Langyuan Mo|arXiv (Cornell University)|2019. 11. 03.

Multimodal Machine Learning Applications인용 수 35

한 줄 요약

MWGAN은 소스 도메인과 다수의 타깃 도메인을 공동으로 최소화하는 Wasserstein 거리 프레임워크를 통해 공유된 판별 포텐셜과 교차 도메인 제약을 활용하여 다중 도메인 이미지 번역을 개선합니다.

ABSTRACT

Multiple marginal matching problem aims at learning mappings to match a source domain to multiple target domains and it has attracted great attention in many applications, such as multi-domain image translation. However, addressing this problem has two critical challenges: (i) Measuring the multi-marginal distance among different domains is very intractable; (ii) It is very difficult to exploit cross-domain correlations to match the target domain distributions. In this paper, we propose a novel Multi-marginal Wasserstein GAN (MWGAN) to minimize Wasserstein distance among domains. Specifically, with the help of multi-marginal optimal transport theory, we develop a new adversarial objective function with inner- and inter-domain constraints to exploit cross-domain correlations. Moreover, we theoretically analyze the generalization performance of MWGAN, and empirically evaluate it on the balanced and imbalanced translation tasks. Extensive experiments on toy and real-world datasets demonstrate the effectiveness of MWGAN.

연구 동기 및 목표

다수의 타깃 도메인으로 매핑하기 위한 다-한정 매칭 문제를 다룬다.
쌍별/도메인별 번역 방법에서의 비효율성과 분포 불일치를 극복한다.
공유된 판별 포텐셜과 다도메인 OT 이론을 통해 도메인 간 상관관계를 활용한다.
최적화를 다루기 쉽게 하고 GAN 기반 학습을 가능하게 하는 이중 형식을 제공한다.
다중 도메인 번역의 일반화 성능을 분석하고 토이 및 실제 데이터셋에서 검증한다.

제안 방법

내부 도메인 제약과 도메인 간 제약을 갖춘 이중 다-한정 OT 문제를 사용하여 MWGAN을 형식화한다.
도메인 전반에 걸쳐 공유되는 Kantorovich 포텐셜 f를 채택하여 최적화를 다루기 쉽게 한다.
도메인별 가중치 λ_i를 가진 f에 대한 최대화를 사용하여 다-한정 Wasserstein 거리 W를 정의한다.
MWGAN 목표 함수를 최적화하기 위해 판별기 f와 다수의 제네레이터 g_i를 학습한다.
내부 도메인 제약을 강제하기 위해 보조 도메인 분류기 φ와 상호 정보 항을 도입한다.
엄격한 도메인 간 제약 강제를 완화하고 도메인 간 상관관계를 포착하기 위해 도메인 간 그래디언트 페널티를 도입한다.

실험 결과

연구 질문

RQ1소스 도메인과 다수의 타깃 도메인 간 다-한정 Wasserstein 거리를 어떻게 측정하고 최적화할 수 있는가?
RQ2공유 포텐셜 함수가 도메인 간 상관관계를 효과적으로 활용하여 다중 도메인 번역을 개선할 수 있는가?
RQ3다중 도메인 번역 환경에서 MWGAN의 일반화 동작은 어떠한가?
RQ4내부 도메인 제약과 도메인 간 제약이 불균형한 도메인 쌍에서의 번역 품질에 어떤 영향을 미치는가?

주요 결과

방법	헤어 FID	헤어 정확도	안경 FID	안경 정확도	수염 FID	수염 정확도	창백한 피부 FID	창백한 피부 정확도
CycleGAN	20.45	95.07	23.69	96.94	24.94	93.89	18.09	80.75
UFDN	65.06	92.01	69.30	79.34	76.04	97.18	53.11	83.33
StarGAN	23.47	96.00	25.36	99.51	23.75	99.06	18.12	92.48
MWGAN	19.63	97.65	22.94	99.53	23.69	98.35	15.91	93.66

MWGAN은 CelebA 속성 번역 작업(단일 속성 및 다중 속성)에서 CycleGAN, UFDN, StarGAN과 비교하여 더 낮은 FID를 달성하고 속성 분류 정확도도 경쟁력 있거나 우수하다.
MWGAN은 불균형된 끝-투-CelebA 번역에서 강력한 성능을 보여 가장 낮은 FID와 자연스러운 결과를 산출한다.
토이 분포에서 MWGAN은 목표 분포를 근접하게 일치시키고 일부 베이스라인과 달리 의미 있는 판별기 그라디언트를 제공한다.
MWGAN은 그림 스타일 전이에서 양호한 질적 및 정량적 결과를 보이며 매우 불균형한 도메인 집합을 처리한다.
논문은 충분한 도메인 샘플이 주어지면 MWGAN이 일반화될 수 있음을 시사하는 이론적 일반화 경계를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.