QUICK REVIEW

[논문 리뷰] Diversity-Sensitive Conditional Generative Adversarial Networks

Dingdong Yang, Seunghoon Hong|arXiv (Cornell University)|2019. 01. 25.

Generative Adversarial Networks and Image Synthesis인용 수 126

한 줄 요약

이 논문은 조건부 GAN의 생성기에 간단한 정규화를 도입하여 잠재 코드에 conditioning된 출력의 다양성을 촉진하고, 이미지 간 번역, 인페인팅, 비디오 예측에서 모드 붕괴를 해결한다.

ABSTRACT

We propose a simple yet highly effective method that addresses the mode-collapse problem in the Conditional Generative Adversarial Network (cGAN). Although conditional distributions are multi-modal (i.e., having many modes) in practice, most cGAN approaches tend to learn an overly simplified distribution where an input is always mapped to a single output regardless of variations in latent code. To address such issue, we propose to explicitly regularize the generator to produce diverse outputs depending on latent codes. The proposed regularization is simple, general, and can be easily integrated into most conditional GAN objectives. Additionally, explicit regularization on generator allows our method to control a balance between visual quality and diversity. We demonstrate the effectiveness of our method on three conditional generation tasks: image-to-image translation, image inpainting, and future video prediction. We show that simple addition of our regularization to existing models leads to surprisingly diverse generations, substantially outperforming the previous approaches for multi-modal conditional generation specifically designed in each individual task.

연구 동기 및 목표

조건부 GAN에서 입력이 결정론적 출력으로 매핑되는 문제를 동기 부여하고 해결한다.
잠재 코드에 의존하는 다양한 출력을 촉진하는 간단한 정규화를 제안한다.
정규화가 여러 조건 작업에서 다중 모달 생성을 개선함을 보인다.
하이퍼파라미터를 통해 시각적 품질과 다양성 간의 제어 가능한 trade-off를 보여준다.

제안 방법

G와 D에 대한 조건부 GAN 목표를 정의한다.
잠재 공간의 두 코드 간의 정규화된 잠재-출력 거리를 최대화하도록 Lz 생성기 규제 항을 추가하여 단일 모드로의 붕괴를 방지한다.
전체 목표를 구성한다: min_G max_D LcGAN(G,D) - lambda Lz(G).
선택적으로 Lz를 판별기의 특징 공간 거리나 다른 지표로 확장한다.
일반성을 입증하기 위해 다양한 베이스라인과 작업에 규제를 적용한다.
lambda가 다양성과 현실성 간의 균형을 제어한다는 것을 보여준다.

실험 결과

연구 질문

RQ1간단한 생성기 측 정규화가 아키텍처 변경 없이 cGAN 출력에서 진정한 다모달성을 유도할 수 있는가?
RQ2다양성 촉진 용어 Lz가 기존 재구성 손실과 어떻게 상호 작용하여 현실성과 다양성의 균형을 맞추는가?
RQ3이 접근법이 이미지-대-이미지 변환, 인페인팅, 비디오 예측 같은 작업과 아키텍처 전반에 걸쳐 일반화되는가?
RQ4잠재 코드 차원이 다양성과 출력 품질에 미치는 영향은 무엇인가?

주요 결과

정규화는 베이스라인이 결정론적인 경우에 확률적이고 다양한 출력을 유도한다.
lambda를 증가시키면 LPIPS 다양성이 증가하고 FID는 한계점까지 낮아지며, 이는 품질-다양성 간의 트레이드오프를 드러낸다.
DSGAN은 여러 지표에서 작업별 다중 모달 접근 방식보다 우수한 성능을 보이며 현실성을 보존한다.
이 방법은 고해상도 합성 및 다른 손실 항(예: 픽셀/특징 기반 재구성)과 호환 가능하다.
Lz에서 지각/특징 기반 거리를 사용하면 인페인팅 결과에 의미 있는 의미론적 변화를 얻을 수 있다.
이 방법은Baseline cGAN보다 더 다양하고 현실적인 비디오 예측을 제공하며 SAVP와 경쟁력이 있으며 파라미터 수는 더 적다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.