Skip to main content
QUICK REVIEW

[논문 리뷰] On the "steerability" of generative adversarial networks

Ali Jahanian, Lucy Chai|arXiv (Cornell University)|2019. 07. 16.
Generative Adversarial Networks and Image Synthesis참고 문헌 29인용 수 39
한 줄 요약

논문은 GAN의 잠재 공간에서 간단한 이미지 변환(카메라 움직임, 색상 변화)을 유도하기 위해 얼마나 멀리 조정할 수 있는지 탐구하고, 학습 데이터 편향으로 인한 한계를 분석하며 데이터 증강과 공동 최적화를 통해 조정 가능성을 높이는 방법을 제시한다.

ABSTRACT

An open secret in contemporary machine learning is that many models work beautifully on standard benchmarks but fail to generalize outside the lab. This has been attributed to biased training data, which provide poor coverage over real world events. Generative models are no exception, but recent advances in generative adversarial networks (GANs) suggest otherwise - these models can now synthesize strikingly realistic and diverse images. Is generative modeling of photos a solved problem? We show that although current GANs can fit standard datasets very well, they still fall short of being comprehensive models of the visual manifold. In particular, we study their ability to fit simple transformations such as camera movements and color changes. We find that the models reflect the biases of the datasets on which they are trained (e.g., centered objects), but that they also exhibit some capacity for generalization: by "steering" in latent space, we can shift the distribution while still creating realistic images. We hypothesize that the degree of distributional shift is related to the breadth of the training data distribution. Thus, we conduct experiments to quantify the limits of GAN transformations and introduce techniques to mitigate the problem. Code is released on our project page: https://ali-design.github.io/gan_steerability/

연구 동기 및 목표

  • 실제 시각 자료에서 학습 데이터 편향을 넘어 GAN이 완전히 일반화되지 않을 수 있는 이유를 동기 부여한다.
  • 잠재 공간 조정이 의미 있는 변환을 얼마나 이끌어낼 수 있는지 정량화한다(예: 카메라 모션, 색상 변화).
  • 조정 가능성을 제한하는 요인들(데이터 세트 편향 및 모델 아키텍처)을 조사한다.
  • 데이터 증강과 생성기와 잠재 보행의 공동 학습을 통해 조정 가능성을 높이는 방법을 제안한다.

제안 방법

  • z -> z + αw를 따라 이동할 때 목표 변환을 유도하는 잠재 공간 보행 w를 정의한다.
  • G(z+αw)와 edit(G(z), α) 간의 L2 손실(또는 perceptual LPIPS)로 수정된 출력이 대상 편집과 정렬되도록 목표를 최소화한다.
  • 오일러 스텝을 근사하는 반복적 작은 편집을 달성하기 위해 비선형 보행 f로 확장한다.
  • 데이터셋의 속성 분포와 변환된 출력의 분포를 비교하여 조정 가능성을 정량화한다.
  • 편집 손실과 GAN 손실을 포함한 G와 w의 공동 최적화를 탐색하여 조정 가능한 범위를 확장한다.

실험 결과

연구 질문

  • RQ1레이블이 없는 속성으로 단순한 잠재 공간 보행이 GAN에서 현실적인 카메라 유사 변환(줌, 이동, 색상 변화)을 생성할 수 있는가?
  • RQ2데이터 세트 편향과 모델 아키텍처가 GAN의 조정 가능성 범위에 어떤 영향을 주는가?
  • RQ3데이터 증강과 공동 학습이 가능한 현실적 변환의 범위를 늘릴 수 있는가?
  • RQ4기본 변환에 대해 선형 보행이 비선형 보행에 견줄 만한 성능을 보이는가(아키텍처 간)?
  • RQ5조정 가능성이 서로 다른 GAN 아키텍처(BigGAN, StyleGAN, DCGAN)와 데이터 세트에서 일관된가?

주요 결과

  • 잠재 공간 보행은 라벨이 없는 목표를 사용하지 않고도 생성된 이미지에서 카메라 모션과 색상 변환을 유도할 수 있다.
  • 선형 보행은 간단한 변환에서 비선형 보행과 대체로 비슷한 성능을 보이며, 잠재 공간의 대략적인 선형화를 시사한다.
  • 변환의 범위는 제한되며 각 클래스의 학습 데이터 변동성과 상관관계가 있다.
  • 조정 가능성은 아키텍처 간에 일반화되지만(빅GAN, 스타일GAN, DCGAN) 서로 다른 분리 특성을 보인다.
  • 데이터 증강과 생성기와 보행의 공동 학습은 조정 가능성을 높이고 더 큰 변환을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.