QUICK REVIEW

[논문 리뷰] Stabilizing GAN Training with Multiple Random Projections

Behnam Neyshabur, Srinadh Bhojanapalli|arXiv (Cornell University)|2017. 05. 22.

Image Processing and 3D Reconstruction참고 문헌 18인용 수 71

한 줄 요약

이 논문은 단일 생성기(g) 를 데이터의 서로 다른 무작위 저차원 투영을 보는 여러 판별기(Dk) 배열에 대해 학습시켜 GAN 학습을 안정시키고 샘플 품질을 향상시키는 방법을 제시한다. 실험 결과는 전통적인 단일 판별기 GAN보다 더 높은 품질의 이미지를 보여준다.

ABSTRACT

Training generative adversarial networks is unstable in high-dimensions as the true data distribution tends to be concentrated in a small fraction of the ambient space. The discriminator is then quickly able to classify nearly all generated samples as fake, leaving the generator without meaningful gradients and causing it to deteriorate after a point in training. In this work, we propose training a single generator simultaneously against an array of discriminators, each of which looks at a different random low-dimensional projection of the data. Individual discriminators, now provided with restricted views of the input, are unable to reject generated samples perfectly and continue to provide meaningful gradients to the generator throughout training. Meanwhile, the generator learns to produce samples consistent with the full data distribution to satisfy all discriminators simultaneously. We demonstrate the practical utility of this approach experimentally, and show that it is able to produce image samples with higher quality than traditional training with a single discriminator.

연구 동기 및 목표

고차원에서의 판별기 우위로 인한 불안정을 줄여 GAN 학습의 안정성을 개선한다.
부분 뷰에도 불구하고 생성기가 전체 데이터 분포를 학습하도록 일관성을 유지한다.
여러 무작위 투영이 단일 판별기 GAN보다 더 높은 품질의 생성 이미지를 낳음을 입증한다.
무작위 투영 판별기를 이미지 데이터에 적용하기 위한 실용적 구현 가이드를 제공한다.

제안 방법

생성기 G를 여러 판별기 {Dk}에 대해 학습시키되, 각 판별기는 데이터의 무작위 저차원 투영을 Wk^T x를 통해 작동한다.
투영은 무작위 가우시안 필터를 갖는 컨볼루션 계층으로 구현되어 이미지와 유사한 투영 입력을 만든다.
판별기는 자신의 투영지정 로스(loss)를 최대화하고; 생성기는 모든 판별기에 걸친 이 로스의 평균을 최소화한다.
수학적으로 min_G max_{D1,...,DK} sum_k V(Dk,G) 로 최적화하며, 여기서 V(Dk,G) = E_x~Px[log Dk(Wk^T x)] + E_z~Pz[log(1 - Dk(Wk^T G(z)))]
정보 병목을 유도하기 위해 m < d인 무작위 투영을 사용하여 G로의 안정적인 그래디언트 흐름을 촉진한다.
충분한 투영에 걸친 주변분포를 맞추는 것이 충분히 매끄러운 가정 하에서 전체 결합분포가 맞춰진다는 이론적 정당성을 제공한다.

실험 결과

연구 질문

RQ1여러 저차원 투영에 대해 생성기를 학습시키는 것이 단일 전체 뷰 디스크리미네이터보다 더 강력하고 지속적인 그래디언트를 제공하는가?
RQ2여러 부분 뷰 판별기를 만족시킴으로써 생성기가 전체 데이터 분포를 학습할 수 있는가?
RQ3투영의 수 K가 학습 안정성 및 샘플 품질에 어떤 영향을 미치는가?
RQ4고차원 이미지 생성에서 안정성과 품질에 영향을 미치는 실용적 구현 선택(아키텍처, 투영)은 무엇인가?
RQ5이 접근법이 얼굴 데이터 외의 데이터셋(예: Imagenet 도상견) 및 더 높은 해상도에 적용 가능한가?

주요 결과

여러 무작위 투영은 학습 전반에 걸쳐 정보가 유지되도록 더 안정적인 생성기 학습을 제공한다.
다수의 판별기로 학습된 생성기가 전통적인 DC-GAN보다 더 높은 품질의 샘플을 생성하며 세부 묘사와 왜곡이 개선된다.
판별기의 수(K)를 늘리면 투영이 적절히 선택될 때 고주파 아티팩트를 줄이고 샘플 품질을 향상시킨다.
더 많은 판별기를 사용할수록 학습 시간이 증가하지만, 더 긴 학습 후에 생성된 샘플의 품질이 경쟁력 있거나 우수해진다.
K-디스크리미네이터 프레임워크를 이용한 생성된 얼굴 간의 잠재 공간 보간은 의미 있는 잠재 구조를 시사하는 합리적인 중간 얼굴을 생성한다.
CelebA 유사 얼굴(64x64)에서 명확한 품질 향상을 보여주고, Imagenet-개식 사진(128x128)에서는 전반적 합리성과 구성의 질감이 개선되나 전반적 위험성은 여전히 존재한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.