Skip to main content
QUICK REVIEW

[논문 리뷰] On catastrophic forgetting in Generative Adversarial Networks

Hoang Thanh-Tung, Truyen Tran|arXiv (Cornell University)|2018. 07. 11.
Generative Adversarial Networks and Image Synthesis참고 문헌 14인용 수 5
한 줄 요약

이 논문은 생성적 적대적 네트워크(GANs)가 학습 도중 재난적 망각(catastrophic forgetting)을 겪음을 입증한다. 이는 모델의 진화하는 분포에 의해 순차적인 작업 전환을 겪으면서 판별기(discriminator)가 점차 진짜 데이터 분포를 忘却하는 데 기인한다. 저자들은 이러한 망각을 모드 붕괴(mode collapse)와 수렴 불량(non-convergence)과 연결하며, 진짜 데이터 포인트가 망각이 최소화되었을 때에만 판별기의 출력에서 날카운 국소 최대값이 되며, 이 문제를 완화할 수 있는 방법을 제안한다.

ABSTRACT

In this paper, we show that Generative Adversarial Networks (GANs) suffer from catastrophic forgetting even when they are trained to approximate a single target distribution. We show that GAN training is a continual learning problem in which the sequence of changing model distributions is the sequence of tasks to the discriminator. The level of mismatch between tasks in the sequence determines the level of forgetting. Catastrophic forgetting is interrelated to mode collapse and can make the training of GANs non-convergent. We investigate the landscape of the discriminator's output in different variants of GANs and find that when a GAN converges to a good equilibrium, real training datapoints are wide local maxima of the discriminator. We empirically show the relationship between the sharpness of local maxima and mode collapse and generalization in GANs. We show how catastrophic forgetting prevents the discriminator from making real datapoints local maxima, and thus causes non-convergence. Finally, we study methods for preventing catastrophic forgetting in GANs.

연구 동기 및 목표

  • GANs가 단일 목표 분포에 대해 훈련함에도 불구하고 재난적 망각을 보이는지 조사하는 것.
  • GAN 훈련 중에 변화하는 모델 분포의 순서가 판별기에게 진짜 데이터 지식을 유지하는 능력에 어떻게 영향을 미치는지 분석하는 것.
  • 재난적 망각, 모드 붕괴, 수렴 불량 훈련 간의 관계를 이해하는 것.
  • 판별기 출력의 지형을 분석하고, 진짜 데이터 포인트가 국소 최대값이 되는 조건을 특정하는 것.
  • GANs에서 재난적 망각을 방지하는 방법을 개발하고 평가하는 것.

제안 방법

  • 모든 진화하는 생성기 분포가 판별기에게 새로운 작업으로 간주되는 연속 학습 과정으로 GAN 훈련을 모델링하는 것.
  • 다양한 GAN 변종에서 판별기 출력 지형을 분석하여 진짜 데이터 포인트에 해당하는 국소 최대값을 식별하는 것.
  • 진짜 데이터 포인트 주변의 국소 최대값의 날카움을 측정하여 모드 붕괴 및 일반화 성능와의 상관관계를 분석하는 것.
  • 실험적 분석을 통해 판별기에서 넓은 국소 최대값이 존재하지 않는 것이 재난적 망각과 수렴 불량 훈련과 연결됨을 밝히는 것.
  • 판별기의 학습을 안정화하고 망각을 줄이기 위한 정규화 또는 훈련 전략을 제안하고 평가하는 것.

실험 결과

연구 질문

  • RQ1GANs에서 단일 목표 분포에 대해 훈련함에도 불구하고 재난적 망각이 얼마나 심각하게 발생하는가?
  • RQ2GAN 훈련 중에 변화하는 생성기 분포의 순서가 판별기가 진짜 데이터 지식을 유지하는 능력에 어떻게 영향을 미치는가?
  • RQ3판별기 출력에서 국소 최대값의 날카움과 모드 붕괴 또는 일반화 성능 간의 관계는 무엇인가?
  • RQ4왜 재난적 망각이 GANs의 수렴 불량 훈련을 초래하는가?
  • RQ5재난적 망각을 방지할 수 있는 방법을 설계하고 GANs의 훈련 안정성을 향상시킬 수 있는가?

주요 결과

  • GAN 훈련은 본질적으로 재난적 망각을 포함한다. 생성기 출력의 순차적 이동으로 인해 판별기가 점차 진짜 데이터 분포를 忘却하기 때문이다.
  • 진짜 훈련 데이터 포인트가 판별기 출력에서 넓은 국소 최대값이 되는 것은 재난적 망각이 최소화되었을 때에만 가능하다.
  • 진짜 데이터 포인트 주변의 국소 최대값의 날카움은 GANs에서 모드 붕괴와 열악한 일반화 성능와 강하게 상관된다.
  • 재난적 망각은 넓은 국소 최대값의 형성을 방해하며, 직접적으로 수렴 불량 훈련 역학에 기여한다.
  • 이 논문은 망각 완화를 통한 판별기 학습 지형의 안정화가 더 안정적이고 수렴 가능한 GAN 훈련을 이끌 수 있음을 규명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.