[논문 리뷰] GANSpace: Discovering Interpretable GAN Controls
GANSpace는 사전 학습된 GAN에서 잠재 공간 또는 특징 공간의 PCA를 통해 해석 가능한 잠재 방향을 식별하는 간단한 비지도 방법을 제시하여, retraining 없이 계층별 편집 및 StyleGAN 유사 제어를 가능하게 한다.
This paper describes a simple technique to analyze Generative Adversarial Networks (GANs) and create interpretable controls for image synthesis, such as change of viewpoint, aging, lighting, and time of day. We identify important latent directions based on Principal Components Analysis (PCA) applied either in latent space or feature space. Then, we show that a large number of interpretable controls can be defined by layer-wise perturbation along the principal directions. Moreover, we show that BigGAN can be controlled with layer-wise inputs in a StyleGAN-like manner. We show results on different GANs trained on various datasets, and demonstrate good qualitative matches to edit directions found through earlier supervised approaches.
연구 동기 및 목표
- 추가 감독 없이 사전 학습된 GAN에 대한 해석 가능한 제어를 동기 부여하고 가능하게 한다.
- 원리적 통계 방법을 사용하여 GAN 잠재/특징 공간에서 의미 있는 편집 방향을 식별한다.
- PCA 방향의 계층별 적용이 해석 가능하고 제어 가능한 이미지 편집을 산출함을 보여준다.
- 계층별 편집 및 스타일 유사 혼합을 통해 StyleGAN과 BigGAN에 대한 실용적 제어 메커니즘을 시연한다.
제안 방법
- BigGAN의 초기 계층 특징 텐서와 StyleGAN의 W 공간에 PCA를 적용하여 주성 방향을 얻는다.
- PCA 성분을 잠재 공간으로 투영하고 필요 시 회귀하여 해당 잠재 방향을 계산한다(StyleGAN: w; BigGAN: z를 통해 u).
- 특정 계층 범위에 PCA 방향을 적용하여 계층별 편집을 정의한다(예: StyleGAN의 E(v_k, j–k)).
- StyleGAN 스타일 제어에 준하는 계층 간 중간 Skip-z 입력을 변화시켜 BigGAN이 계층별 스타일 혼합을 지원하도록 수정한다.
- 방향을 탐색하고, 편집 이름을 지정하고, 방향 세트를 저장/로드할 수 있는 대화형 GUI를 제공한다.
실험 결과
연구 질문
- RQ1레이블링된 감독 없이 비지도 PCA가 사전 학습된 GAN에서 의미 있고 해석 가능한 방향을 식별할 수 있는가?
- RQ2계층별 PCA 방향 적용이 서로 다른 계층에서 해석적으로 해방되거나 선택적으로 얽힌 편집을 초래하는가?
- RQ3BigGAN이 retraining 없이 StyleGAN과 유사한 계층별 제어를 지원하도록 보강되어 유사한 편집 기능을 가능하게 할 수 있는가?
- RQ4PCA 파생 방향이 해석 가능한 이미지 편집을 생성하는 데 감독된 방향이나 임의의 방향과 어떻게 비교되는가?
- RQ5PCA-가이드 편집에서 어떤 편향이나 얽힘이 발생하며 그것이 훈련 데이터 속성을 어떻게 반영하는가?
주요 결과
- StyleGAN의 W 공간과 BigGAN의 초기 계층 특징에서 PCA 방향은 포즈, 성별, 조명, 배경 등 주요 변이 모드를 드러낸다.
- PCA 방향의 계층별 적용(선택적 계층 범위)은 보다 표적화된 편집을 만들어 의도치 않은 얽힘을 줄인다.
- 독립적인 계층별 z 입력을 통해 StyleGAN 유사한 계층별 제어로 BigGAN을 수정하면 retraining 없이 스타일 유사 편집이 가능하다.
- PCA 기반 편집은 여러 경우에 감독된 방법과 시각적으로 근접한 결과를 낳으며 비지도 상태를 유지한다.
- StyleGANv2 FFHQ에서 처음 100 주성분이 분산의 약 85%를 포착하고, 400개 성분이 98.5%를 포착하여 대부분의 이미지 변이가 상대적으로 작은 부분공간에 있음을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.