QUICK REVIEW

[논문 리뷰] Closed-Form Factorization of Latent Semantics in GANs

Yujun Shen, Bolei Zhou|arXiv (Cornell University)|2020. 07. 13.

Generative Adversarial Networks and Image Synthesis참고 문헌 27인용 수 63

한 줄 요약

SeFa를 도입한, 폐쇄형 비지도 방법으로 첫 번째 계층 변환 가중치를 분해하여 GAN에서 잠재 의미 방향을 발견하고 학습이나 데이터 샘플링 없이도 다양한 이미지 편집이 가능하게 한다.

ABSTRACT

A rich set of interpretable dimensions has been shown to emerge in the latent space of the Generative Adversarial Networks (GANs) trained for synthesizing images. In order to identify such latent dimensions for image editing, previous methods typically annotate a collection of synthesized samples and train linear classifiers in the latent space. However, they require a clear definition of the target attribute as well as the corresponding manual annotations, limiting their applications in practice. In this work, we examine the internal representation learned by GANs to reveal the underlying variation factors in an unsupervised manner. In particular, we take a closer look into the generation mechanism of GANs and further propose a closed-form factorization algorithm for latent semantic discovery by directly decomposing the pre-trained weights. With a lightning-fast implementation, our approach is capable of not only finding semantically meaningful dimensions comparably to the state-of-the-art supervised methods, but also resulting in far more versatile concepts across multiple GAN models trained on a wide range of datasets.

연구 동기 및 목표

GAN이 학습이나 데이터 샘플링 없이도 잠재 의미 방향을 드러내도록 한다.
GAN 생성기의 첫 투사 단계 분석을 통해 영향력 있는 잠재 요인을 식별한다.
발견된 의미가 여러 GAN 아키텍처와 데이터셋에 걸쳐 일반화되는지 시연한다.

제안 방법

GAN 생성기를 계층별 투영의 연속으로 모델링하고 첫 번째 선형 단계 G1(z)=Az+b에 초점을 맞춘다.
단위 벡터 n에 대해 ||An||2를 최대화하는 비지도 최적화를 정식화하여 첫 투사 이후 큰 변화를 유도하는 의미 방향을 찾는다.
상위 k 방향으로 확장하여 A^T A의 상위 k 고유벡터를 구한다.
최적 방향은 A^T A의 상위 고유벡터임을 결론 내린다(SeFa).
대상 계층의 가중치나 StyleGAN 계열의 연결된 계층을 사용해 SeFa를 다양한 GAN 아키텍처(PGGAN, StyleGAN, StyleGAN2, BigGAN)에 적용한다.

실험 결과

연구 질문

RQ1라벨이 붙은 데이터나 속성 예측기가 없어도 잠재 의미 방향을 발견할 수 있는가?
RQ2GAN에서 의미 있는 잠재 의미를 드러내는 최소한의 모델 가중치 기반 기제는 무엇인가?
RQ3발견된 방향이 서로 다른 GAN 아키텍처와 데이터셋에 걸쳐 일반화되는가?
RQ4비지도 SeFa 방향과 감독 방법의 편집 품질 및 다양성은 어떻게 비교되는가?

주요 결과

SeFa는 제너레이터의 첫 선형 변환을 분해함으로써 사람에게 해석 가능한 다양한 잠재 방향을 식별한다.
발견된 방향은 StyleGAN 기반 모델에서의 이전 관찰과 일치하는 계층 의존적이고 계층적 구조를 형성한다.
SeFa는 데이터- 및 라벨 없이도 여러 속성에 대해 감독 방법과 비슷한 편집 능력을 달성한다.
SeFa는 일부 감독 방법보다 더 넓은 의미 체계를 드러내며 이진 예측기로 쉽게 커버되지 않는 속성의 조작을 가능하게 한다.
질적 연구 및 사용자 연구는 SeFa 지시 편집이 특정 사례에서 신원 및 다른 속성을 샘플링 기반 기준선보다 잘 보존하도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.