Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Discovery of Interpretable Directions in the GAN Latent Space

Andrey Voynov, Artem Babenko|arXiv (Cornell University)|2020. 02. 10.
Image Processing and 3D Reconstruction참고 문헌 29인용 수 142
한 줄 요약

이 논문은 사전 학습된 GAN에서 레이블 없이 해석 가능한 잠재공간 방향을 발견하는 비지도, 모델-아그노스틱한 방법을 제시하여 의미론적 이미지 조작을 가능하게 한다. 또한 weakly-supervised saliency detection에 대한 실용적 활용도도 시연한다.

ABSTRACT

The latent spaces of GAN models often have semantically meaningful directions. Moving in these directions corresponds to human-interpretable image transformations, such as zooming or recoloring, enabling a more controllable generation process. However, the discovery of such directions is currently performed in a supervised manner, requiring human labels, pretrained models, or some form of self-supervision. These requirements severely restrict a range of directions existing approaches can discover. In this paper, we introduce an unsupervised method to identify interpretable directions in the latent space of a pretrained GAN model. By a simple model-agnostic procedure, we find directions corresponding to sensible semantic manipulations without any form of (self-)supervision. Furthermore, we reveal several non-trivial findings, which would be difficult to obtain by existing methods, e.g., a direction corresponding to background removal. As an immediate practical benefit of our work, we show how to exploit this finding to achieve competitive performance for weakly-supervised saliency detection.

연구 동기 및 목표

  • 사전 학습된 GAN의 잠재 공간에서 감독 없이 의미적으로 의미 있는 방향을 식별한다.
  • 해석하기 쉬운 이미지 변 transformations를 유도하는 해리된(분리된) 잠재 방향 집합을 학습한다.
  • 발견된 방향의 실용적 활용 예로, 후속 작업을 위한 배경 제거 등을 시연한다.

제안 방법

  • G를 고정한 상태에서 잠재 방향 행렬 A와 재구성기 R을 엔드 투 엔드로 학습한다.
  • 잠재 코드 z와 z + A(ε e_k)의 쌍을 샘플링하고 두 이미지를 G에 입력해 이미지 쌍을 얻는다.
  • 이미지 쌍으로부터 방향 인덱스 k와 시프트 크기 ε를 예측하도록 R을 학습한다.
  • k에 대한 분류 손실과 ε에 대한 회귀 손실을 이용해 해석 가능하고 해리된 방향을 촉진한다.
  • A의 열이 단위 규범(unit-norm) 또는 직교정규(orthonormal)인 상태를 보장해 방향의 다양성과 안정성을 촉진한다.
  • 잠재 차원수에 맞게 K를 선택하거나 선택된 부분집합을 설정하고 단위 규범 대 직교정규 열 제약을 비교 실험한다.

실험 결과

연구 질문

  • RQ1감독 없이 GAN에서 의미론적으로 의미 있고 해석 가능한 잠재 방향을 발견할 수 있는가?
  • RQ2비지도 방향이 데이터셋과 생성기 간에 인간이 해석 가능하고 다양하게 나타나는 경향이 있는가?
  • RQ3발견된 방향이 약지도 주의 탐지와 같은 실용적 작업을 가능하게 하는가?

주요 결과

  • 본 방법은 다수의 생성기와 데이터셋에 걸쳐 비자명하고 인간이 해석 가능한 잠재 방향을 식별한다.
  • 발견된 일부 방향은 배경 제거와 같은 의미 있는 조작에 대응한다.
  • 발견된 방향은 약지도 주의 탐지를 위한 합성 데이터 생성에 활용되어 경쟁력 있는 성능을 보여준다.
  • 직교정규 열 제약과 단위 규범 열 제약 사용이 데이터셋 간 방향의 다양성과 해석 가능성에 영향을 준다.
  • 이 접근법은 완전히 비지도적이고 모델에 구애받지 않으며, 생성기 재학습이 필요 없다.
  • MNIST, AnimeFaces, CelebA-HQ, BigGAN 전반에 걸쳐 해석 가능한 변환이 시각적으로 제시된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.