QUICK REVIEW

[논문 리뷰] Unsupervised Discovery of Interpretable Directions in the GAN Latent Space

Andrey Voynov, Artem Babenko|arXiv (Cornell University)|2020. 02. 10.

Image Processing and 3D Reconstruction참고 문헌 29인용 수 142

한 줄 요약

이 논문은 사전 학습된 GAN에서 레이블 없이 해석 가능한 잠재공간 방향을 발견하는 비지도, 모델-아그노스틱한 방법을 제시하여 의미론적 이미지 조작을 가능하게 한다. 또한 weakly-supervised saliency detection에 대한 실용적 활용도도 시연한다.

ABSTRACT

The latent spaces of GAN models often have semantically meaningful directions. Moving in these directions corresponds to human-interpretable image transformations, such as zooming or recoloring, enabling a more controllable generation process. However, the discovery of such directions is currently performed in a supervised manner, requiring human labels, pretrained models, or some form of self-supervision. These requirements severely restrict a range of directions existing approaches can discover. In this paper, we introduce an unsupervised method to identify interpretable directions in the latent space of a pretrained GAN model. By a simple model-agnostic procedure, we find directions corresponding to sensible semantic manipulations without any form of (self-)supervision. Furthermore, we reveal several non-trivial findings, which would be difficult to obtain by existing methods, e.g., a direction corresponding to background removal. As an immediate practical benefit of our work, we show how to exploit this finding to achieve competitive performance for weakly-supervised saliency detection.

연구 동기 및 목표

사전 학습된 GAN의 잠재 공간에서 감독 없이 의미적으로 의미 있는 방향을 식별한다.
해석하기 쉬운 이미지 변 transformations를 유도하는 해리된(분리된) 잠재 방향 집합을 학습한다.
발견된 방향의 실용적 활용 예로, 후속 작업을 위한 배경 제거 등을 시연한다.

제안 방법

G를 고정한 상태에서 잠재 방향 행렬 A와 재구성기 R을 엔드 투 엔드로 학습한다.
잠재 코드 z와 z + A(ε e_k)의 쌍을 샘플링하고 두 이미지를 G에 입력해 이미지 쌍을 얻는다.
이미지 쌍으로부터 방향 인덱스 k와 시프트 크기 ε를 예측하도록 R을 학습한다.
k에 대한 분류 손실과 ε에 대한 회귀 손실을 이용해 해석 가능하고 해리된 방향을 촉진한다.
A의 열이 단위 규범(unit-norm) 또는 직교정규(orthonormal)인 상태를 보장해 방향의 다양성과 안정성을 촉진한다.
잠재 차원수에 맞게 K를 선택하거나 선택된 부분집합을 설정하고 단위 규범 대 직교정규 열 제약을 비교 실험한다.

실험 결과

연구 질문

RQ1감독 없이 GAN에서 의미론적으로 의미 있고 해석 가능한 잠재 방향을 발견할 수 있는가?
RQ2비지도 방향이 데이터셋과 생성기 간에 인간이 해석 가능하고 다양하게 나타나는 경향이 있는가?
RQ3발견된 방향이 약지도 주의 탐지와 같은 실용적 작업을 가능하게 하는가?

주요 결과

본 방법은 다수의 생성기와 데이터셋에 걸쳐 비자명하고 인간이 해석 가능한 잠재 방향을 식별한다.
발견된 일부 방향은 배경 제거와 같은 의미 있는 조작에 대응한다.
발견된 방향은 약지도 주의 탐지를 위한 합성 데이터 생성에 활용되어 경쟁력 있는 성능을 보여준다.
직교정규 열 제약과 단위 규범 열 제약 사용이 데이터셋 간 방향의 다양성과 해석 가능성에 영향을 준다.
이 접근법은 완전히 비지도적이고 모델에 구애받지 않으며, 생성기 재학습이 필요 없다.
MNIST, AnimeFaces, CelebA-HQ, BigGAN 전반에 걸쳐 해석 가능한 변환이 시각적으로 제시된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.