QUICK REVIEW

[논문 리뷰] Adversarial Feature Learning

Jeff Donahue, Philipp Krähenbühl|arXiv (Cornell University)|2016. 05. 31.

Generative Adversarial Networks and Image Synthesis참고 문헌 31인용 수 721

한 줄 요약

BiGANs는 생성기와 판별기와 함께 인코더를 학습시켜 GAN의 역 매핑을 학습하여 다운스트림 작업을 위한 유용한 비지도 특징을 얻는다.

ABSTRACT

The ability of the Generative Adversarial Networks (GANs) framework to learn generative models mapping from simple latent distributions to arbitrarily complex data distributions has been demonstrated empirically, with compelling results showing that the latent space of such generators captures semantic variation in the data distribution. Intuitively, models trained to predict these semantic latent representations given data may serve as useful feature representations for auxiliary problems where semantics are relevant. However, in their existing form, GANs have no means of learning the inverse mapping -- projecting data back into the latent space. We propose Bidirectional Generative Adversarial Networks (BiGANs) as a means of learning this inverse mapping, and demonstrate that the resulting learned feature representation is useful for auxiliary supervised discrimination tasks, competitive with contemporary approaches to unsupervised and self-supervised feature learning.

연구 동기 및 목표

데이터에서 잠재 공간으로의 역 매핑을 학습함으로써 GAN을 통한 비지도 특징 학습을 동기 부여한다.
데이터를 잠재 코드로 매핑하는 인코더를 갖는 양방향 생성적 대립 신경망(BiGANs)을 도입한다.
최적의 판별기, 생성기 및 인코더를 이론적으로 분석하고 역전 속성을 보인다.
MNIST와 ImageNet에서 BiGANs를 실험적으로 평가하여 학습된 특징의 감독 학습 태스크로의 전이 가능성을 평가한다.

제안 방법

데이터 x를 잠재 코드 z로 매핑하는 인코더 E를 추가하여 GAN을 확장한다.
생성된 데이터에서의 (G(z), z)와 실 데이터에서의 (x, z) 쌍을 비교하도록 판별기를 수정한다.
D가 최대화하고 E,G가 최소화하는 미니맥스 목적함수 V(D,E,G)를 최적화한다(식 3).
최적에서 P_EX가 P_GZ와 같고 E와 G가 거의 모든 곳에서 서로를 역으로 인코딩한다는 것을 증명한다(정리 1과 2).
최적 설정에서 BiGANs가 0-1 스타일 오토인코더 손실에 대응한다는 것을 보인다(정리 3).
g_X와 g_Z를 통해 서로 다른 입력/출력 공간을 처리하도록 BiGAN을 일반화한다(섹션 3.5).
표준 교대 기울기 방법과 더 강한 기울기를 위한 실용적 '역객관도(inverse objective)'로 BiGAN을 학습한다(섹션 3.4).

실험 결과

연구 질문

RQ1인코더를 생성기 및 판별기와 함께 공동 학습시켜 GAN에 대한 의미 있는 역 매핑을 BiGAN이 학습할 수 있는가?
RQ2BiGAN은 비 라벨 데이터 없이도 다운스트림 감독 학습 작업에 유용한 잠재 표현을 생성하는가?
RQ3인코더와 생성기의 최적성 및 역전과 관련한 BiGAN의 이론적 특성은 무엇인가?
RQ4실제 이미지 데이터셋에서 BiGAN은 다른 비지도/자체 감독 특징 학습 방법과 어떻게 비교되는가?
RQ5BiGAN 프레임워크가 더 높은 해상도 입력 및 다양한 특징 공간으로 확장되는 방식은 무엇인가?

주요 결과

Method	1NN Accuracy (%) MNIST (Permuta tion-invariant)
BiGAN	97.39
D (Discriminator only)	97.30
LR (Latent Regressor)	97.44
JLR (Joint Latent Regressor)	97.13
AE (ℓ2)	97.58
AE (ℓ1)	97.63

BiGAN 목적은 결합 분포 P_EX와 P_GZ 사이의 Jensen–Shannon 발산을 산출하며 전역 최적은 P_EX = P_GZ이다.
최적에서 인코더와 생성기는 거의 모든 곳에서 서로를 역전한다(데이터 공간에서 G(E(x)) = x, 잠재 공간에서 E(G(z)) = z).
BiGAN 인코더는 의미 속성의 잠재 표현으로 기능하는 특징을 학습하며 목적상 ℓ0 오토인코더와 유사하게 작용하지만 데이터 구조를 가정하지 않는다.
순열 불변 MNIST에서 BiGAN 특징은 latent regressor 및 오토인코더와 같은 기준선 대비 경쟁력 있는 1NN 정확도를 달성한다(97.39% 대 97.30–97.63% 변형에서).
ImageNet에서 BiGAN은 사전 학습 특성 추출기로 사용될 때 경쟁력 있는 전이 성능을 보여주며 학습 필터 및 재구성에서 정성적 향상을 보인다(Figure 3 & 4).
BiGAN 표현은 PASCAL VOC 작업(분류/탐지/분할)에 현대 비지도/자체 감독 방법과 일치하는 수준으로 전이된다(표 3).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.